医疗领域到底能不能使用AI?

科技   2026-01-14 21:50   83   0  

在回答这个问题之前,我们要先弄明白AI大模型到底是什么,内在是什么原理。否则很多领域外的朋友对大模型的理解仅限于听别人的形容,但这样会存在巨大的信息差,像是盲人摸象,要么将AI神话为无所不能甚至完全替代人类的新物种,要么一味贬低AI技术进而完全排斥的资本泡沫。

AI本质上是一台“数学机器”,它看不懂人类的文字,只能处理数字。

你有没有想过,当你问大模型“今天天气怎么样”时,既然计算机看不懂人类的文字,那它是如何“听懂”你的问题的?那就慢慢听我拆解如下:

一、文字的“数字化变身”:从字符到语义向量

  1. Token化:把句子拆分成“最小语义单元”
    首先,模型会将输入文本切分成Token(词元),这是语言处理的最小单位。例如,“今天天气怎么样”可能被拆分为 [今天, 天气, 怎么样] 三个Token 。每个Token会被分配一个唯一的ID,就像给每个词语发一张“身份证”,方便模型在海量参数中快速定位。

  1. 词嵌入:让“天气”和“气温”成为邻居
    早期的AI用“独热编码”(One-Hot Encoding)表示文字:比如“苹果”对应一个只有第345位是1、其余全是0的向量。但这种方法有个致命问题——无法表达语义关系。比如“苹果”和“香蕉”在向量空间中是完全正交的(没有任何关联),AI根本不知道它们都是水果。

    后来,科学家发明了词嵌入(Word Embedding)技术,把文字映射到低维的“语义空间”中。比如“苹果”可能被表示为[0.2, 0.5, -0.1],“香蕉”是[0.3, 0.4, -0.2]——这两个向量在空间中距离很近,AI就能理解它们都是水果。同理,“天气”可能被表示为 [0.3, 0.7, -0.2],“气温”是 [0.4, 0.6, -0.1]——这两个向量在语义空间中距离很近,模型因此知道它们都与“气象”相关。但有一点需要注意,初始状态下,所有的词语在这个“语义空间”中都是随机的,在后续的大模型训练阶段,大模型会根据人类现有的大量文字分布规律,利用数学算法将各个词语整理到合适的位置。

  1. 位置编码:给词语“排座位”

    中文句子的语义高度依赖语序,比如“今天天气”和“天气今天”含义完全不同。模型会通过位置编码(Positional Encoding)给每个Token添加“位置信息”,例如用 [0.1, 0.0] 表示“今天”是句子的第一个词,[0.2, 0.1] 表示“天气”是第二个词。这样,模型就能理解“今天”是时间状语,“天气”是核心名词。

二、上下文理解:自注意力机制的“聚焦魔法”

有了词向量和位置信息,模型还需要理解词语之间的语义关联——就像人类会自动把“今天”和“天气”联系起来一样。这一步的核心是自注意力机制(Self-Attention),它让模型能动态“关注”句子中的关键信息。

  1. 计算“相关性分数”:谁和谁关系更近?
    自注意力机制会为每个词计算与其他词的“相关性分数”。例如,在“今天天气怎么样”中:
    ·“天气”会与“今天”(时间)和“怎么样”(询问状态)高度相关,分数较高;
    ·“今天”与“怎么样”的相关性较低,分数较低
    这些分数会被转化为权重,决定模型在理解句子时“聚焦”哪些词。最终,“天气”成为句子的核心,而“今天”提供时间背景,“怎么样”明确了问题类型。

  2. 多头注意力:从多个“视角”看问题

    为了更全面地理解语义,模型会使用多头注意力(Multi-Head Attention)——相当于同时从多个“视角”分析句子:
    ·第一个“头”关注时间与事件的关系(今天 → 天气);
    ·第二个“头”关注疑问词与核心名词的关系(怎么样 → 天气);
    ·第三个“头”关注整体句式结构(这是一个疑问句)

    多个“头”的结果会被合并,让模型对句子的理解更加立体。

三、意图识别:从“问天气”到“需要天气预报”


理解字面意思后,模型需要进一步判断用户的真实意图。“今天天气怎么样”表面是问天气,实际可能隐含多种需求:用户可能想知道是否需要带伞、是否适合户外活动,或者只是闲聊。

  1. 语义角色标注:给词语“贴标签”
    模型会通过语义角色标注技术,识别句子中的“谁在问什么”:
    ·施事者(提问者):未在句中出现,但模型默认是用户;
    ·核心事件:天气(被询问的对象);
    ·时间状语:今天(限定范围);
    ·疑问方式:怎么样(要求描述状态)

    这一步类似人类语法分析,但模型能在毫秒级完成。

  2. 意图分类:匹配“天气查询”模板

    大模型在训练时学习了数百万个类似“今天天气如何”“明天会下雨吗”的样本,因此能快速将当前问题归类为“天气查询”意图。同时,它会结合上下文窗口(Context Window)中的历史对话(如果有的话),例如:
    ·如果用户之前问过“北京天气”,模型会默认查询北京的天气;
    ·如果没有历史信息,可能需要进一步追问“请问您想查询哪个城市?”

  3. 调用外部工具:从“理解”到“行动”

    纯语言模型无法实时获取天气数据,因此需要工具调用能力(Tool Use)。当识别出“天气查询”意图后,模型会生成一个API调用指令,例如:

    <|FunctionCallBegin|>[{“name”:“get_weather”,“parameters”:{“location”:“当前城市”,“date”:“今天”}}]<|FunctionCallEnd|>

    外部工具(如天气API)返回数据后,模型再将结果转化为自然语言回答。

理解了以上原理,就不难理解为什么AI大模型会出现幻觉问题。

比如用户问“今天天气怎么样”,模型可能回答“今天是2025年12月4日”——这背后有两个常见原因:

  1. 语义歧义:一词多义导致误解
    中文中“天气”通常指气象,但在某些语境下可能有歧义(如“股市天气”)。如果训练数据中存在类似表达,模型可能混淆意图。

  2. 上下文窗口限制:“忘记”关键信息

    如果对话历史过长(超过模型的上下文窗口长度,如GPT-3.5的4000 Token),模型可能“忘记”用户之前提到的城市,导致回答缺失关键信息。

  3. 幻觉问题:编造不存在的天气数据

    大模型有时会“一本正经地胡说八道”,例如明明是晴天却回答“今天有暴雨”。这是因为它本质上是通过概率预测生成文本,而非真正“理解”事实。

那么在医疗领域,上述问题尤为突出,比如:

  1. 术语多义性:“出血”的不同指向

医生输入“患者有出血史”,AI可能误判为“消化道出血”(训练数据中常见),但实际患者是“脑出血后遗症”。

歧义根源:

词嵌入阶段:“出血”作为通用术语,在语义空间中与多个器官系统的向量距离接近(如“胃出血”“脑出血”均高频共现)。

上下文缺失:若病历未明确“颅内”等限定词,自注意力机制可能优先关联训练数据中占比更高的“消化道出血”相关特征。

  1. 口语化表达的误解:“有点不舒服”

患者描述“最近总觉得有点不舒服”,AI生成“建议做胃镜检查”,但患者实际是“心悸导致的胸闷”。

歧义根源:

Token化偏差:“不舒服”作为模糊口语Token,缺乏标准化医学编码(如ICD-10症状代码),模型难以映射到精准语义向量。

意图分类错误:训练数据中“胃部不适”常对应“胃镜”模板,而“心悸”相关口语样本较少,导致多头注意力误匹配权重。

  1. 剂量单位的混淆:“mg”与“ml”

处方输入“胰岛素10单位”,AI误输出“10mg”(毫克),实际应为“10ml”(毫升,对应胰岛素笔的常规剂量单位)。

歧义根源:

位置编码失效:“单位”作为量词时,与“mg”“ml”在句子中的位置特征相似(如“10 [单位/毫克/毫升]”)。

领域知识缺失:模型未学习到“胰岛素剂量通常用ml而非mg”的专业规则,导致工具调用时参数提取错误。

还有很多很多案例,在此不再赘述,那么回到最初的问题,医疗领域到底还能不能使用AI?

答案是可以,但是一定要在深刻理解大模型工作原理的基础上,加以场景区分。也就是说根据问题的意图——是想让AI帮你做判断还是想让AI帮你生成内容来区分,结合上述大模型原理,可以大致推出以下过程及结论:

AI做判断:比如问“猫是动物吗?”,大模型首先进行向量化,然后启动自注意力机制算相似度并从多视角(头)验证,最后根据概率得出结论“是”。或许大家此刻会问,如果这个过程中某个环节不满足条件或者是错误的,那AI岂不是无法判断或者判断错误了吗?非常好,这就是判断式AI大模型的天生缺陷,总结如下:

  1. 数据维度的缺失,如判断某个小孩未来是否能成才,如果只是单纯从小孩子的IQ来判断,显然是非常片面,众所周知每个人在成长过程中会遇到无穷尽的因素,每个因素或许都可能成为改变命运的关键。

  1. 所判断问题的复杂性本身规则变化或者随机性,如彩票的中奖号码,因为每个开奖号码本身就是随机的,大模型又如何得出大概率获奖的号码呢?

所以,在医疗领域中,如果要解决的是判断性问题,前提条件必须尽可能满足以上两个条件又或者问题本身被界定为低风险高容错,比如

医疗影像诊断(判断一张X光片所显示的结节是良性还是恶性);

风险预测:给疾病“算概率”;

临床路径推荐:诊疗方案“选择题”;

智能导诊,先给患者一个挂号的建议,患者到医生处再进行问诊;

清楚以上问题后,显然就能回答一个最终极问题:AI是否能代替医生下诊断呢?

不能,至少目前是肯定不能,先抛开法律和人伦道德来说,这个问题明显不满足第一个条件。

一个典型的例子,和新冠肺炎(COVID-19)的影像学诊断有关。之前有大量研究声称能通过胸部X光片高精度区分新冠患者和普通肺炎患者。然而,一项针对400多篇相关论文的系统审查发现,这些研究因严重方法论缺陷几乎不具备临床应用价值。原因是其中一个致命缺陷和数据集有关。在多个研究的训练数据中,几乎所有新冠肺炎影像来自成人,而所有未患病影像来自儿童。AI精准捕捉到了这个统计规律:“成人→可能患新冠;儿童→可能只是普通感冒”。诊断需要判断的维度和逻辑本身就很复杂,甚至是无穷尽的维度,因此,就目前而言,AI只能做辅助筛查,而且还必须在确保训练数据样本足够多、数据正确且数据安全的前提下,否则是不具备临床应用价值的。

市面上很多声称能替代医生或者就是医生的数字分身,还有所谓颠覆性的AI产品广告都言过其实,大部分是资本炒作的概念,不管从医学角度还是金融理论上都存在巨大的风险。

AI内容生成:比如“帮我写一篇关于医疗领域到底能不能使用AI的论述报告”,同样的,大模型对问题进行向量化,然后启动自注意力机制算相似度并从多视角(头)验证,和判断场景不同的是到此过程时大模型会判断问题为文本生成任务,那么大模型会执行更多的步骤,如把“语义坐标”再“翻译”成文字,这是生成式任务独有的向量化环节——模型需要“逆向操作”:

先有“语义蓝图”:当生成报告引言时,模型脑中先形成一个“抽象语义向量”(比如“医疗AI有争议+需分场景讨论”的综合向量);

再逐词“落地”:通过解码器(Decoder)将这个抽象向量“拆解”成具体文字:

第一步:生成“医疗”(从语义向量中提取最相关的Token);

第二步:生成“AI”(根据“医疗”的向量和位置信息,预测下一个最可能的词);

第三步:生成“技术的应用”(结合前两个词的向量,继续预测后续Token)…… 整个过程就像“用坐标画点连成线”,最终形成完整句子。

以下是判断式AI和生成式AI执行的主要区别:

阶段

判断式任务(如“猫是动物吗”)

生成式任务(如写报告)

输入向量化

✅ 相同:Token化→词嵌入→位置编码

✅ 相同:Token化→词嵌入→位置编码

核心向量

静态向量(输入文本的固定语义坐标)

动态向量(随生成过程实时更新的语义坐标)

输出依赖

向量相似度(如“猫”和“动物”的距离)

向量预测(下一个词的概率分布,如“医疗”后接“AI”的概率)

目标

输出“单一结论向量”(是/否)

输出“序列向量”(报告的完整Token序列)

生成式任务的向量化是“滚动式”的——每生成一个词,都会更新当前的语义向量,再用新向量预测下一个词,就像边搭积木边调整结构,所以大家看到AI生成内容的时候为什么会是一个词一个词地蹦出来。

这时聪明的你又会有疑问,假如这个过程中某个环节不满足条件或者是错误的,那AI生成的内容就可能是错的,恭喜你,已经明白人工智能为什么会变成人工智障,专业术语称为“AI幻觉”。就是因为训练数据中“错误搭配”的概率较高(比如“AI能替代医生”的虚假信息较多),模型生成时会优先选择概率高的向量组合,导致“幻觉”。例如:
错误向量关联:“AI”和“替代医生”的向量距离过近(因训练数据偏见),生成时就会输出“AI能替代医生”,尽管事实错误。

综上所述,生成式AI的本质就是概率性文本生成器,事实的准确性,从来不是其核心设计目标!

在医疗领域中,如果要利用AI生成内容,前提条件是:

  1. 数据要求专业性,训练数据需包含权威医学文本(如《内科学》教材、FDA指南、核心期刊论文),避免网络非专业内容(如“民间偏方”)污染语义空间。例如,让“出血”与“消化道”“颅内”等器官术语的向量关联更精准,减少歧义。

  2. 数据要求多样性,覆盖不同场景(门诊病历、手术记录、医患对话)和亚专业(内科、外科、影像科),避免“胃部不适→胃镜”这类单一训练样本导致的多头注意力偏见。

  3. 人类医生必须进行审核监管,另外还需要增加一些程序校验机制,比如生成“急性心梗”时,模型需验证该术语与“ST段抬高”“肌钙蛋白升高”的标准关联。

满足以上条件后,医院仍然需要审慎使用生成式AI,因此,就目前而言,医生在临床使用生成式AI时,务必先思考以下几个问题:

  1. 是否是核心决策内容。

  2. 审核成本是否明显大于人工生成成本。

  3. 是否可追溯错误(记录生成每一步的向量计算逻辑)以及是否能承担所造成的错误风险。

这里举个典型应用场景,利用生成式AI将医生视角写成的专业文本转化为普通人通俗易懂的大白话,并且给出后续康复管理方案。

本文核心问题已有了答案,但是仅限当前,那未来呢?

有人说随着科技发展,算力不断突破瓶颈,有一天AI一定会产生自主意识,替代人类或者毁灭人类。那么各位觉得呢?


博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。