关于中医AI — 竹叶山人

这篇文字，其实是师门群中，师兄师姐们，关于中医AI的探讨。转成文字，以记之。

人工智能，虽然冠了这个名字，但并不等于真的是“智能”，很多时候出来的结果很荒谬，称之为“人工智障”一点不为过。

这一代火热的工智能技术ChatGPT其实是大语言模型，要解释大语言模型需要点笔墨。

它是机器学习技术对人类语言的模型模拟和重现，所以是“语言模型language model”，是机器利用“深度学习”技术试图模拟重现人类语言“表达”背后的模型。

“表达”和“表达背后”有点类似现象和本质的关系，“树”这个东西，在中文的表达叫“树”，英文表达叫tree。

表达本身的意义其实是在展示“表达背后”，比如说“一根木质圆棍儿上面撑着绿油油伞状覆盖冠”，当然也可以是别的，比如说“光合作用的乔木”等等。

这个“圆棍和冠的组合”就是“表达背后”的东西。

我们人类关注的是这个“表达背后”的东西，而不是“树”或者“tree”这样的表达，所有换个语种，“圆木棍加伞状冠”可能就变了，法文里可能是“阿猫阿狗”

进一步的，单独的“树”或者“tree”没有实际意义，需要上下文支持才有意义，比如“河边有棵树”或者“there is a tree beside the river”，这个语境下“树”才有意义，语言模型就是试图从训练数据集中得出结果：什么情况下“树”应该跟在“河边有棵”后面。

如果把这个由“河边有棵﹏”推导出“河边有棵树”的过程，看作推导概率函数的话，

其实是计算一个概率的过程，

不好的模型可能得出结果“河边有一颗猪”，好的模型可能得出“河边有棵花”，理想模型才会得出“河边有棵树”。

这里“猪”、“花”、“树”这样的组合有无数个，比如说“人”、“狗”、“猫”，组合结果称之为海量的，大量的。就是“大语言模型”中的“大”的来源，当然也代表了他需要巨大的环境支持（CPU、内存等硬件和训练数据集）。大语言模型和之前的类似ifelse模式的专家系统有很大差别，比如说： if( 体温 > 37℃) { 桂枝汤解表} 这个决策中，根据if来采取行动是专家系统的思想，有方科技之前碰到的难点也在于此，讨论中可知，胡老师推演决策树发现每增加一层，ifelse的决策树指数为18的复杂度疯狂递增，这不是乘法递增，是指数递增。

而精准到37℃是基于阈值的建立的向量模型才是大语言模型的难点和精髓。这里，大语言模型只能知道概率函数的结果，永远不知道“圆棍加覆盖冠”的意义。

师姐说的AI不具备灵性，从这个角度，可以更进一步的说，AI甚至连“树”是“圆棍儿加伞状冠”的组合都不知道。

但它知道把“树”填进去，更符合由训练数据集得到的“语言模型”。

这里，多次提到数据集，其实是喂数据的过程，喂给模型什么数据，就回答出什么样的结果。前段时间有人反馈AI开始污染《坛经》：在坛经中插入不存在的经文。这应该是数据集被污染的原因。

当中医整体水平偏高的时候，喂的文献数据集质量偏高，自然养出来的模型就是接近完美理想的中医模型，否则就是不完美的中医模型。

所有“AI能不能代替中医”这个问题，可以转化为“以目前的评价体系，目前的中医文献能不能支撑中医被评价为更好的医学体系”？

对于这个问题，个人更倾向于古人的看法：

医书汗牛充栋，大抵下驷十之七、中驷十之二、上驷十之一

如此估算，训练出来的模型，百分之七十的概率是“下驷”。

只有训练集水平达到“上驷”，得到的中医AI，才会是“上驷AI”

脉学方面，切脉和治疗，因为“舍脉从证”的情况还是很多的。千辛万苦切出来的脉证结果，反而会被舍掉。甚至有的金氏盲派脉证结果精准程度和CT完全一致，肝肿瘤位置和大小，精准到cm级别。但是他们在治疗上，也是常常求诸外援。这就真的很尬了。

基于已有准确数据集诞生的AI，在”守成“上，能够超越大部分人群的能力。如果现有文献质量不高，那也中医AI也够呛。所以从这个角度来说，结论和师兄类似：目前远远不够成熟。

师兄提到的形气神和算法的统一，这是很高的角度，高到气文化为代表的东方思想能够立足，能够旺盛的前提。否则，还是“形式”医学主导的“形式AI”。算不得“中医AI”，“西医AI”可能更加恰当。