关于中医AI

雲文 雲文

这篇文字,其实是师门群中,师兄师姐们,关于中医AI的探讨。转成文字,以记之。

image-20230723065403736

人工智能,虽然冠了这个名字,但并不等于真的是“智能”,很多时候出来的结果很荒谬,称之为“人工智障”一点不为过。

这一代火热的工智能技术ChatGPT其实是大语言模型,要解释大语言模型需要点笔墨。

它是机器学习技术对人类语言的模型模拟和重现,所以是“语言模型language model”,是机器利用“深度学习”技术试图模拟重现人类语言“表达”背后的模型。

“表达”和“表达背后”有点类似现象和本质的关系,“树”这个东西,在中文的表达叫“树”,英文表达叫tree。

表达本身的意义其实是在展示“表达背后”,比如说“一根木质圆棍儿上面撑着绿油油伞状覆盖冠”,当然也可以是别的,比如说“光合作用的乔木”等等。

这个“圆棍和冠的组合”就是“表达背后”的东西。

我们人类关注的是这个“表达背后”的东西,而不是“树”或者“tree”这样的表达,所有换个语种,“圆木棍加伞状冠”可能就变了,法文里可能是“阿猫阿狗”

进一步的,单独的“树”或者“tree”没有实际意义,需要上下文支持才有意义, 比如“河边有棵树”或者“there is a tree beside the river”,这个语境下“树”才有意义,语言模型就是试图从训练数据集中得出结果:什么情况下“树”应该跟在“河边有棵”后面。

如果把这个由“河边有棵﹏”推导出“河边有棵树”的过程,看作推导概率函数的话,

其实是计算一个概率的过程,

不好的模型可能得出结果“河边有一颗猪”, 好的模型可能得出“河边有棵花”, 理想模型才会得出“河边有棵树”。

这里“猪”、“花”、“树”这样的组合有无数个,比如说“人”、“狗”、“猫”,组合结果称之为海量的,大量的。 就是“大语言模型”中的“大”的来源,当然也代表了他需要巨大的环境支持(CPU、内存等硬件和训练数据集)。 大语言模型和之前的类似ifelse模式的专家系统有很大差别,比如说: if( 体温 > 37℃) { 桂枝汤解表} 这个决策中, 根据if来采取行动是专家系统的思想, 有方科技之前碰到的难点也在于此,讨论中可知,胡老师推演决策树发现每增加一层,ifelse的决策树指数为18的复杂度疯狂递增,这不是乘法递增,是指数递增。

而精准到37℃是基于阈值的建立的向量模型才是大语言模型的难点和精髓。 这里,大语言模型只能知道概率函数的结果,永远不知道“圆棍加覆盖冠”的意义。

师姐说的AI不具备灵性,从这个角度,可以更进一步的说,AI甚至连“树”是“圆棍儿加伞状冠”的组合都不知道。

image-20230723065508854

但它知道把“树”填进去,更符合由训练数据集得到的“语言模型”。

这里,多次提到数据集,其实是喂数据的过程,喂给模型什么数据,就回答出什么样的结果。 前段时间有人反馈AI开始污染《坛经》:在坛经中插入不存在的经文。 这应该是数据集被污染的原因。

当中医整体水平偏高的时候,喂的文献数据集质量偏高,自然养出来的模型就是接近完美理想的中医模型,否则就是不完美的中医模型。

所有“AI能不能代替中医”这个问题,可以转化为“以目前的评价体系,目前的中医文献能不能支撑中医被评价为更好的医学体系”?

对于这个问题,个人更倾向于古人的看法:

医书汗牛充栋,大抵下驷十之七、中驷十之二、上驷十之一

如此估算,训练出来的模型,百分之七十的概率是“下驷”。

只有训练集水平达到“上驷”,得到的中医AI,才会是“上驷AI”

脉学方面,切脉和治疗,因为“舍脉从证”的情况还是很多的。 千辛万苦切出来的脉证结果,反而会被舍掉。 甚至有的金氏盲派脉证结果精准程度和CT完全一致,肝肿瘤位置和大小,精准到cm级别。但是他们在治疗上,也是常常求诸外援。这就真的很尬了。

基于已有准确数据集诞生的AI,在”守成“上,能够超越大部分人群的能力。 如果现有文献质量不高,那也中医AI也够呛。所以从这个角度来说,结论和师兄类似:目前远远不够成熟。

image-20230723065721721

师兄提到的形气神和算法的统一,这是很高的角度,高到气文化为代表的东方思想能够立足,能够旺盛的前提。否则,还是“形式”医学主导的“形式AI”。 算不得“中医AI”,“西医AI”可能更加恰当。