大学自述 · 2025.6.14
前阵子冒出了一个想法,我说“AI(特指LLM)是数据平均主义的”。这个念头一出来,就盘踞在脑子里,和最近的许多零碎想法纠缠在了一起。
这个比喻很有意思。如果让AI学习全人类的优质语料,它不就成了这些知识的“平均化身”吗?如果只给它灌输顶尖科学家的思想,它就输出顶尖科学家的“平均认知”。这就像把世界上所有的颜色都倒进一个巨大的容器里,最后得到的不是混沌的黑色,而是一种蕴含了所有可能性的、难以名状的灰色。它平均,但它也包罗万象。
但“涌现”这个概念又让这个平均主义的框架变得不那么简单。如果只是单纯求平均,那结果应该是趋于平庸的,是所有特征的模糊化,像一张将无数面孔叠加后变得面目不清的照片。可LLM能推理,能创造,能产生新的连接。这似乎是个悖论。
后来我又想,这个“平均化身”本身就应该具备涌现能力。就像统计学里的中心极限定理,当样本足够大,那个“平均值”本身就成了一个蕴含深刻规律的实体。如果能把一万个顶尖心灵进行理想化的量化和平均,得到的那个“平均大脑”,它的知识广度和连接能力,必然能涌现出任何单个个体都无法企及的洞见。它能想到别人想不到的东西,恰恰因为它站在了所有人的肩膀上,看到了一个“平均”却又“全景”的视野。
所以,LLM的涌现能力,或许并不推翻“平均主义”的框架,反而是这个框架下的必然产物。它不是对数据的简单拉平,而是找到了一条贯穿所有数据的中轴线,一条深刻揭示了数据底层结构和逻辑的“平均路径”。它走的不是中间道路,而是所有道路的重心。
这么一想,很多事情就通了。AI的“平均”机制,或许不是我们想象中的那种“提炼式”的、取其精华去其糟粕的综合。它更像是一种“关系建模”。它不“理解”任何一个概念,而是构建了一个极其复杂的、关于所有概念之间相互关系的概率星图。它的“思考”,就是在这片星图上,依据概率来计算出一条最优航线。
而“涌现”,就是当这张星图的尺度大到不可思议时,它能够发现一些从未被连接过的星体之间存在的秘密航道。这些航道真实存在于数学逻辑之中,却从未被任何一个渺小的个体观测到。
所以,AI是数据平均主义的。而人呢?人或许是经验平均主义的。每一个意识,不也是在用自己有限的生命去采样这个世界的数据,然后在脑海中构建一个独一无二、却又深刻反映着我们所处现实之平均规律的模型吗?我们都在用自己的一生,去训练一个模型,一个关于“我”的模型。