内容摘要
文章以一份创业者使用大模型生成的商业计划书为引子,讨论了"大模型的幻觉与人类的理性,哪个更值得信赖"。大模型展现出冷静、稳定、快速的"计算性理性",但其概率驱动、数据污染、解码策略与不确定性失配导致幻觉频发。虽然已有一些最新方法显著降低幻觉,但仍难以根治。相对地,人类在古希腊哲学传统中被视为"理性的动物",但现实中更多受生命意志、本能与叙事影响。行为经济学揭示人类常陷入乐观偏差与损失规避,叙事经济学则说明故事传播能主导经济行为。人类的"去幻"依赖流程与制度设计,如预殁检讨、红队反驳、基准率优先、概率校准、冷静期等。文章最后比较两类理性并指出,在数据完备、规则明确的场景中应优先信赖大模型,在价值密集、情境复杂的场景中应优先信赖人类。最值得依赖的是"混合理性":将大模型用于事实校验和快速推理,把人类用于价值判断和情境取舍,在同一决策链条中结合,才能构建更可靠的理性。
全文
前几天我收到一份企业级AI工具的BP,需要用一串亮眼数字来提升投资人对市场的期待。我们在咖啡馆对稿,他打开电脑给我看刚出炉的市场分析:逻辑紧凑、数据堆得很满、排版也专业,看上去足以打动任何审阅者。
我扫到封面那行核心数字:"2025年中国企业级AI市场规模预计突破3000亿"。这数字很诱人,但我还是问:"是哪家机构出的?"他笑笑,有点尴尬:"DeepSeek给的,还有链接。"点开一看,是个空链接。
其实无论是ChatGPT、DeepSeek还是Gemini,都会出现"幻觉(hallucination)"。
比如我前几天写稿,ChatGPT居然声称"提出中文屋思想实验的约翰·塞尔逝于2024年11月29日"。要不是又去Wikipedia核对,真要闹笑话。面对不确定事实,模型会用概率和语言模式去补全一个看似自洽的答案.它并非故意撒谎,只是在延续语境的合理性。
人类也不见得更好。创业和决策中,我们同样会被认知偏差和故事带偏。2013年诺贝尔经济学奖获得者罗伯特·席勒的叙事经济学指出,很多经济行为受"动人叙事"驱动;泡沫、恐慌和投资潮往往由一个看似有说服力的故事放大。而行为经济学进一步揭示乐观偏差、损失规避、过度自信等系统性错误。这些错误有时比模型的幻觉更难消除,因为它们不仅来自信息缺口,更深植于情绪与身份认同。
大模型的理性:冷静与幻觉并存
表面上,大模型像冷静的理性化身:不疲倦、不带情绪,能在秒级整合海量资料并保持逻辑一致,所以在许多任务上表现出超强的一致性与条理性。但"理性"不等于"真实"。
语言模型仍会生成看似合理却不真实的内容(幻觉/编造),甚至在自信度很高时也会发生,以权威口吻输出错误;这在近年的综述与实证研究中反复被证实[1]。
幻觉的成因并非单一。其一,模型的基本目标是"下一个词的条件概率预测",当外部事实缺位或检索不足时,它倾向以高流畅度"补全"最可能的叙述,而不是停下来求证;这让分布外问题更易被"貌似合理"的文本替代。其二,训练语料的噪声、过时或污染数据会把偏误固化进参数。其三,缺乏与外部世界的强约束(grounding)与不当解码策略,会把小偏差放大为长文本中的系统性错误。其四,不确定性"校准"不足:即使"知道"正确答案,也可能在高置信度下给出错误结论。多篇研究表明,幻觉与训练目标、数据质量、分布迁移、解码策略和不确定性失配共同相关,而非某个环节的偶发问题[2]。
因此,大家围绕"如何降幻觉"做了大量工程与学术尝试,但目前总体是"显著缓解而非根治"。一类思路是在生成前后补"求证环":检索增强生成(RAG)把外部知识接入流程以减少"无根文本"[3];链式验证(CoVe)让模型先写草稿、再自拟核查问题并独立作答,最后据验证结果改写[4]。另一类直接在推理/解码期动手术:如分层对比解码ActLCD、跨层一致性解码DCLA等,在不改动参数的前提下抑制解码期的错误扩散[5];还有利用"层级语义片段"(HSP)进行一致性比对的方案,既能识别和回收幻觉,又报告了更低算力消耗[6]。同时,以"语义熵"为代表的不确定性检测用来"只在可疑时触发昂贵校验",把计算集中到高风险片段[7]。这些路径在多项基准上显著降幻觉,但业界共识仍是:想"完全消除"很难,因为问题根植于生成式模型的概率本性与开放世界的边界。
人类的理性:传统的灯塔与本性的暗流
古希腊的哲学家们给了个清晰的起点。柏拉图把灵魂分为理性λόγος、情绪θυμός与欲望έρως。亚里士多德直接定义人是"理性的动物",并强调实践智慧,在具体情境中做对的事。斯多葛把共识(συγκατάθεση)视为理性灵魂的机能,对印象(φαντασία)给出或保留判断,由此才产生"冲动/行动"。这一传统把"能论证,能自我约束"当成人类的核心能力。
但人类并非总是依理性行事。尼采强调,驱动行动的是生命意志:创造、扩张、争胜,这些内在冲动在创业环境中尤其强烈。行为经济学进一步将人类非理性拆解为:系统1(快速但易误判)和系统2(可靠但消耗大),而我们常常惰于启动后者。前景理论表明,人类对损失过度敏感、对概率反应不够理性。叙事经济学则指出好故事通过社交网络与媒体迅速传播,直接影响消费、投资与政策预期,股票市场价格也围着故事跳舞。很多时候,我们的判断实则被叙事牵引。结论显而易见:人类自视为理性动物,但日常决策往往由本能和故事主导。
若真想依靠理性,就不能止于口号,而必须将其转化为可执行的流程。以下为几种常见方法:
- 为系统2设置"触发条件"。面对高损失、不可逆或价值密集的决策,一律进入慢思考通道;明确书写目标、备选方案、放弃条件和评估标准,用一页纸列出证据与反证。
- 强制施行斯多葛式"负面想象"。进行预殁检讨(premortem),假设项目已失败,反向推导可能的原因与防御措施;设立独立的"红队"负责唱反调,不受业务团队影响。
- 先看基准率,再分析个案。借助参考类预测,将"此类项目一般如何"作为锚点,再根据新证据调整,避免先讲故事再凑数据。
- 量化不确定性并执行校准。关键判断需附上概率和时间窗口,事后用Brier分数复盘,将"我觉得"转变为"我有60%的把握";持续记录预测与结果,纠正一贯的乐观或保守倾向。
- 记录与复审。将核心假设、证据链、风险点和决策阈值写成决策备忘录;事后按同一模板复盘,形成可学习的"错误资产"。
- 与机器协作而非对抗。将检索、事实核对、重复性比对交给工具与模型,使人能聚焦于价值权衡与跨域联想;团队中设置"事实核对清单",所有关键数据须标注来源、时间戳和不确定区间。
- 建立组织层面的"刹车机制"。重大融资、并购或扩张前设置冷静期;二次签字须由不受结果直接影响的高管完成,以避免激励错配。
这套方法并不炫目,但切实有效:它承认人类天生冲动和易受叙事影响,同时提供了一条可操作的路径,将"自以为理性"转化为"可被检验的理性"。在此框架下,人并非要压制本能,而是让本能为理性所用;故事也并非被驱逐,而是受证据与边界条件约束。这样的人类理性才经得起现实的长期考验。
两种理性,谁更值得信赖?
大模型的理性是计算性的:快速、稳定、没有情绪,能在短时间内整合碎片化信息并输出逻辑一致的答案;其缺点也同样明显:在信息不全或超出训练分布的情况下,它会借助语言流畅性进行"补位",导致产生缺乏依据的幻觉。
人类的理性则是生命性的:我们能同时权衡处境、价值与长远后果,也具备自我怀疑的能力;弱点则在于速度、注意力和情绪,在压力、激励或宏大叙事的影响下,很容易偏离理性轨道。
再看二者"去幻"的方法。模型侧通常采用在生成前后加入求证环节,如通过RAG确保答案有据可查,链式验证将"先写草稿、再逐项核对"自动化等。这类方法优势在于可标准化、可规模化,但高度依赖外部知识库与护栏设置,一旦撤除,幻觉易反弹。
人类侧则更依赖流程与组织机制:如预殁检讨、设置独立唱反调的红队、关键判断附加"概率+时间窗口"并进行事后校准、重大决策引入冷静期与二次签字等。这些方法能将价值与情境纳入约束,但执行成本较高,且容易受群体动力与激励错配的影响而效果稀释。
"谁更值得信赖"并没有恒定答案,而是取决于问题类型。在数据完备、规则清晰、结果可验证的场景中(如检索、计算、编码与合规审查),模型通常更可靠;而在价值密集、情境复杂、后果不可逆的决策中(如战略选择、伦理评估、创新方向),则应优先信任人类,由模型辅助提供证据与备选方案。没有任何一方能在所有场景中"普遍胜出",真正的可信度源于将两者系统化地融合。
混合理性,才是未来的灯塔
在AI时代,理性不再是一场独角戏,而是人与机器共同完成的合奏。机器需借助RAG、链式验证、HSP等技术持续降低幻觉;人类则需通过反事实思考、批判性讨论与跨界视角,克服认知偏差与叙事误导。
真正可信的理性,源于融合机器计算精度与人类价值判断的"混合理性"。它不仅是学术与商业进步的动力,更是未来社会稳健与创新的基石。机器可让光芒更亮,但照亮何方,仍应由人决定。
引用
[1] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., ... & Liu, T. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1-55.
[2] Bai, Z., Wang, P., Xiao, T., He, T., Han, Z., Zhang, Z., & Shou, M. Z. (2024). Hallucination of multimodal large language models: A survey. arXiv preprint arXiv:2404.18930.
[3] Zhang, W., & Zhang, J. (2025). Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review. Mathematics, 13(5), 856.
[4] Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2023). Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495.
[5] Zhang, H., Chen, H., Chen, M., & Zhang, T. (2025). Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation. arXiv preprint arXiv:2505.23657.
[6] Liu, Y., Yang, Q., Tang, J. et al. Reducing hallucinations of large language models via hierarchical semantic piece. Complex Intell. Syst. 11, 231 (2025).
[7] Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625-630.
罗伯特·詹姆斯·席勒(Robert James Shiller, 1946年3月29日 - )耶鲁大学经济学教授、2013年诺贝尔经济学奖得主,以行为金融学和资产定价研究闻名。他与人合编的Case-Shiller房价指数是全球房地产市场的重要风向标,他提出的席勒市盈率(CAPE)也常被用来判断股市泡沫。他的代表作有《非理性繁荣》《动物精神》和《叙事经济学》,强调故事和情绪在经济中的作用。席勒性格温和却常被视为"逆行者":在2000年互联网泡沫和2008年金融危机前,他都因直言泡沫风险而被质疑,后来却被证明准确。他的一句名言概括了其研究核心:"市场不是冷冰冰的贴现公式,价格围着故事跳舞。"
💬 留言