大模型和人类的理性，哪个更可靠？

内容摘要

文章以一份创业者使用大模型生成的商业计划书为引子，讨论了"大模型的幻觉与人类的理性，哪个更值得信赖"。大模型展现出冷静、稳定、快速的"计算性理性"，但其概率驱动、数据污染、解码策略与不确定性失配导致幻觉频发。虽然已有一些最新方法显著降低幻觉，但仍难以根治。相对地，人类在古希腊哲学传统中被视为"理性的动物"，但现实中更多受生命意志、本能与叙事影响。行为经济学揭示人类常陷入乐观偏差与损失规避，叙事经济学则说明故事传播能主导经济行为。人类的"去幻"依赖流程与制度设计，如预殁检讨、红队反驳、基准率优先、概率校准、冷静期等。文章最后比较两类理性并指出，在数据完备、规则明确的场景中应优先信赖大模型，在价值密集、情境复杂的场景中应优先信赖人类。最值得依赖的是"混合理性"：将大模型用于事实校验和快速推理，把人类用于价值判断和情境取舍，在同一决策链条中结合，才能构建更可靠的理性。

全文

前几天我收到一份企业级AI工具的BP，需要用一串亮眼数字来提升投资人对市场的期待。我们在咖啡馆对稿，他打开电脑给我看刚出炉的市场分析：逻辑紧凑、数据堆得很满、排版也专业，看上去足以打动任何审阅者。

我扫到封面那行核心数字："2025年中国企业级AI市场规模预计突破3000亿"。这数字很诱人，但我还是问："是哪家机构出的？"他笑笑，有点尴尬："DeepSeek给的，还有链接。"点开一看，是个空链接。

其实无论是ChatGPT、DeepSeek还是Gemini，都会出现"幻觉(hallucination)"。

比如我前几天写稿，ChatGPT居然声称"提出中文屋思想实验的约翰·塞尔逝于2024年11月29日"。要不是又去Wikipedia核对，真要闹笑话。面对不确定事实，模型会用概率和语言模式去补全一个看似自洽的答案.它并非故意撒谎，只是在延续语境的合理性。

人类也不见得更好。创业和决策中，我们同样会被认知偏差和故事带偏。2013年诺贝尔经济学奖获得者罗伯特·席勒的叙事经济学指出，很多经济行为受"动人叙事"驱动；泡沫、恐慌和投资潮往往由一个看似有说服力的故事放大。而行为经济学进一步揭示乐观偏差、损失规避、过度自信等系统性错误。这些错误有时比模型的幻觉更难消除，因为它们不仅来自信息缺口，更深植于情绪与身份认同。

大模型的理性：冷静与幻觉并存

表面上，大模型像冷静的理性化身：不疲倦、不带情绪，能在秒级整合海量资料并保持逻辑一致，所以在许多任务上表现出超强的一致性与条理性。但"理性"不等于"真实"。

语言模型仍会生成看似合理却不真实的内容(幻觉/编造)，甚至在自信度很高时也会发生，以权威口吻输出错误；这在近年的综述与实证研究中反复被证实[1]。

幻觉的成因并非单一。其一，模型的基本目标是"下一个词的条件概率预测"，当外部事实缺位或检索不足时，它倾向以高流畅度"补全"最可能的叙述，而不是停下来求证；这让分布外问题更易被"貌似合理"的文本替代。其二，训练语料的噪声、过时或污染数据会把偏误固化进参数。其三，缺乏与外部世界的强约束(grounding)与不当解码策略，会把小偏差放大为长文本中的系统性错误。其四，不确定性"校准"不足：即使"知道"正确答案，也可能在高置信度下给出错误结论。多篇研究表明，幻觉与训练目标、数据质量、分布迁移、解码策略和不确定性失配共同相关，而非某个环节的偶发问题[2]。

因此，大家围绕"如何降幻觉"做了大量工程与学术尝试，但目前总体是"显著缓解而非根治"。一类思路是在生成前后补"求证环"：检索增强生成(RAG)把外部知识接入流程以减少"无根文本"[3]；链式验证(CoVe)让模型先写草稿、再自拟核查问题并独立作答，最后据验证结果改写[4]。另一类直接在推理/解码期动手术：如分层对比解码ActLCD、跨层一致性解码DCLA等，在不改动参数的前提下抑制解码期的错误扩散[5]；还有利用"层级语义片段"(HSP)进行一致性比对的方案，既能识别和回收幻觉，又报告了更低算力消耗[6]。同时，以"语义熵"为代表的不确定性检测用来"只在可疑时触发昂贵校验"，把计算集中到高风险片段[7]。这些路径在多项基准上显著降幻觉，但业界共识仍是：想"完全消除"很难，因为问题根植于生成式模型的概率本性与开放世界的边界。

人类的理性：传统的灯塔与本性的暗流

古希腊的哲学家们给了个清晰的起点。柏拉图把灵魂分为理性λόγος、情绪θυμός与欲望έρως。亚里士多德直接定义人是"理性的动物"，并强调实践智慧，在具体情境中做对的事。斯多葛把共识(συγκατάθεση)视为理性灵魂的机能，对印象(φαντασία)给出或保留判断，由此才产生"冲动/行动"。这一传统把"能论证，能自我约束"当成人类的核心能力。

但人类并非总是依理性行事。尼采强调，驱动行动的是生命意志：创造、扩张、争胜，这些内在冲动在创业环境中尤其强烈。行为经济学进一步将人类非理性拆解为：系统1(快速但易误判)和系统2(可靠但消耗大)，而我们常常惰于启动后者。前景理论表明，人类对损失过度敏感、对概率反应不够理性。叙事经济学则指出好故事通过社交网络与媒体迅速传播，直接影响消费、投资与政策预期，股票市场价格也围着故事跳舞。很多时候，我们的判断实则被叙事牵引。结论显而易见：人类自视为理性动物，但日常决策往往由本能和故事主导。

若真想依靠理性，就不能止于口号，而必须将其转化为可执行的流程。以下为几种常见方法：

为系统2设置"触发条件"。面对高损失、不可逆或价值密集的决策，一律进入慢思考通道；明确书写目标、备选方案、放弃条件和评估标准，用一页纸列出证据与反证。
强制施行斯多葛式"负面想象"。进行预殁检讨（premortem），假设项目已失败，反向推导可能的原因与防御措施；设立独立的"红队"负责唱反调，不受业务团队影响。
先看基准率，再分析个案。借助参考类预测，将"此类项目一般如何"作为锚点，再根据新证据调整，避免先讲故事再凑数据。
量化不确定性并执行校准。关键判断需附上概率和时间窗口，事后用Brier分数复盘，将"我觉得"转变为"我有60%的把握"；持续记录预测与结果，纠正一贯的乐观或保守倾向。
记录与复审。将核心假设、证据链、风险点和决策阈值写成决策备忘录；事后按同一模板复盘，形成可学习的"错误资产"。
与机器协作而非对抗。将检索、事实核对、重复性比对交给工具与模型，使人能聚焦于价值权衡与跨域联想；团队中设置"事实核对清单"，所有关键数据须标注来源、时间戳和不确定区间。
建立组织层面的"刹车机制"。重大融资、并购或扩张前设置冷静期；二次签字须由不受结果直接影响的高管完成，以避免激励错配。

这套方法并不炫目，但切实有效：它承认人类天生冲动和易受叙事影响，同时提供了一条可操作的路径，将"自以为理性"转化为"可被检验的理性"。在此框架下，人并非要压制本能，而是让本能为理性所用；故事也并非被驱逐，而是受证据与边界条件约束。这样的人类理性才经得起现实的长期考验。

两种理性，谁更值得信赖？

大模型的理性是计算性的：快速、稳定、没有情绪，能在短时间内整合碎片化信息并输出逻辑一致的答案；其缺点也同样明显：在信息不全或超出训练分布的情况下，它会借助语言流畅性进行"补位"，导致产生缺乏依据的幻觉。

人类的理性则是生命性的：我们能同时权衡处境、价值与长远后果，也具备自我怀疑的能力；弱点则在于速度、注意力和情绪，在压力、激励或宏大叙事的影响下，很容易偏离理性轨道。

再看二者"去幻"的方法。模型侧通常采用在生成前后加入求证环节，如通过RAG确保答案有据可查，链式验证将"先写草稿、再逐项核对"自动化等。这类方法优势在于可标准化、可规模化，但高度依赖外部知识库与护栏设置，一旦撤除，幻觉易反弹。

人类侧则更依赖流程与组织机制：如预殁检讨、设置独立唱反调的红队、关键判断附加"概率+时间窗口"并进行事后校准、重大决策引入冷静期与二次签字等。这些方法能将价值与情境纳入约束，但执行成本较高，且容易受群体动力与激励错配的影响而效果稀释。

"谁更值得信赖"并没有恒定答案，而是取决于问题类型。在数据完备、规则清晰、结果可验证的场景中（如检索、计算、编码与合规审查），模型通常更可靠；而在价值密集、情境复杂、后果不可逆的决策中（如战略选择、伦理评估、创新方向），则应优先信任人类，由模型辅助提供证据与备选方案。没有任何一方能在所有场景中"普遍胜出"，真正的可信度源于将两者系统化地融合。

混合理性，才是未来的灯塔

在AI时代，理性不再是一场独角戏，而是人与机器共同完成的合奏。机器需借助RAG、链式验证、HSP等技术持续降低幻觉；人类则需通过反事实思考、批判性讨论与跨界视角，克服认知偏差与叙事误导。

真正可信的理性，源于融合机器计算精度与人类价值判断的"混合理性"。它不仅是学术与商业进步的动力，更是未来社会稳健与创新的基石。机器可让光芒更亮，但照亮何方，仍应由人决定。

引用

[1] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., ... & Liu, T. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1-55.

[2] Bai, Z., Wang, P., Xiao, T., He, T., Han, Z., Zhang, Z., & Shou, M. Z. (2024). Hallucination of multimodal large language models: A survey. arXiv preprint arXiv:2404.18930.

[3] Zhang, W., & Zhang, J. (2025). Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review. Mathematics, 13(5), 856.

[4] Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2023). Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495.

[5] Zhang, H., Chen, H., Chen, M., & Zhang, T. (2025). Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation. arXiv preprint arXiv:2505.23657.

[6] Liu, Y., Yang, Q., Tang, J. et al. Reducing hallucinations of large language models via hierarchical semantic piece. Complex Intell. Syst. 11, 231 (2025).

[7] Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625-630.

罗伯特·詹姆斯·席勒(Robert James Shiller, 1946年3月29日 - ）耶鲁大学经济学教授、2013年诺贝尔经济学奖得主，以行为金融学和资产定价研究闻名。他与人合编的Case-Shiller房价指数是全球房地产市场的重要风向标，他提出的席勒市盈率(CAPE)也常被用来判断股市泡沫。他的代表作有《非理性繁荣》《动物精神》和《叙事经济学》，强调故事和情绪在经济中的作用。席勒性格温和却常被视为"逆行者"：在2000年互联网泡沫和2008年金融危机前，他都因直言泡沫风险而被质疑，后来却被证明准确。他的一句名言概括了其研究核心："市场不是冷冰冰的贴现公式，价格围着故事跳舞。"

关于作者

Hotcan，80后技术老炮儿和哲学爱好者

云计算和数字化转型的投资人和创业者