大模型和人類的理性，哪個更可靠？

內容摘要

文章以一份創業者使用大模型生成的商業計劃書為引子，討論了"大模型的幻覺與人類的理性，哪個更值得信賴"。大模型展現出冷靜、穩定、快速的"計算性理性"，但其概率驅動、數據污染、解碼策略與不確定性失配導致幻覺頻發。雖然已有一些最新方法顯著降低幻覺，但仍難以根治。相對地，人類在古希臘哲學傳統中被視為"理性的動物"，但現實中更多受生命意志、本能與敍事影響。行為經濟學揭示人類常陷入樂觀偏差與損失規避，敍事經濟學則説明故事傳播能主導經濟行為。人類的"去幻"依賴流程與制度設計，如預歿檢討、紅隊反駁、基準率優先、概率校準、冷靜期等。文章最後比較兩類理性並指出，在數據完備、規則明確的場景中應優先信賴大模型，在價值密集、情境複雜的場景中應優先信賴人類。最值得依賴的是"混合理性"：將大模型用於事實校驗和快速推理，把人類用於價值判斷和情境取捨，在同一決策鏈條中結合，才能構建更可靠的理性。

全文

前幾天我收到一份企業級AI工具的BP，需要用一串亮眼數字來提升投資人對市場的期待。我們在咖啡館對稿，他打開電腦給我看剛出爐的市場分析：邏輯緊湊、數據堆得很滿、排版也專業，看上去足以打動任何審閲者。

我掃到封面那行核心數字："2025年中國企業級AI市場規模預計突破3000億"。這數字很誘人，但我還是問："是哪家機構出的？"他笑笑，有點尷尬："DeepSeek給的，還有鏈接。"點開一看，是個空鏈接。

其實無論是ChatGPT、DeepSeek還是Gemini，都會出現"幻覺(hallucination)"。

比如我前幾天寫稿，ChatGPT居然聲稱"提出中文屋思想實驗的約翰·塞爾逝於2024年11月29日"。要不是又去Wikipedia核對，真要鬧笑話。面對不確定事實，模型會用概率和語言模式去補全一個看似自洽的答案.它並非故意撒謊，只是在延續語境的合理性。

人類也不見得更好。創業和決策中，我們同樣會被認知偏差和故事帶偏。2013年諾貝爾經濟學獎獲得者羅伯特·席勒的敍事經濟學指出，很多經濟行為受"動人敍事"驅動；泡沫、恐慌和投資潮往往由一個看似有説服力的故事放大。而行為經濟學進一步揭示樂觀偏差、損失規避、過度自信等系統性錯誤。這些錯誤有時比模型的幻覺更難消除，因為它們不僅來自信息缺口，更深植於情緒與身份認同。

大模型的理性：冷靜與幻覺並存

表面上，大模型像冷靜的理性化身：不疲倦、不帶情緒，能在秒級整合海量資料並保持邏輯一致，所以在許多任務上表現出超強的一致性與條理性。但"理性"不等於"真實"。

語言模型仍會生成看似合理卻不真實的內容(幻覺/編造)，甚至在自信度很高時也會發生，以權威口吻輸出錯誤；這在近年的綜述與實證研究中反覆被證實[1]。

幻覺的成因並非單一。其一，模型的基本目標是"下一個詞的條件概率預測"，當外部事實缺位或檢索不足時，它傾向以高流暢度"補全"最可能的敍述，而不是停下來求證；這讓分佈外問題更易被"貌似合理"的文本替代。其二，訓練語料的噪聲、過時或污染數據會把偏誤固化進參數。其三，缺乏與外部世界的強約束(grounding)與不當解碼策略，會把小偏差放大為長文本中的系統性錯誤。其四，不確定性"校準"不足：即使"知道"正確答案，也可能在高置信度下給出錯誤結論。多篇研究表明，幻覺與訓練目標、數據質量、分佈遷移、解碼策略和不確定性失配共同相關，而非某個環節的偶發問題[2]。

因此，大家圍繞"如何降幻覺"做了大量工程與學術嘗試，但目前總體是"顯著緩解而非根治"。一類思路是在生成前後補"求證環"：檢索增強生成(RAG)把外部知識接入流程以減少"無根文本"[3]；鏈式驗證(CoVe)讓模型先寫草稿、再自擬核查問題並獨立作答，最後據驗證結果改寫[4]。另一類直接在推理/解碼期動手術：如分層對比解碼ActLCD、跨層一致性解碼DCLA等，在不改動參數的前提下抑制解碼期的錯誤擴散[5]；還有利用"層級語義片段"(HSP)進行一致性比對的方案，既能識別和回收幻覺，又報告了更低算力消耗[6]。同時，以"語義熵"為代表的不確定性檢測用來"只在可疑時觸發昂貴校驗"，把計算集中到高風險片段[7]。這些路徑在多項基準上顯著降幻覺，但業界共識仍是：想"完全消除"很難，因為問題根植於生成式模型的概率本性與開放世界的邊界。

人類的理性：傳統的燈塔與本性的暗流

古希臘的哲學家們給了個清晰的起點。柏拉圖把靈魂分為理性λόγος、情緒θυμός與慾望έρως。亞里士多德直接定義人是"理性的動物"，並強調實踐智慧，在具體情境中做對的事。斯多葛把共識(συγκατάθεση)視為理性靈魂的機能，對印象(φαντασία)給出或保留判斷，由此才產生"衝動/行動"。這一傳統把"能論證，能自我約束"當成人類的核心能力。

但人類並非總是依理性行事。尼采強調，驅動行動的是生命意志：創造、擴張、爭勝，這些內在衝動在創業環境中尤其強烈。行為經濟學進一步將人類非理性拆解為：系統1(快速但易誤判)和系統2(可靠但消耗大)，而我們常常惰於啓動後者。前景理論表明，人類對損失過度敏感、對概率反應不夠理性。敍事經濟學則指出好故事通過社交網絡與媒體迅速傳播，直接影響消費、投資與政策預期，股票市場價格也圍着故事跳舞。很多時候，我們的判斷實則被敍事牽引。結論顯而易見：人類自視為理性動物，但日常決策往往由本能和故事主導。

若真想依靠理性，就不能止於口號，而必須將其轉化為可執行的流程。以下為幾種常見方法：

為系統2設置"觸發條件"。面對高損失、不可逆或價值密集的決策，一律進入慢思考通道；明確書寫目標、備選方案、放棄條件和評估標準，用一頁紙列出證據與反證。
強制施行斯多葛式"負面想象"。進行預歿檢討（premortem），假設項目已失敗，反向推導可能的原因與防禦措施；設立獨立的"紅隊"負責唱反調，不受業務團隊影響。
先看基準率，再分析個案。藉助參考類預測，將"此類項目一般如何"作為錨點，再根據新證據調整，避免先講故事再湊數據。
量化不確定性並執行校準。關鍵判斷需附上概率和時間窗口，事後用Brier分數覆盤，將"我覺得"轉變為"我有60%的把握"；持續記錄預測與結果，糾正一貫的樂觀或保守傾向。
記錄與複審。將核心假設、證據鏈、風險點和決策閾值寫成決策備忘錄；事後按同一模板覆盤，形成可學習的"錯誤資產"。
與機器協作而非對抗。將檢索、事實核對、重複性比對交給工具與模型，使人能聚焦於價值權衡與跨域聯想；團隊中設置"事實核對清單"，所有關鍵數據須標註來源、時間戳和不確定區間。
建立組織層面的"剎車機制"。重大融資、併購或擴張前設置冷靜期；二次簽字須由不受結果直接影響的高管完成，以避免激勵錯配。

這套方法並不炫目，但切實有效：它承認人類天生衝動和易受敍事影響，同時提供了一條可操作的路徑，將"自以為理性"轉化為"可被檢驗的理性"。在此框架下，人並非要壓制本能，而是讓本能為理性所用；故事也並非被驅逐，而是受證據與邊界條件約束。這樣的人類理性才經得起現實的長期考驗。

兩種理性，誰更值得信賴？

大模型的理性是計算性的：快速、穩定、沒有情緒，能在短時間內整合碎片化信息並輸出邏輯一致的答案；其缺點也同樣明顯：在信息不全或超出訓練分佈的情況下，它會藉助語言流暢性進行"補位"，導致產生缺乏依據的幻覺。

人類的理性則是生命性的：我們能同時權衡處境、價值與長遠後果，也具備自我懷疑的能力；弱點則在於速度、注意力和情緒，在壓力、激勵或宏大敍事的影響下，很容易偏離理性軌道。

再看二者"去幻"的方法。模型側通常採用在生成前後加入求證環節，如通過RAG確保答案有據可查，鏈式驗證將"先寫草稿、再逐項核對"自動化等。這類方法優勢在於可標準化、可規模化，但高度依賴外部知識庫與護欄設置，一旦撤除，幻覺易反彈。

人類側則更依賴流程與組織機制：如預歿檢討、設置獨立唱反調的紅隊、關鍵判斷附加"概率+時間窗口"並進行事後校準、重大決策引入冷靜期與二次簽字等。這些方法能將價值與情境納入約束，但執行成本較高，且容易受羣體動力與激勵錯配的影響而效果稀釋。

"誰更值得信賴"並沒有恆定答案，而是取決於問題類型。在數據完備、規則清晰、結果可驗證的場景中（如檢索、計算、編碼與合規審查），模型通常更可靠；而在價值密集、情境複雜、後果不可逆的決策中（如戰略選擇、倫理評估、創新方向），則應優先信任人類，由模型輔助提供證據與備選方案。沒有任何一方能在所有場景中"普遍勝出"，真正的可信度源於將兩者系統化地融合。

混合理性，才是未來的燈塔

在AI時代，理性不再是一場獨角戲，而是人與機器共同完成的合奏。機器需藉助RAG、鏈式驗證、HSP等技術持續降低幻覺；人類則需通過反事實思考、批判性討論與跨界視角，克服認知偏差與敍事誤導。

真正可信的理性，源於融合機器計算精度與人類價值判斷的"混合理性"。它不僅是學術與商業進步的動力，更是未來社會穩健與創新的基石。機器可讓光芒更亮，但照亮何方，仍應由人決定。

引用

[1] Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., ... & Liu, T. (2025). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems, 43(2), 1-55.

[2] Bai, Z., Wang, P., Xiao, T., He, T., Han, Z., Zhang, Z., & Shou, M. Z. (2024). Hallucination of multimodal large language models: A survey. arXiv preprint arXiv:2404.18930.

[3] Zhang, W., & Zhang, J. (2025). Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review. Mathematics, 13(5), 856.

[4] Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2023). Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495.

[5] Zhang, H., Chen, H., Chen, M., & Zhang, T. (2025). Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation. arXiv preprint arXiv:2505.23657.

[6] Liu, Y., Yang, Q., Tang, J. et al. Reducing hallucinations of large language models via hierarchical semantic piece. Complex Intell. Syst. 11, 231 (2025).

[7] Farquhar, S., Kossen, J., Kuhn, L., & Gal, Y. (2024). Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017), 625-630.

羅伯特·詹姆斯·席勒(Robert James Shiller, 1946年3月29日 - ）耶魯大學經濟學教授、2013年諾貝爾經濟學獎得主，以行為金融學和資產定價研究聞名。他與人合編的Case-Shiller房價指數是全球房地產市場的重要風向標，他提出的席勒市盈率(CAPE)也常被用來判斷股市泡沫。他的代表作有《非理性繁榮》《動物精神》和《敍事經濟學》，強調故事和情緒在經濟中的作用。席勒性格温和卻常被視為"逆行者"：在2000年互聯網泡沫和2008年金融危機前，他都因直言泡沫風險而被質疑，後來卻被證明準確。他的一句名言概括了其研究核心："市場不是冷冰冰的貼現公式，價格圍着故事跳舞。"

關於作者

Hotcan，80後技術老炮兒和哲學愛好者

雲計算和數字化轉型的投資人和創業者