LLM 幻覺問題:模型為何出錯與修正方法

09/25/2025

眾所皆知,大型語言模型(LLM)常會出現「幻覺」問題。但為什麼會這樣呢?

LLM 經常生成聽起來非常自信、卻實際上錯誤的內容,這就是所謂的幻覺。這類錯誤會削弱人們對模型的信任,並在醫療、法律等高風險領域帶來 AI 安全風險,也限制了其在企業場景中的導入。因此,降低 LLM 幻覺錯誤,是 AI 成功落地的關鍵之一。

在本文中,我們將探討最新的研究洞察,解釋 LLM 為什麼會產生幻覺,以及如何預防這些問題。Appen 也正在深入研究這些發現,並將其與實務數據與 LLM 評估策略結合,協助組織打造更值得信賴的 AI。

近期 OpenAI 發表的論文 Why Language Models Hallucinate(Kalai 等人,2025)揭示了這一長期存在現象的統計根源,即使是最先進的系統也無法完全避免。舉例來說,當模型被問到 Kalai 著名博士論文的題目時,多個知名模型卻都自信滿滿地給出錯誤答案。這樣的經驗對許多曾使用 LLM 進行研究的人來說相當熟悉:模型常常會捏造來源、混合不相關的研究,甚至憑空生成錯誤資訊。

為什麼語言模型會出現幻覺呢?

OpenAI 團隊認為,幻覺其實是大型語言模型(LLM)在訓練與評估過程中的自然產物。

預訓練錯誤不可避免

即便擁有完美的訓練數據,數學理論也預測出預訓練會存在基礎錯誤率。幻覺是最小化預測損失過程中的統計副作用。

後訓練鼓勵「猜測」

模型通常以二元指標(正確 / 錯誤)來評分。由於「我不知道」被算作 0 分,模型幾乎總是選擇「猜測」來最大化分數。就像學生在選擇題考試上不確定答案時也會選擇猜題一樣。

基準測試懲罰不確定性

主流的評估基準(如 MMLU、GPQA、SWE-bench)大多會強烈懲罰「不確定」的回答。結果就是:一個總是選擇「猜測」的模型,反而可能表現得比一個誠實回答「不知道」的模型更好。

作者稱這是一種「系統性懲罰不確定性」的流行病。在實際運作中,模型會更重視「讓答案聽起來合理」,而不是「確保答案正確」。

這種「為考試而學」(teaching to the test)的現象,也凸顯了我們更需要透過客製化基準測試來批判性地評估 LLM。在我們最近的多語言翻譯專案中,我們就特別針對這個問題設計了自己的評估框架,去檢測模型翻譯是否具備文化共鳴,而不僅僅是 token 層級的準確性。

值得思考的是:如果模型在不確定時能誠實回答「我不知道」,而不是自信地給出錯誤答案,結果會有多大不同呢?

常見的 LLM 幻覺案例

學術摘要

研究人員發現,大語言模型在總結論文時,經常會「編造研究結果」或把不同研究的細節混在一起。

醫療場景

在試驗中,模型曾生成不存在的治療方案,帶來明顯的安全風險。

字母計數

當被問到「DEEPSEEK 裡有幾個 D?」時,有些模型自信地回答「2」或「3」,但正確答案其實是「1」。甚至有模型給出高達「7」的數字。

令人欣慰的是,近期 GPT 系列模型已在這方面展現出改進。

LLM 幻覺風險

這些案例的共通點在於過度自信 —— 模型用非常肯定的語氣給出錯誤答案。若缺乏監管,LLM 幻覺可能帶來以下嚴重風險:

電商:物流或商品目錄中的錯誤,可能導致零售 AI 系統大規模崩潰。

金融:錯誤的投資建議或合規疏漏,會對後續產生巨大衝擊。

客服:聊天機器人「編造」政策,不僅影響顧客體驗,也會損害信任與業務成果。

法律與政府:誤導性的引述或捏造的案例(後文會詳細提及),可能造成嚴重的法律後果。

最令人震驚的是,一些最具代表性的 LLM 幻覺案例,並不是出現在研究實驗室,而是發生在法庭上。

案例一:ChatGPT 在 Avianca 航空公司訴訟案中的應用(2023)

這是首批引發高度關注的 AI 幻覺案例之一。2023 年,一家律師事務所代表一名乘客在一宗人身傷害訴訟中,使用 ChatGPT 協助撰寫法律文件,並引用了 六個不存在的判例。結果,該律師事務所遭法院罰款 5,000 美元,理由是存在「刻意迴避、虛假與誤導性陳述」的行為(Merken,2023)。

律師在準備文件時完全依賴 ChatGPT 進行法律研究,甚至在這些虛構案例遭到質疑後,仍堅持引用它們。最終,法官強調律師在法律程序中肩負著「守門人角色」,必須核實所提交文件的真實性,進一步凸顯了人工監督在 AI 輔助專業領域中的必要性。

案例二:Anthropic 的 Claude 在版權訴訟中的誤引(2025)

兩年後,Anthropic 在與音樂出版商持續進行的版權爭議中,再次陷入了類似的尷尬情況。一份最新的法律文件被揭露包含了一則虛構的引用。對此,Anthropic 的律師隨即道歉,並強調這是「一次無心的引用錯誤,而非刻意捏造法律依據」,同時表示該錯誤在人工審核過程中未被發現(Zeff,2025)。

這起事件與先前 ChatGPT 在 Avianca 航空公司訴訟中的案例相呼應,顯示 LLM 幻覺問題已經滲透到高風險的法律領域。在司法程序中,虛構的案例引用不僅可能使訴訟進程脫軌,更會損害律師與律所的專業聲譽,導致法律制裁,並削弱外界對法律制度與人工智慧系統的信任。

減少 LLM 幻覺並打造值得信任的 AI

OpenAI 的研究讓我們對於改善 LLM 與降低錯誤有了新的啟發。當我們理解到 LLM 幻覺是當前訓練與評估方法下可預期的產物,就能把它視為推動進步的契機。要解決這個問題,關鍵在於重新調整激勵機制。

這代表我們需要重新設計 LLM 基準測試,避免模型因「亂答」而得到獎勵。一個能誠實回答「我不知道」的系統,不應該比一個自信卻錯誤的系統分數更低。同時,也必須測量 信心校準度,追蹤模型的信心程度是否與現實相符,並將「適度放棄回答」視為負責任的選擇,而非失敗。

同樣重要的是人類參與(Human-in-the-Loop, HITL)的角色。正如法律案例所示,專家審查仍是最可靠的安全網。強大的品質保證(QA)能幫助我們發現細微錯誤、提供修正回饋,並引導模型朝向更穩健的行為。由於 AI 不是靜態的,持續性的回饋循環至關重要:包含監控輸出、偵測偏移(drift)、以及使用最新且高品質的數據進行微調。

這些方向也呼應了 AI 社群更廣泛的呼籲:打造既強大又值得信賴的模型。在實務上,這需要多樣化的訓練數據、謹慎設計的評估流程,以及長期監督 —— 這些都是可信 AI 的基礎。

科學已經揭示了為 LLM 何幻覺會持續存在,挑戰在於我們是否能重新調整基準測試、數據流程與期待值,讓「誠實」而不是「亂猜」成為新的標準。

本篇精華

  • 將幻覺視為系統性問題,而非偶發錯誤

要解決 LLM 幻覺,需要從 AI 全生命週期進行端到端的長期投入。

  • 重新思考如何評估模型

建立新的評測基準,獎勵「準確」與「能承認不知道」的回答,而不是虛構或亂答。

  • 保持人類監督

專家審核是關鍵,能即時驗證輸出並避免錯誤被放大。

  • 優先高品質數據

使用多元且具備領域代表性的訓練數據,確保模型能真正符合應用需求。

  • 持續回饋與調整

持續監控、修正與微調,確保模型能隨著新輸入場景保持可靠。


降低 LLM 幻覺風險,打造可信 AI

立即聯繫 Appen,獲取專業的 LLM 評估與測試支持,讓您的模型在真實應用中更穩健、更安全,並贏得全球用戶的信任。