什麼是大模型思維鏈| 重點整理

LLM 推理:現代 AI 的挑戰
大語言模型(LLM)憑藉在多領域理解及生成類人文本的驚人能力,正席捲全球、勢不可擋。這些強大的 AI 系統透過海量數據集訓練,能執行回答問題、摘要文件、寫詩,甚至編寫程式等多元任務。
然而,將一系列資訊邏輯整合並得出合理結論的「推理能力」,仍是大語言模型面臨的重大挑戰。無論是應對問答任務,還是需要蒐集資訊後做出明智決策,都仰賴模型能建立有依據的論證,並將複雜任務拆解為更簡單的子任務。
根據 Saxena 等人(2024 年)的研究,對 LLM 的一致性與推理能力評估後發現,雖然專有模型通常表現優於通用模型,但在「一致性」與「推理」這兩方面,尚無任何模型能持續取得高分。因此,深入理解並提升 LLM 的推理能力,是其持續發展與可靠應用的關鍵。
思維鏈方法如何激發大型語言模型的推理能力
在學校裡,數學老師常透過解析解題步驟來幫助學生理解;在訓練大型語言模型(LLM)時,清楚呈現問題的邏輯推理過程——也就是「思維鏈提示(Chain of Thought)」——同樣能提升模型的推理能力,並生成更清晰且有條理的輸出。
與傳統微調訓練中使用的 <問題,答案> 雙元組不同,思維鏈提示採用 <問題,推理過程,答案> 的三元組方式進行訓練。這種系統化的方法,透過展示分析思維的邏輯流程,有效增強 LLM 的推理能力與回答準確率。
LLM 能透過「思維鏈」展現清晰且連貫的推理過程,為模型的行為提供可解釋的洞見,同時簡化微調訓練的流程。近期一項研究指出,Google Research 團隊發現,經由思維鏈數據集訓練後的模型,在解決小學數學問題的正確率達 57%,遠高於僅使用 <問題 & 答案> 數據集訓練的模型(僅 18%)。這進一步凸顯了思維鏈在提升 LLM 推理能力中的關鍵角色。
如何利用思維鏈進行大模型訓練?
思維鏈提示有多種應用方式,主要可分為兩大類:透過提示工程(Prompt Engineering)或採用微調(Fine-Tuning)。
在思維鏈提示工程(Chain-of-Thought Prompting)中,可以用一句簡單的提示如「請一步步推理並給出解答」來引導模型(Zero-Shot-CoT),也可以在提示中加入範例,呈現逐步推理的分析過程(Few-Shot-CoT),以幫助模型學習如何進行邏輯推理。
另一種重要方法是監督式微調(Supervised Fine-Tuning, SFT),這是一種在預先標註的數據集上訓練現有模型,以優化大型語言模型的有效方法。此方法特別適合用於提升模型的推理能力,因為透過大量三元組數據(問題、推理鏈、答案),模型可以學習如何重現完整的推理過程,更高效地強化邏輯推理表現。此外,經過審查的思維鏈數據集,也能避免許多開放式提示工程訓練中可能產生的問題。
接下來,我們將深入探討思維鏈訓練中容易出現的三大問題:
思維鏈訓練中的三大挑戰
挑戰 1:缺乏外部知識—幻覺問題
問題:語言模型通常依賴靜態內部知識生成 CoT(Chain of Thought),但這些推理過程未必基於外部資訊,容易在推理中出現「幻覺」(hallucination)。
解決方案:為解決此問題,ReAct 提示策略(Reasoning + Acting)結合語言「推理」與互動式「行動」,讓模型在決策任務中主動查詢外部資源,並將其納入推理過程。這種方法能讓模型基於真實世界的知識進行推理,有效降低幻覺發生率並提升最終答案的準確性。
挑戰 2:複雜推理的精確度不足
問題:研究發現,標準 CoT 提示在處理如符號推理、多步驟進階數學問題等複雜任務時,準確度表現不佳。
解決方案:受教育心理學啟發,「以小見大」提示技術(Least-to-Most Prompting, LtM Prompting)將複雜問題拆解成多個子問題,逐步求解。此「分而治之」策略讓模型透過序貫步驟解決問題,顯著提升整體推理能力與準確性。實驗證實,LtM 提示在處理需要至少 5 步驟的問題時,效果明顯優於標準 CoT。
挑戰 3:大模型推理中的易錯點
問題:雖然思維鏈(CoT)能捕捉邏輯推理的過程,但最終輸出仍可能出現「幻覺」,例如步驟錯誤或遺漏、邏輯缺陷、計算不正確等情況。
舉例來說,從 Appen 的 HGMR 數學數據集中選取一個問題(詳見《Appen 思維鏈白皮書》案例部分),並分別透過 AWS Bedrock 發送給 Titan 和 Llama 2 模型進行測試。兩個模型的輸出皆未能給出正確答案。
在 Titan 的回覆中,從第 2 步開始出現推理錯誤,錯誤地假設兩段不同距離的路程所花費的時間相同。
Llama 2 的回覆則在最後幾步出現失誤,錯將總距離設為 x 而非 2x,導致最終答案錯誤。
解決方案:此案例顯示,大模型在解釋與預測逐步思維過程的能力仍有待加強。這類錯誤在許多情況下需要人機協作來分析並修正,以確保大模型在推理過程中的每一步都精確且正確。
Appen 的思維鏈數據解決方案
隨著市場上現成數據集(無版權、高品質、符合實際應用場景等)的取得愈發困難,與專業公司合作,定制專屬且符合需求的數據集,已成為加速 AI 發展的可行之道。Appen 擁有超過 20 年經驗,專注於為科技企業打造高品質、客製化數據集,以滿足多元需求與行業應用場景(包含思維鏈推理)。
Appen 可為您的思維鏈訓練提供全方位數據支援,包括:
- 微調數據集(三元組格式:問題、推理鏈、答案)
- 思維鏈提示設計
- 內容評分與品質審查
我們致力於為您的模型推理能力提升提供閉環支持。
歡迎聯繫 Appen 專家,獲取完整的思維鏈數據解決方案諮詢。
Appen 提供全方位的大型語言模型數據服務,涵蓋數據集建置、模型評估與模型微調。同時,Appen 的智能大模型開發平台整合完整的標註工具,協助您快速部署大模型應用,提升開發效率、加速產品落地。