DeepSeek 的成功,真的捨棄了監督式微調(SFT) 嗎?

05/28/2025

近期,DeepSeek 在 AI 領域備受矚目,其在複雜邏輯推理上的表現令人驚艷。有部分聲音認為,R1 完全放棄了傳統的監督式微調(SFT)路線,僅透過強化學習就達到了與 o1 相當的水準。

但 DeepSeek 的成功,真的完全捨棄了監督式微調,特別是在處理複雜領域任務時的 SFT 嗎?本文將透過一個實際案例,深入探討這項技術的應用與價值。

複雜領域的監督式微調

許多人認為 DeepSeek 帶來的震撼在於「不再需要進行監督式微調(SFT, Supervised Fine-Tuning)」——這個觀點確實值得深入探討。事實上,DeepSeek 並未完全捨棄 SFT,而是依據不同模型的需求進行調整與優化。SFT 在 DeepSeek 模型訓練中扮演了多項重要角色:

1. 提升特定任務的表現:

以 DeepSeek-V3 為例,透過在多個領域的數據集上進行 SFT,模型在教育、語言理解、問答等任務上的效能顯著提升。

2. 優化生成內容的風格與品質:

在 DeepSeek-V3 的訓練過程中,SFT 階段讓模型學習到大量高品質語言表達的範例,有助於生成更自然、優美的語句。

3. 作為冷啟動數據集的基礎:

在 DeepSeek-R1 模型中,SFT 階段所產出的數據被用作冷啟動數據集,經人工標註人員優化後,為後續的強化學習奠定基礎,使模型能更有效對齊人類偏好並提升特定任務的表現。

在今天分享的案例中,Appen 針對醫療、金融、程式碼等 30 多個專業領域的應用場景進行模型微調,使模型能夠順暢處理思考鏈推理、複雜問答等任務。

目標

與 Appen 合作的客戶有著明確的目標:透過在 30 多個複雜領域中(如代數、微積分、博弈論、歸納與演繹推理、科學證據評估等),打造具有思考鏈(Chain-of-Thought)推理風格的結構化「提示-回應對」,以大幅提升大型語言模型(LLM)的推理能力。

挑戰

在 30 多個專業領域中招募足夠且合格的標註人員,是客戶面臨的一大挑戰。與一般標註專案不同,此項目要求每位標註者皆需具備數學、商業、法律或邏輯推理等相關領域的專業知識與背景。

能夠精準媒合具備撰寫複雜邏輯推理風格「提示-回應對」能力的人才,是專案成功的關鍵。是專案成功的關鍵。這些人員必須確保數據具備穩定且高品質的標準,以符合監督式微調對數據品質的嚴格要求。

解決方案

為了提升模型在邏輯推理方面的表現,Appen 團隊設計了多種與特定推理類型相對應的提示(prompt),例如「根本原因識別」與「結果評估」等。透過 Appen 提供的富文本編輯器,標註人員能靈活使用表格、程式碼區塊、LaTeX 公式編輯(用於數學方程式)及多種文字輸入格式,以產出高品質數據,強化模型的推理能力。

deepseek.jpg

提示(prompt)需運用進階推理能力,引導模型清楚地拆解問題,並產出具邏輯性的解決方案,過程中不得省略推理步驟。回應(response)則須符合真實性、清晰度與語境一致性等標準,並在必要時引用研究資料,以確保內容的正確性與可信度。

deepseek 2.jpg

成果

Appen 團隊為模型提供了大量高品質的邏輯推理提示與回應,有效提升了客戶大型語言模型(LLM)在處理複雜論證與進行演繹推理方面的能力。此項目成果顯著,也進一步促成了客戶業務的拓展與深化應用。

Appen 提供全方位的大型語言模型數據服務,涵蓋數據集建置、模型評估與優化。同時,Appen 的智能大模型開發平台結合完整的標註工具組,協助您快速部署高效的大模型應用。