Cohere 如何協助企業級模型進行偏好導向的微調與擴展

引言
在當今競爭激烈的人工智慧市場中,讓大型語言模型(LLM)的表現與人類價值保持一致,是一項至關重要的差異化能力。然而,要在大規模導入人類反饋的同時,仍維持高品質輸入與低延遲,實際執行上充滿挑戰。
為了滿足企業對高品質人類偏好資料日益增加的需求,Cohere 推出了 PANDA Plus —— 一個用於生成偏好數據與開發獎勵信號的計畫,並與 澳朋(Appen) 合作,以取得專業標註人才、支援即時模型反饋,並為實驗與正式微調流程提供以人為本的大型語言模型訓練數據。
透過與 Appen 的合作,Cohere 得以為 PANDA Plus 建立可擴展、高品質的資料生成與即時標註流程,進一步提升其生成式大型語言模型 Command 的整體性能。
關於 Cohere
Cohere 是一家以「安全」為核心原則的企業級人工智慧領導者,致力於打造尖端 AI 模型與端到端解決方案,用來處理真實世界的商業難題。他們的旗艦生成式大型語言模型系列 Command,特別針對企業情境下的安全部署進行最佳化。
在高度受監管的產業中,許多領先企業都信賴 Cohere,並將其應用於客服支援與內部流程等場景。因此,模型能在不同領域(從零售到金融)提供有用、安全、並符合品牌調性的回應,格外重要。而要維持這樣的高標準,就必須依靠穩定、領域相關的人類反饋,進行持續的強化學習與微調。
為提升 Command 的效能,Cohere 開發了名為 PANDA Plus 的偏好標註資料取得與監督式微調(SFT)專案。透過收集結構化的人類偏好資料,再對模型較佳的回答進行編輯,使其更貼近 Command 的原則與使用者指令,進一步優化模型表現。
Cohere 與 Appen(澳朋)合作,成功在品質與彈性兼具的前提下,將這套系統擴展至即時模型中。
1. 專案目標
PANDA Plus 將即時模型評估與編輯,直接整合進 Cohere 的訓練循環中。
在每個任務中,標註人員會針對特定提示(prompt)獲得兩個模型補全結果,並需要完成以下工作:
- 選擇更有幫助、或更符合要求的回應
- (選填)編輯補全內容,使其更能展現理想的模型行為
- 提供理由與定性回饋
- 完成監督式微調(SFT)所需的補全重寫
與 Appen 的合作重點
Cohere 與 Appen 合作,主要目標包括:
- 高品質標註:確保具備大型語言模型經驗的標註人員,能提供一致且可靠的標註品質
- 即時交付:利用 Appen 的即時交付系統,降低模型回饋延遲
- 動態任務支援:涵蓋對話續寫、開放式指令遵循等多樣化任務形式
- 研發與實用兼顧:同時滿足實驗性研究與可投入生產的訓練週期
2. 挑戰
A. 尋找合格的標註人員
Cohere 需要熟悉大型語言模型的標註人員,能提供高品質數據並快速完成上線。
Appen 為 Cohere 提供了一個經過審核的 200 名美式英語標註人員資源庫,優先挑選具備 大型語言模型 / RLHF(基於人類回饋的強化學習) 經驗的人員。
B. 品質優先於數量
不同於傳統標註流程,PANDA Plus 更重視處理時間與準確性,而非單純吞吐量。
這意味著需要重新設計激勵機制,並管理標註人員的工作節奏,確保產出的內容是經過深思熟慮、符合上下文的編輯,而不是快速粗糙的回應。
C. 即時回饋循環
PANDA Plus 需要與 Command API 建立即時連線,讓標註人員能夠近乎同步地評估模型輸出。為此,Appen 對其 AI 聊天回饋工具 進行了調整,使其能無縫接入 PANDA Plus,包括 動態前言、提示路由與回應比較 等功能。
D. 支援模型演進
Cohere 利用 Appen 所產出的偏好數據,對生產級模型進行微調。
同時,並行的 PANDA Plus 任務則為實驗性模型變體提供持續數據支持。
這要求 Appen 在模型檢查點不斷更新的情況下,仍能保持標註的一致性,並確保數據結構與品質不受影響。
3. 解決方案
第一步:專業標註人員渠道
Appen 為 PANDA Plus 組建了一支符合專案需求的專業標註團隊。
這些標註人員經過專業培訓,能評估以下面向:
- 有用性、安全性與語氣
- 對指令的遵循程度與領域相關性
- 改進或升級的可能性
Appen 的標註人員主要負責:
- A/B 偏好排序
- 多輪對話續寫評分
- 針對工具與提示迭代提供自由形式回饋
- 撰寫複雜提示與前言
- 將補全文字重寫為「理想的」監督微調輸入
第二步:工具與即時交付
PANDA Plus 的工作流程透過 Appen 人工智慧數據平台(ADAP) 的客製化部署來實現,增強功能包括:
- 與 Command 推理端點 的直接整合
- 支援 多輪提示 / 回應工作流程
- 結構化欄位 用於排序、編輯與理由提供
- 每日即時數據串流與每週批次彙總
在 12 週內,Appen 的標註人員累計投入超過 2,400 小時專業工時,讓 Command 的訓練循環能夠 近乎即時地整合人類回饋。
4. 成果
高可信度的微調數據
PANDA Plus 所產出的數據,直接支援了 Command 模型的訓練。多次微調都使用了由 Appen 收集並結構化的人類偏好訊號,確保數據的可靠性與一致性。
支援實驗性訓練
除了生產環境應用外,PANDA Plus 也同時支援研究級的實驗,為模型持續迭代提供長期價值。
標註人員留存與品質保障
在為期 12 週的專案期間,Appen 維持了穩定的標註團隊,確保在不同模型變體下,標註行為保持一致,並能交付可預測的高品質數據。
系統層級的影響
透過將即時模型互動、基於編輯的監督流程,以及群體回饋整合進 PANDA Plus,Cohere 成功優化了模型對齊流程。而 Appen 在將主觀偏好轉化為結構化 AI 訓練數據的過程中,扮演了關鍵角色。
結論
Cohere 與 Appen 在 PANDA Plus 專案上的合作,展現了企業級偏好訓練的最佳實踐,包括:
- 具備大型語言模型經驗的專業標註人員
- 支援即時回饋的客製化工具
- 結構化的編輯與理由說明機制
- 同步兼顧研究與生產環境的微調流程
隨著前沿模型開發者持續探索 如何更高效且更負責地擴展人類回饋,PANDA Plus 證明了數據合作能在 不犧牲可控性、安全性或企業適用性 的前提下,大幅提升模型的效能與對齊品質。
從偏好標註到即時回饋,PANDA Plus 展現了人機協作如何強化企業級模型。
現在就與 Appen 合作,加速您的 AI 專案落地。

