AI 最安全的回應,難道是「不回應」嗎?

Appen 的研究團隊近日完成目前規模最大的多模態紅隊測試之一,針對四款主流大型語言模型(LLMs)在對抗攻擊下的表現進行評估。
研究結果顯示:
Anthropic 的 Claude Sonnet 3.5 是最難被對抗式提示影響的模型,多半因為它比其他模型更常選擇拒答。
這也引出一個值得深思的問題:
未來的 LLM 評測標準,是否應該開始把「適時拒答」視為一種值得獎勵的能力,而不是一味追求輸出答案?
沉默,究竟是不是 AI 最安全的應對方式?
在這次研究中,Appen 的團隊針對 726 則具挑戰性的惡意提示訊息進行測試,內容涵蓋非法行為、錯誤資訊到各種不道德請求。我們評估了 GPT-4o、Claude Sonnet 3.5、Pixtral 12B 與 Qwen VL Plus 的表現,結果相當明顯:
- Pixtral 12B 最容易受影響,約 62% 的回覆帶有風險
- Claude Sonnet 3.5 抗性最高,僅 10–11% 出現不當輸出
但這份亮眼成績背後,也藏著一個關鍵細節:
Claude 之所以看起來「最安全」,有很大一部分來自於它 更常直接拒答。
這也帶出一個核心問題:
為了避免被操弄、避免輸出錯誤或有害內容,AI 用「沉默」來自保,是否就是最好的安全策略?
還是說,當使用者其實只是提出正常、無害的問題時,過度拒答反而會造成使用體驗不佳?
這項結果提醒我們一件事:
在 AI 安全與使用者體驗之間,真正的挑戰並不是找到單一答案,而是如何找到最恰當的平衡。
為什麼現行的基準測試不夠用?
傳統的 AI 基準測試大多以「對/錯」的二元方式評分。這種設計無意間讓模型傾向於「硬答」,即使它其實不知道答案,也會試圖編出一個看似合理的回覆。
OpenAI 最近針對「幻覺問題(hallucination)」的研究也再次證實:目前的評分方式其實是在 懲罰模型的謹慎,反而 獎勵那些看似自信、但可能是杜撰的回答。
然而在真實世界的部署場景中,這種傾向反而可能造成風險:
一個模型如果「亂講」出有危害性的指示,比起「選擇不回答」更可能造成實際傷害。
邁向「重視拒答」的新評測方式
Appen 的研究指出,我們是時候重新思考 LLM(大型語言模型)的評測方式與最佳實務做法了。與其把「拒絕回答」視為失敗,新的評測框架應該:
鼓勵策略性拒答
當拒答能有效避免危害時,應給予正向分數,而不是扣分。
區分「安全拒答」與「不安全的胡亂回答」
拒答應該被視為一種正式的輸出類型,而不是錯誤。
評估模型的脆弱性
將壓力測試(例如對抗性提問)納入核心評估,以檢查模型是否容易被繞過。
Appen 先前的 LLM 紅隊測試也顯示,如果模型沒有被訓練成「重視適度拒答」,只要透過角色扮演(role play)或壓制拒答行為(refusal suppression),安全防護就可能被突破。因此,導入「拒答感知(refusal-aware)」的評測方法,能讓模型整體更具韌性。
為什麼這對 AI 安全至關重要
對於在高風險情境中部署 AI 的企業而言,信任與安全性是不可妥協的核心要求。我們最新的紅隊測試研究顯示,即便是目前最先進的模型,在遭遇對抗式攻擊時,也可能輸出具有危害性的內容。
將「沉默」視為一種安全機制,而不是系統的缺陷,能讓企業導入 風險更低、可靠性更高 的 AI 系統。這項轉變至關重要,有助於企業在保持創新速度的同時,建立更負責任的 AI 使用文化。
重點整理
面對愈來愈複雜的攻擊手法與真實世界的 AI 應用情境,安全與可靠性變得比以往更重要。AI 最安全的回應,有時候不是答案,而是坦承不知道。
1.「拒答」有時反而更安全
在面對惡意提示或對抗式攻擊時,策略性拒答其實是 AI 最重要的防護措施之一,比起硬著頭皮生成可能有害、錯誤或被操控的內容,適度的沉默更能避免風險。
2. 現行評測方式仍偏向鼓勵 AI「硬回答」
傳統基準測試多以回答是否正確作為標準,反而會懲罰謹慎,讓模型傾向「不懂也要回答」,提高幻覺或不安全輸出的機率。
3. 未來需要能分辨「安全拒答」的評測框架
AI 評估體系應把「安全的拒答」納入正向指標,區分安全拒答與危險捏造,並把對抗式測試視為必備流程,才能真正提升模型在真實世界的可靠度與安全性。
準備好深入了解更多嗎?
想進一步探索 LLM 紅隊測試(Red Teaming)與模型評估的最新洞察,歡迎查看 Appen 研究團隊的相關內容:

