AI 最安全的回應，難道是「不回應」嗎？

11/23/2025

Appen 的研究團隊近日完成目前規模最大的多模態紅隊測試之一，針對四款主流大型語言模型（LLMs）在對抗攻擊下的表現進行評估。

研究結果顯示：

Anthropic 的 Claude Sonnet 3.5 是最難被對抗式提示影響的模型，多半因為它比其他模型更常選擇拒答。

這也引出一個值得深思的問題：

未來的 LLM 評測標準，是否應該開始把「適時拒答」視為一種值得獎勵的能力，而不是一味追求輸出答案？

沉默，究竟是不是 AI 最安全的應對方式？

在這次研究中，Appen 的團隊針對 726 則具挑戰性的惡意提示訊息進行測試，內容涵蓋非法行為、錯誤資訊到各種不道德請求。我們評估了 GPT-4o、Claude Sonnet 3.5、Pixtral 12B 與 Qwen VL Plus 的表現，結果相當明顯：

但這份亮眼成績背後，也藏著一個關鍵細節：

Claude 之所以看起來「最安全」，有很大一部分來自於它更常直接拒答。

這也帶出一個核心問題：

為了避免被操弄、避免輸出錯誤或有害內容，AI 用「沉默」來自保，是否就是最好的安全策略？

還是說，當使用者其實只是提出正常、無害的問題時，過度拒答反而會造成使用體驗不佳？

這項結果提醒我們一件事：

在 AI 安全與使用者體驗之間，真正的挑戰並不是找到單一答案，而是如何找到最恰當的平衡。

為什麼現行的基準測試不夠用？

傳統的 AI 基準測試大多以「對／錯」的二元方式評分。這種設計無意間讓模型傾向於「硬答」，即使它其實不知道答案，也會試圖編出一個看似合理的回覆。

OpenAI 最近針對「幻覺問題（hallucination）」的研究也再次證實：目前的評分方式其實是在懲罰模型的謹慎，反而獎勵那些看似自信、但可能是杜撰的回答。

然而在真實世界的部署場景中，這種傾向反而可能造成風險：

一個模型如果「亂講」出有危害性的指示，比起「選擇不回答」更可能造成實際傷害。

Appen 的研究指出，我們是時候重新思考 LLM（大型語言模型）的評測方式與最佳實務做法了。與其把「拒絕回答」視為失敗，新的評測框架應該：

當拒答能有效避免危害時，應給予正向分數，而不是扣分。

拒答應該被視為一種正式的輸出類型，而不是錯誤。

將壓力測試（例如對抗性提問）納入核心評估，以檢查模型是否容易被繞過。

Appen 先前的 LLM 紅隊測試也顯示，如果模型沒有被訓練成「重視適度拒答」，只要透過角色扮演（role play）或壓制拒答行為（refusal suppression），安全防護就可能被突破。因此，導入「拒答感知（refusal-aware）」的評測方法，能讓模型整體更具韌性。

對於在高風險情境中部署 AI 的企業而言，信任與安全性是不可妥協的核心要求。我們最新的紅隊測試研究顯示，即便是目前最先進的模型，在遭遇對抗式攻擊時，也可能輸出具有危害性的內容。

將「沉默」視為一種安全機制，而不是系統的缺陷，能讓企業導入風險更低、可靠性更高的 AI 系統。這項轉變至關重要，有助於企業在保持創新速度的同時，建立更負責任的 AI 使用文化。

面對愈來愈複雜的攻擊手法與真實世界的 AI 應用情境，安全與可靠性變得比以往更重要。AI 最安全的回應，有時候不是答案，而是坦承不知道。

在面對惡意提示或對抗式攻擊時，策略性拒答其實是 AI 最重要的防護措施之一，比起硬著頭皮生成可能有害、錯誤或被操控的內容，適度的沉默更能避免風險。

傳統基準測試多以回答是否正確作為標準，反而會懲罰謹慎，讓模型傾向「不懂也要回答」，提高幻覺或不安全輸出的機率。

AI 評估體系應把「安全的拒答」納入正向指標，區分安全拒答與危險捏造，並把對抗式測試視為必備流程，才能真正提升模型在真實世界的可靠度與安全性。

想進一步探索 LLM 紅隊測試（Red Teaming）與模型評估的最新洞察，歡迎查看 Appen 研究團隊的相關內容：