多模態語言模型的紅隊測試:評估不同提示形式與模型間的風險表現

現在的多模態語言模型,有多安全?
多模態 AI 模型(MLLMs)的能力正快速提升,但要在大規模環境中部署,就必須重新檢視目前的模型評估方式。當今主流的大型語言模型(LLMs)雖然在以準確度或流暢度為主的測試中表現亮眼,但這是否代表它們在高壓測試下依然可靠?
Appen AI 研究團隊的這項原創研究,探討四款領先的多模態大型語言模型在面對多種對抗性提示攻擊(adversarial prompting)時的反應。我們使用 726 組對抗性提示,針對非法行為、錯誤資訊與不道德內容,並涵蓋純文字及文字+圖片兩種輸入形式。
研究共收集近 3,000 筆模型輸出,由真人標註員進行有害程度評分,結果揭示即便是目前最先進的模型,也仍然存在值得關注的 AI 安全性弱點。
LLM 的拒答行為 vs. 有害回應
透過對多模態大型語言模型(MLLMs)進行紅隊測試,本研究發現:在某些情境中,模型選擇拒絕回答(refusal)反而是最安全的結果。
部分模型會嘗試以「創意但不安全」的方式響應提示,而 Claude Sonnet 3.5 之所以整體表現最穩健,主要原因是它在高風險情境下更常選擇拒答。
這項發現也重新定義了目前 LLM 基準測試(benchmarking)的一大挑戰:
現行的評估方式往往將拒答視為「錯誤」或「未能完成任務」,並予以扣分。
然而研究結果顯示,拒絕回應某些提示其實是最負責任的行為,可以避免模型產生有害或誤導性的輸出。
為什麼這項研究重要
OpenAI 近期的研究指出,傳統訓練方式可能會讓模型在明明不確定、甚至不正確的情況下,仍被鼓勵輸出充滿自信的回答,進而造成 AI 幻覺(hallucination)。就像學生在考試中「硬猜」答案,模型也可能給出看似合理但實際上有害的回應,而不是選擇拒絕回答。
Appen 的研究顯示,這種「要嘛回答、要嘛拒答」的二元框架其實遮蔽了大型語言模型(LLM)中的關鍵脆弱點。對企業而言,真正需要的是能在「有幫助」與「知道何時該克制」之間取得平衡的模型,尤其在不可避免會遭遇對抗式提示攻擊(adversarial prompting)的領域。
本研究的關鍵發現包括:
- Pixtral 12B 最脆弱:約 62% 的輸出具有潛在危害。
- Claude Sonnet 3.5 最具抵抗力:有害輸出僅 10–11%,但也引發「拒答應如何評分」的新討論。
- 純文字攻擊略勝多模態攻擊:整體效果更強,挑戰了「圖片輸入風險更高」的常見假設。
本研究的核心貢獻
透過整合對抗式提示、多模態攻擊,以及真人評估,本研究更完整地揭露了模型在真實威脅情境下的行為模式,提供比傳統基準測試更貼近實務的安全性洞察。
在這篇研究中,你將了解:
- 哪些主流 LLM 對對抗式提示最具抵抗力、哪些模型最容易被攻破。
- 為什麼拒答率 會讓傳統的「無害性」等評分標準變得更複雜。
- 不同輸入模態(純文字 vs. 多模態) 如何影響攻擊成功率。
- LLM 紅隊測試(red teaming) 如何在模型部署前揭露隱藏風險並提升整體安全性。
讓你的模型更安全、更值得信任
Appen 的 AI 安全評測,能揭露模型在對抗式提示、錯誤資訊、多模態攻擊下的真實表現,協助你降低有害輸出,提升模型部署可信度。

