現成數據集

Appen 經授權的現成數據集，助您快速啟動 AI 專案

Appen 現成數據集

Appen 提供超過 800 個現成數據集，涵蓋近 10 萬小時的錄製或網路公開音訊資源、50 多萬張圖像，以及超過 1 億字／詞的文本內容，支援 80 多種語言與方言。我們也持續建構全新數據集，以滿足全球企業用戶的部署需求。

語音辨識數據集

覆蓋超過 90 種語言，總時長近 10 萬小時

包含電話通話、手機錄音、高傳真麥克風等多種錄音設備來源，以及網路數據清洗

對話類語音數據庫 80 餘個，總量超過 10,000 小時

朗讀類語音數據庫近 120 個，總量約 70,000 小時

自由發言語音數據庫 20 個，總量約 20,000 小時

特殊語音數據庫：0–3 歲嬰幼兒啼哭聲音數據約 70 小時、貓狗叫聲數據約 70 小時，以及多領域兒童高傳真喚醒詞數據集

取得數據集

大型語言模型數據集

81 億個 token、1,000 萬個詞條的大型語言模型（LLM）數據集

涵蓋醫療、金融、法律、教育、中文百科、程式碼等多元領域

邏輯推理數據集，包含思維鏈、多模態圖像意圖分析等類型

多模態數據集，包含百萬筆圖片搭配文字或影片搭配字幕的數據，支援多語言

安全性問答數據集，支援大模型毒性測試與安全性訓練

取得數據集

圖片數據集

總計 600 萬張圖片

數百萬筆高品質多模態圖片與文字配對數據集

十多種語言的通用場景 OCR 圖像數據集

精細標註日文發票，共 992 張

特殊數據集：電梯間電動車精細標註數據、多房型室內平面圖、汽車尾燈圖像集、頭髮分割數據集

取得數據集

文字數據集

三十多萬筆含標註的跨學科題目資料集

發音詞典涵蓋 98 種語言，共 523 萬筆詞條

詞性詞典涵蓋 22 種語言，共 326 萬筆詞條

命名實體庫（NER）涵蓋 8 種語言，超過 100 萬筆詞條

取得數據集

影像數據集

涵蓋東南亞各國人物的朗讀影像

大量開源影像擷取數據集

取得數據集

語音合成數據集

涵蓋多種語言，400 位聲優，來自 20 多個國家的資深聲優資源庫

收錄多種情緒音色與多元應用場景

取得數據集

數據集應用場景

安全駕駛／自動駕駛

駕駛人危險行為辨識數據集：協助偵測駕駛座位置、駕駛人危險動作與疲勞行為

乘客安全監測數據集：可用於識別車內遺留的孩童、寵物或危險物品

車載語音數據集：支援語音導航與智慧車載功能，提升多元化駕駛體驗

車外駕駛感知數據集：協助辨識車道線、障礙物與停車格等外部道路資訊

了解相關數據集

網路虛擬人／智慧客服

線上 NLP 多輪對話數據集可協助實現生成式 AI 聊天機器人，推動線上客服智慧化

TTS 語音數據集能將文字內容即時轉換為自然語音，語調流暢自然，讓使用者在收聽資訊時感受更親切

了解相關數據集

智慧金融

Appen 金融 OCR 數據集支援金融與保險領域的契約審核自動化，實現高效、精準的文字辨識與轉寫流程。

了解相關數據集

智慧家庭

語音辨識數據集支援智慧家庭 AI 的語音互動功能

障礙物影像數據集協助掃地機器人等設備進行智慧辨識與障礙跨越

了解相關數據集

智慧終端

人臉辨識、語音辨識等數據集可協助您部署各類智慧終端應用

了解相關數據集

智慧安防

人臉辨識、危險動作追蹤等數據集，可協助您建構智慧安防人工智慧系統

了解相關數據集

數據集列表

您可以搜尋與篩選您所需的數據集，並查看範例。

若您有購買需求，請點擊「取得數據集」，我們的專家將與您聯繫。

篩選

產品類型

ASR

TTS

辭典

圖片

文本

影片

語言/地區

台灣

香港

中國

亞洲

歐洲

北美洲

南美洲

大洋洲

非洲

多國

常見應用場景

APP 截圖

ASR

LLM

TTS

車載 HMI 及娛樂設備

對話式 AI

多模態

翻譯

呼叫中心

健身應用

教育教輔

客服

聊天機器人

數據訓練

圖片標籤識別訓練

圖片識別

文件處理

虛擬助手

醫療健康

嬰兒監控器

語言建模

語意分析

語義分析

語音分析

指令運用

智慧安防

智慧家居

智慧駕駛

智慧座艙

自動字幕

清除所有

數據集名稱	數據集編號	產品類型	語言	國家	常見應用場景
中文（繁體）（台灣）發音詞典	zho_TWN_PHON	辭典	繁體中文	台灣	ASR, 語言建模, TTS	取得數據集
粵語（港澳地區）多類型 OCR 光學文字辨識數據集	IMG_GA_OCR_CN	圖片	廣東話 (粵語)	香港	圖片標籤識別訓練	取得數據集
英語（香港）發音詞典	eng_HKG_PHON	辭典	英語	香港	語言建模, TTS, ASR	取得數據集
中國國小試題 OCR 數據集	IMG_OCR_XXST_CN	圖片	簡體中文	中國	文件處理, 教育教輔	取得數據集
中文 (簡體) 法律問答數據集	LLM_FLWD_CN	文本	簡體中文	中國	聊天機器人, LLM	取得數據集
粵語（香港）喚醒詞語音數據集（電話錄音）	GSYY_ASR001_CN	ASR	廣東話 (粵語)	香港	智慧座艙, 語音分析, 虛擬助手, ASR	取得數據集
中文 (簡體) 化學\|數學\|物理文本語料對數據集	LLM_BK_CN	文本	簡體中文	中國	LLM	取得數據集
中文 (簡體) 深度思考問答大型語言模型數據集	ZLCTN_corpus_CN	文本	簡體中文	中國	指令運用, LLM	取得數據集
英文 (美國) 女性 TTS 數據集－成熟聲線	JS_TTS001_CN	TTS	英語	美國	TTS	取得數據集
英語有害與無害聊天機器人提示與回應數據集	eng_USA_LLM001	文本	英語	美國	語言建模, LLM	取得數據集

中文（繁體）（台灣）發音詞典

取得數據集

數據集編號

zho_TWN_PHON

產品類型

辭典

語言

繁體中文

國家

台灣

常見應用場景

ASR, 語言建模, TTS

數據集名稱 :

中文（繁體）（台灣）發音詞典

語言 :

繁體中文

數據集編號 :

zho_TWN_PHON

國家 :

台灣

數據集描述 :

詞典格式 • 詞典的檔案格式為 UTF-8 編碼的純文字（.txt）檔案。 • 詞典包含以下欄位，各欄位之間以 <tab> 字元分隔： 1. 單詞|名稱; 2. 音標轉寫; 3. 排名; 4. 評論（選填） • 單詞|名稱的標準發音排名為「0」。 • 若適用，也可包含對應口語的變體發音、方言發音或其他非標準發音。這些變體發音的排名為非零數字，起始於「1」、「2」、「55」等。

單元 :

50,000 個單詞

產品類型 :

辭典

常見應用場景 :

ASR, 語言建模, TTS

粵語（港澳地區）多類型 OCR 光學文字辨識數據集

取得數據集

數據集編號

IMG_GA_OCR_CN

產品類型

圖片

語言

廣東話 (粵語)

國家

香港

常見應用場景

圖片標籤識別訓練

數據集名稱 :

粵語（港澳地區）多類型 OCR 光學文字辨識數據集

語言 :

廣東話 (粵語)

數據集編號 :

IMG_GA_OCR_CN

國家 :

香港

數據集描述 :

本數據集涵蓋 7 種粵語（港澳地區）OCR 影像類型，包括：含標註：廣告_972、招牌_162、名片|菜單_316、清單_220、地圖_15、標語橫幅_79、店面招牌_164。不含標註：廣告_1809、招牌_1956、名片|菜單_1629、清單_828、地圖_211、標語橫幅_278、店面招牌_2609。

單元 :

11248 張

產品類型 :

圖片

常見應用場景 :

圖片標籤識別訓練

採集環境 :

多種光線

採集設備 :

手機／相機

英語（香港）發音詞典

取得數據集

數據集編號

eng_HKG_PHON

產品類型

辭典

語言

英語

國家

香港

常見應用場景

語言建模, TTS, ASR

數據集名稱 :

英語（香港）發音詞典

語言 :

英語

數據集編號 :

eng_HKG_PHON

國家 :

香港

數據集描述 :

單元 :

18,000 個單詞

產品類型 :

辭典

常見應用場景 :

語言建模, TTS, ASR

中國國小試題 OCR 數據集

取得數據集

數據集編號

IMG_OCR_XXST_CN

產品類型

圖片

語言

簡體中文

國家

中國

常見應用場景

文件處理, 教育教輔

數據集名稱 :

中國國小試題 OCR 數據集

語言 :

簡體中文

數據集編號 :

IMG_OCR_XXST_CN

國家 :

中國

數據集描述 :

本數據集為中文小學真實試題實拍影像數據，包含：數學 2,651 張、英文作文 717 張、中文作文 453 張、小學速算 16,331 張、英文輔導 1,333 張、語文輔導 4,082 張，適用於 OCR 與教育輔助類 AI 模型訓練。

單元 :

25567 張

產品類型 :

圖片

常見應用場景 :

文件處理, 教育教輔

採集環境 :

多種光線

採集設備 :

手機／平板

中文 (簡體) 法律問答數據集

取得數據集

數據集編號

LLM_FLWD_CN

產品類型

文本

語言

簡體中文

國家

中國

常見應用場景

聊天機器人, LLM

數據集名稱 :

中文 (簡體) 法律問答數據集

語言 :

簡體中文

數據集編號 :

LLM_FLWD_CN

國家 :

中國

數據集描述 :

中文法律問答數據集共包含 26,000 組法律相關的指令與回答，涵蓋中國常見法律問題與主要法條，支援模型進行法律垂直領域的深度訓練。

單元 :

26000 對（1 問 1 答算一對）

產品類型 :

文本

常見應用場景 :

聊天機器人, LLM

粵語（香港）喚醒詞語音數據集（電話錄音）

取得數據集

數據集編號

GSYY_ASR001_CN

產品類型

ASR

語言

廣東話 (粵語)

國家

香港

常見應用場景

智慧座艙, 語音分析, 虛擬助手, ASR

數據集名稱 :

粵語（香港）喚醒詞語音數據集（電話錄音）

語言 :

廣東話 (粵語)

數據集編號 :

GSYY_ASR001_CN

國家 :

香港

數據集描述 :

本數據集包含 11.78 小時的港式粵語喚醒詞固定文本朗讀語音，涵蓋 170 位錄音者（ID），每位錄製 50 句語料。每位錄音者的語料內容皆不相同。

單元 :

11.78 小時

產品類型 :

ASR

常見應用場景 :

智慧座艙, 語音分析, 虛擬助手, ASR

採集環境 :

低背景噪音（家庭／辦公室）

採集設備 :

手機

中文 (簡體) 化學|數學|物理文本語料對數據集

取得數據集

數據集編號

LLM_BK_CN

產品類型

文本

語言

簡體中文

國家

中國

常見應用場景

LLM

數據集名稱 :

中文 (簡體) 化學|數學|物理文本語料對數據集

語言 :

簡體中文

數據集編號 :

LLM_BK_CN

國家 :

中國

數據集描述 :

本數據集包含 5 萬筆中文理科（化學|數學|物理）知識文本數據，用於大型語言模型的知識型預訓練任務。

單元 :

50000 對

產品類型 :

文本

常見應用場景 :

LLM

中文 (簡體) 深度思考問答大型語言模型數據集

取得數據集

數據集編號

ZLCTN_corpus_CN

產品類型

文本

語言

簡體中文

國家

中國

常見應用場景

指令運用, LLM

數據集名稱 :

中文 (簡體) 深度思考問答大型語言模型數據集

語言 :

簡體中文

數據集編號 :

ZLCTN_corpus_CN

國家 :

中國

數據集描述 :

本數據集為中文深度思考問答數據集，共包含 10,000 條問題與對應深度思考回答，適用於大模型的訓練與測試。

單元 :

10000 條

產品類型 :

文本

常見應用場景 :

指令運用, LLM

英文 (美國) 女性 TTS 數據集－成熟聲線

取得數據集

數據集編號

JS_TTS001_CN

產品類型

TTS

語言

英語

國家

美國

常見應用場景

TTS

數據集名稱 :

英文 (美國) 女性 TTS 數據集－成熟聲線

語言 :

英語

數據集編號 :

JS_TTS001_CN

國家 :

美國

數據集描述 :

高保真設備在專業錄音棚內錄製的TTS數據集。

單元 :

3 小時

產品類型 :

TTS

常見應用場景 :

TTS

採集環境 :

專業 TTS 錄音設備

採集設備 :

專業 TTS 錄音設備

英語有害與無害聊天機器人提示與回應數據集

取得數據集

數據集編號

eng_USA_LLM001

產品類型

文本

語言

英語

國家

美國

常見應用場景

語言建模, LLM

數據集名稱 :

英語有害與無害聊天機器人提示與回應數據集

語言 :

英語

數據集編號 :

eng_USA_LLM001

國家 :

美國

數據集描述 :

本數據集包含300條英語有害和無害的提問與答案。

單元 :

300 條

產品類型 :

文本

常見應用場景 :

語言建模, LLM

1 / 39

Appen 數據集優勢

Appen 提供多樣化的現成數據集，數據產品目錄涵蓋 700 多個可授權的數據集。其中語音數據集涵蓋超過 80 種語言與方言，適用於各種常見的 AI 應用場景，例如 TTS、ASR 等（可透過下方目錄表篩選功能查詢更多應用情境）。我們亦提供數據管理等進階服務。

快速部署

直接取得數據庫產品，協助您迅速啟動 AI 與機器學習專案

低成本高效益

取得經授權的現成數據集，相較於客製化數據收集服務更具成本效益

專家團隊

由深耕數據收集領域近三十年的專家團隊全力支援您的專案發展

支援所有數據類型

圖片、影片、語音、音訊、文字等多種格式全面涵蓋

大規模

提供大量高品質數據，助您高效訓練機器學習模型

高品質

提升模型表現，減少數據偏差，優化 AI 準確度與穩定性

數據收集與標註客製化服務

若您未能找到符合需求的現成 AI 數據集，Appen 亦提供數據客製化收集與標註服務。

我們具備涵蓋全球、多數據型態的作業能力，可為您快速、高效、大規模建立專屬數據集。

立即洽詢數據客製服務

立即洽詢數據客製服務

資源中心

03/01/2026

高效部署模型

700+ 數據集，支援您快速高效部署 AI 模型

立即取得數據集

現成數據集

Appen 現成數據集

數據集應用場景

安全駕駛／自動駕駛

網路虛擬人／智慧客服

智慧金融

智慧家庭

智慧終端

智慧安防

數據集列表

​​Appen 數據集優勢

數據收集與標註客製化服務

人機協作機器學習指南（Human-in-the-Loop, HITL）

醫療大型語言模型的資料挑戰與解決方案

AI 音訊資料解決方案 從資料採集到模型部署的端到端音訊資料服務

AI 醫療在醫療產業的應用：智慧醫療如何提升診療效率

打造 AI Agent，需要準備哪些關鍵資料？

RLVR 正在改變 AI：打造可驗證、不再幻覺的可靠系統

高效部署模型

Appen 數據集優勢

AI 音訊資料解決方案從資料採集到模型部署的端到端音訊資料服務