現成數據集

Appen 經授權的現成數據集,助您快速啟動 AI 專案

Appen 現成數據集

Appen 提供超過 800 個現成數據集,涵蓋近 10 萬小時的錄製或網路公開音訊資源、50 多萬張圖像,以及超過 1 億字/詞的文本內容,支援 80 多種語言與方言。我們也持續建構全新數據集,以滿足全球企業用戶的部署需求。

語音辨識數據集

覆蓋超過 90 種語言,總時長近 10 萬小時

包含電話通話、手機錄音、高傳真麥克風等多種錄音設備來源,以及網路數據清洗

對話類語音數據庫 80 餘個,總量超過 10,000 小時

朗讀類語音數據庫近 120 個,總量約 70,000 小時

自由發言語音數據庫 20 個,總量約 20,000 小時

特殊語音數據庫:0–3 歲嬰幼兒啼哭聲音數據約 70 小時、貓狗叫聲數據約 70 小時,以及多領域兒童高傳真喚醒詞數據集

取得數據集

大型語言模型數據集

81 億個 token、1,000 萬個詞條的大型語言模型(LLM)數據集

涵蓋醫療、金融、法律、教育、中文百科、程式碼等多元領域

邏輯推理數據集,包含思維鏈、多模態圖像意圖分析等類型

多模態數據集,包含百萬筆圖片搭配文字或影片搭配字幕的數據,支援多語言

安全性問答數據集,支援大模型毒性測試與安全性訓練


取得數據集

圖片數據集

總計 600 萬張圖片

數百萬筆高品質多模態圖片與文字配對數據集

十多種語言的通用場景 OCR 圖像數據集

精細標註日文發票,共 992 張

特殊數據集:電梯間電動車精細標註數據、多房型室內平面圖、汽車尾燈圖像集、頭髮分割數據集


取得數據集

文字數據集

三十多萬筆含標註的跨學科題目資料集

發音詞典涵蓋 98 種語言,共 523 萬筆詞條

詞性詞典涵蓋 22 種語言,共 326 萬筆詞條

命名實體庫(NER)涵蓋 8 種語言,超過 100 萬筆詞條

取得數據集

影像數據集

涵蓋東南亞各國人物的朗讀影像

大量開源影像擷取數據集

取得數據集

語音合成數據集

涵蓋多種語言,400 位聲優,來自 20 多個國家的資深聲優資源庫

收錄多種情緒音色與多元應用場景

取得數據集

數據集應用場景

數據集列表

您可以搜尋與篩選您所需的數據集,並查看範例。

若您有購買需求,請點擊「取得數據集」,我們的專家將與您聯繫。

篩選
產品類型
ASR
TTS
辭典
圖片
文本
影片
語言/地區
台灣
香港
中國
亞洲
歐洲
北美洲
南美洲
大洋洲
非洲
多國
常見應用場景
APP 截圖
ASR
LLM
TTS
車載 HMI 及娛樂設備
對話式 AI
多模態
翻譯
呼叫中心
健身應用
教育教輔
客服
聊天機器人
數據訓練
圖片標籤識別訓練
圖片識別
文件處理
虛擬助手
醫療健康
嬰兒監控器
語言建模
語意分析
語義分析
語音分析
指令運用
智慧安防
智慧家居
智慧駕駛
智慧座艙
自動字幕
清除所有
中文(繁體)(台灣)發音詞典
取得數據集​
數據集編號
zho_TWN_PHON
產品類型
辭典
語言
繁體中文
國家
台灣
常見應用場景
ASR, 語言建模, TTS
查看更多
數據集名稱 :
中文(繁體)(台灣)發音詞典
語言 :
繁體中文
數據集編號 :
zho_TWN_PHON
國家 :
台灣
數據集描述 :
詞典格式 • 詞典的檔案格式為 UTF-8 編碼的純文字(.txt)檔案。 • 詞典包含以下欄位,各欄位之間以 <tab> 字元分隔:  1. 單詞|名稱; 2. 音標轉寫; 3. 排名; 4. 評論(選填) • 單詞|名稱的標準發音排名為「0」。 • 若適用,也可包含對應口語的變體發音、方言發音或其他非標準發音。  這些變體發音的排名為非零數字,起始於「1」、「2」、「55」等。
單元 :
50,000 個單詞
產品類型 :
辭典
常見應用場景 :
ASR, 語言建模, TTS
粵語(港澳地區)多類型 OCR 光學文字辨識數據集
取得數據集​
數據集編號
IMG_GA_OCR_CN
產品類型
圖片
語言
廣東話 (粵語)
國家
香港
常見應用場景
圖片標籤識別訓練
查看更多
數據集名稱 :
粵語(港澳地區)多類型 OCR 光學文字辨識數據集
語言 :
廣東話 (粵語)
數據集編號 :
IMG_GA_OCR_CN
國家 :
香港
數據集描述 :
本數據集涵蓋 7 種粵語(港澳地區)OCR 影像類型,包括: 含標註:廣告_972、招牌_162、名片|菜單_316、清單_220、地圖_15、標語橫幅_79、店面招牌_164。 不含標註:廣告_1809、招牌_1956、名片|菜單_1629、清單_828、地圖_211、標語橫幅_278、店面招牌_2609。
單元 :
11248 張
產品類型 :
圖片
常見應用場景 :
圖片標籤識別訓練
採集環境 :
多種光線
採集設備 :
手機/相機
英語(香港)發音詞典
取得數據集​
數據集編號
eng_HKG_PHON
產品類型
辭典
語言
英語
國家
香港
常見應用場景
語言建模, TTS, ASR
查看更多
數據集名稱 :
英語(香港)發音詞典
語言 :
英語
數據集編號 :
eng_HKG_PHON
國家 :
香港
數據集描述 :
詞典格式 • 詞典的檔案格式為 UTF-8 編碼的純文字(.txt)檔案。 • 詞典包含以下欄位,各欄位之間以 <tab> 字元分隔:  1. 單詞|名稱; 2. 音標轉寫; 3. 排名; 4. 評論(選填) • 單詞|名稱的標準發音排名為「0」。 • 若適用,也可包含對應口語的變體發音、方言發音或其他非標準發音。  這些變體發音的排名為非零數字,起始於「1」、「2」、「99」等。
單元 :
18,000 個單詞
產品類型 :
辭典
常見應用場景 :
語言建模, TTS, ASR
中國國小試題 OCR 數據集
取得數據集​
數據集編號
IMG_OCR_XXST_CN
產品類型
圖片
語言
簡體中文
國家
中國
常見應用場景
文件處理, 教育教輔
查看更多
數據集名稱 :
中國國小試題 OCR 數據集
語言 :
簡體中文
數據集編號 :
IMG_OCR_XXST_CN
國家 :
中國
數據集描述 :
本數據集為中文小學真實試題實拍影像數據,包含: 數學 2,651 張、英文作文 717 張、中文作文 453 張、小學速算 16,331 張、英文輔導 1,333 張、語文輔導 4,082 張,適用於 OCR 與教育輔助類 AI 模型訓練。
單元 :
25567 張
產品類型 :
圖片
常見應用場景 :
文件處理, 教育教輔
採集環境 :
多種光線
採集設備 :
手機/平板
中文 (簡體) 法律問答數據集
取得數據集​
數據集編號
LLM_FLWD_CN
產品類型
文本
語言
簡體中文
國家
中國
常見應用場景
聊天機器人, LLM
查看更多
數據集名稱 :
中文 (簡體) 法律問答數據集
語言 :
簡體中文
數據集編號 :
LLM_FLWD_CN
國家 :
中國
數據集描述 :
中文法律問答數據集共包含 26,000 組法律相關的指令與回答,涵蓋中國常見法律問題與主要法條,支援模型進行法律垂直領域的深度訓練。
單元 :
26000 對(1 問 1 答算一對)
產品類型 :
文本
常見應用場景 :
聊天機器人, LLM
粵語(香港)喚醒詞語音數據集(電話錄音)
取得數據集​
數據集編號
GSYY_ASR001_CN
產品類型
ASR
語言
廣東話 (粵語)
國家
香港
常見應用場景
智慧座艙, 語音分析, 虛擬助手, ASR
查看更多
數據集名稱 :
粵語(香港)喚醒詞語音數據集(電話錄音)
語言 :
廣東話 (粵語)
數據集編號 :
GSYY_ASR001_CN
國家 :
香港
數據集描述 :
本數據集包含 11.78 小時的港式粵語喚醒詞固定文本朗讀語音,涵蓋 170 位錄音者(ID),每位錄製 50 句語料。每位錄音者的語料內容皆不相同。
單元 :
11.78 小時
產品類型 :
ASR
常見應用場景 :
智慧座艙, 語音分析, 虛擬助手, ASR
採集環境 :
低背景噪音(家庭/辦公室)
採集設備 :
手機
中文 (簡體) 化學|數學|物理文本語料對數據集
取得數據集​
數據集編號
LLM_BK_CN
產品類型
文本
語言
簡體中文
國家
中國
常見應用場景
LLM
查看更多
數據集名稱 :
中文 (簡體) 化學|數學|物理文本語料對數據集
語言 :
簡體中文
數據集編號 :
LLM_BK_CN
國家 :
中國
數據集描述 :
本數據集包含 5 萬筆中文理科(化學|數學|物理)知識文本數據,用於大型語言模型的知識型預訓練任務。
單元 :
50000 對
產品類型 :
文本
常見應用場景 :
LLM
中文 (簡體) 深度思考問答大型語言模型數據集
取得數據集​
數據集編號
ZLCTN_corpus_CN
產品類型
文本
語言
簡體中文
國家
中國
常見應用場景
指令運用, LLM
查看更多
數據集名稱 :
中文 (簡體) 深度思考問答大型語言模型數據集
語言 :
簡體中文
數據集編號 :
ZLCTN_corpus_CN
國家 :
中國
數據集描述 :
本數據集為中文深度思考問答數據集,共包含 10,000 條問題與對應深度思考回答,適用於大模型的訓練與測試。
單元 :
10000 條
產品類型 :
文本
常見應用場景 :
指令運用, LLM
英文 (美國) 女性 TTS 數據集-成熟聲線
取得數據集​
數據集編號
JS_TTS001_CN
產品類型
TTS
語言
英語
國家
美國
常見應用場景
TTS
查看更多
數據集名稱 :
英文 (美國) 女性 TTS 數據集-成熟聲線
語言 :
英語
數據集編號 :
JS_TTS001_CN
國家 :
美國
數據集描述 :
高保真設備在專業錄音棚內錄製的TTS數據集。
單元 :
3 小時
產品類型 :
TTS
常見應用場景 :
TTS
採集環境 :
專業 TTS 錄音設備
採集設備 :
專業 TTS 錄音設備
英語有害與無害聊天機器人提示與回應數據集
取得數據集​
數據集編號
eng_USA_LLM001
產品類型
文本
語言
英語
國家
美國
常見應用場景
語言建模, LLM
查看更多
數據集名稱 :
英語有害與無害聊天機器人提示與回應數據集
語言 :
英語
數據集編號 :
eng_USA_LLM001
國家 :
美國
數據集描述 :
本數據集包含300條英語有害和無害的提問與答案。
單元 :
300 條
產品類型 :
文本
常見應用場景 :
語言建模, LLM
1 / 39

​​Appen 數據集優勢

Appen 提供多樣化的現成數據集,數據產品目錄涵蓋 700 多個可授權的數據集。其中語音數據集涵蓋超過 80 種語言與方言,適用於各種常見的 AI 應用場景,例如 TTS、ASR 等(可透過下方目錄表篩選功能查詢更多應用情境)。我們亦提供數據管理等進階服務。

快速部署

直接取得數據庫產品,協助您迅速啟動 AI 與機器學習專案

低成本高效益

取得經授權的現成數據集,相較於客製化數據收集服務更具成本效益

專家團隊

由深耕數據收集領域近三十年的專家團隊全力支援您的專案發展

支援所有數據類型

圖片、影片、語音、音訊、文字等多種格式全面涵蓋

大規模

提供大量高品質數據,助您高效訓練機器學習模型

高品質

提升模型表現,減少數據偏差,優化 AI 準確度與穩定性

數據收集與標註客製化服務

若您未能找到符合需求的現成 AI 數據集,Appen 亦提供數據客製化收集與標註服務。

我們具備涵蓋全球、多數據型態的作業能力,可為您快速、高效、大規模建立專屬數據集。

立即洽詢數據客製服務

高效部署模型

700+ 數據集,支援您快速高效部署 AI 模型

立即取得數據集
@ 2025 澳鵬數據科技(上海)有限公司
隐私政策
聯繫我們