Appen 經授權的現成數據集,助您快速啟動 AI 專案
Appen 提供超過 800 個現成數據集,涵蓋近 10 萬小時的錄製或網路公開音訊資源、50 多萬張圖像,以及超過 1 億字/詞的文本內容,支援 80 多種語言與方言。我們也持續建構全新數據集,以滿足全球企業用戶的部署需求。
語音辨識數據集
覆蓋超過 90 種語言,總時長近 10 萬小時
包含電話通話、手機錄音、高傳真麥克風等多種錄音設備來源,以及網路數據清洗
對話類語音數據庫 80 餘個,總量超過 10,000 小時
朗讀類語音數據庫近 120 個,總量約 70,000 小時
自由發言語音數據庫 20 個,總量約 20,000 小時
特殊語音數據庫:0–3 歲嬰幼兒啼哭聲音數據約 70 小時、貓狗叫聲數據約 70 小時,以及多領域兒童高傳真喚醒詞數據集
大型語言模型數據集
81 億個 token、1,000 萬個詞條的大型語言模型(LLM)數據集
涵蓋醫療、金融、法律、教育、中文百科、程式碼等多元領域
邏輯推理數據集,包含思維鏈、多模態圖像意圖分析等類型
多模態數據集,包含百萬筆圖片搭配文字或影片搭配字幕的數據,支援多語言
安全性問答數據集,支援大模型毒性測試與安全性訓練
圖片數據集
總計 600 萬張圖片
數百萬筆高品質多模態圖片與文字配對數據集
十多種語言的通用場景 OCR 圖像數據集
精細標註日文發票,共 992 張
特殊數據集:電梯間電動車精細標註數據、多房型室內平面圖、汽車尾燈圖像集、頭髮分割數據集
文字數據集
三十多萬筆含標註的跨學科題目資料集
發音詞典涵蓋 98 種語言,共 523 萬筆詞條
詞性詞典涵蓋 22 種語言,共 326 萬筆詞條
命名實體庫(NER)涵蓋 8 種語言,超過 100 萬筆詞條
影像數據集
涵蓋東南亞各國人物的朗讀影像
大量開源影像擷取數據集
語音合成數據集
涵蓋多種語言,400 位聲優,來自 20 多個國家的資深聲優資源庫
收錄多種情緒音色與多元應用場景
駕駛人危險行為辨識數據集:協助偵測駕駛座位置、駕駛人危險動作與疲勞行為
乘客安全監測數據集:可用於識別車內遺留的孩童、寵物或危險物品
車載語音數據集:支援語音導航與智慧車載功能,提升多元化駕駛體驗
車外駕駛感知數據集:協助辨識車道線、障礙物與停車格等外部道路資訊
線上 NLP 多輪對話數據集可協助實現生成式 AI 聊天機器人,推動線上客服智慧化
TTS 語音數據集能將文字內容即時轉換為自然語音,語調流暢自然,讓使用者在收聽資訊時感受更親切
Appen 金融 OCR 數據集支援金融與保險領域的契約審核自動化,實現高效、精準的文字辨識與轉寫流程。
語音辨識數據集支援智慧家庭 AI 的語音互動功能
障礙物影像數據集協助掃地機器人等設備進行智慧辨識與障礙跨越
人臉辨識、語音辨識等數據集可協助您部署各類智慧終端應用
人臉辨識、危險動作追蹤等數據集,可協助您建構智慧安防人工智慧系統
您可以搜尋與篩選您所需的數據集,並查看範例。
若您有購買需求,請點擊「取得數據集」,我們的專家將與您聯繫。
Appen 提供多樣化的現成數據集,數據產品目錄涵蓋 700 多個可授權的數據集。其中語音數據集涵蓋超過 80 種語言與方言,適用於各種常見的 AI 應用場景,例如 TTS、ASR 等(可透過下方目錄表篩選功能查詢更多應用情境)。我們亦提供數據管理等進階服務。
快速部署
直接取得數據庫產品,協助您迅速啟動 AI 與機器學習專案
低成本高效益
取得經授權的現成數據集,相較於客製化數據收集服務更具成本效益
專家團隊
由深耕數據收集領域近三十年的專家團隊全力支援您的專案發展
支援所有數據類型
圖片、影片、語音、音訊、文字等多種格式全面涵蓋
大規模
提供大量高品質數據,助您高效訓練機器學習模型
高品質
提升模型表現,減少數據偏差,優化 AI 準確度與穩定性
若您未能找到符合需求的現成 AI 數據集,Appen 亦提供數據客製化收集與標註服務。
我們具備涵蓋全球、多數據型態的作業能力,可為您快速、高效、大規模建立專屬數據集。
大中華區及北亞總部
澳鵬數據科技(上海)有限公司
金科路 2889弄6號常態廣場E座701
上海市浦東新區
電話:400-021-9488
大中華區及北亞總部
澳鵬數據科技(上海)有限公司
金科路 2889弄6號常態廣場E座701
上海市浦東新區
電話:400-021-9488