42 個推薦的人工智慧與機器學習數據集

為了成功啟動人工智慧(AI)專案,許多企業正轉向使用外部數據集。在這個時代,尋找數據比以往更容易,且數據集對機器學習模型的效能也變得愈發關鍵。現在有許多網站提供各式各樣的數據庫,主題涵蓋廣泛,從罕見青蛙的影像到手寫字樣本,應有盡有。無論您的機器學習專案是什麼,都能找到合適的數據集作為起點。
在本文中,我們整理出 42 個優質的開放數據集連結,並依主題分類方便查找。請繼續往下滑,看看是否有您需要的數據資源。
我需要什麼樣的數據?
在開始搜尋合適的數據集之前,不妨先問自己幾個問題:
- 我希望透過這個 AI 專案達成什麼目標?
- 是否已有足夠的內部數據可供使用?
- 我理想中想要擁有什麼樣的數據?
- 我需要涵蓋哪些使用情境?
- 是否需要包含邊緣情境或特殊案例?
這些初步提問能幫助你更清楚地釐清所需的數據類型。如果你的專案需要針對特定情境進行客製化(例如涵蓋特定族群、性別、性取向或其他因素),那麼就必須確保你的數據能夠適當代表這些群體。
無論何種情況,搜尋數據時都應有明確目標——機器學習專案很容易因為使用了低品質或偏頗的數據而走偏。
為什麼選擇使用現成數據集?
你的團隊最終可能會選擇以現成數據集來訓練模型。這樣的做法在 AI 領域越來越常見,原因很簡單:打造 AI 本身就非常困難。多數 AI 專案最終無法順利部署,常見原因包括:
- 預算有限:推動 AI 專案通常需要大量資金投入。
- 缺乏專業人才:AI 與機器學習領域技術門檻高,而業界相關人才供不應求。許多組織即使有 AI 計畫,也因為找不到合適人選而遲遲無法啟動。隨著產業需求增加,這樣的落差可能會持續擴大。
- 企業仍處於 AI 發展初期:若要順利導入 AI,企業必須建立對應的組織架構,包括內部流程、策略方向與跨部門合作機制。延伸閱讀:《企業如何打造 AI 卓越中心》
- 數據品質不佳或數據不足:這往往是 AI 發展的最大阻礙。機器學習模型通常需要大量高品質數據才能發揮效能。然而,不同應用場景需要的數據類型差異很大,收集難度不一。此外,將低品質數據轉換為高品質標註數據,不僅耗時,也可能效率低落。
因此,選用現成的高品質數據集,不僅能節省時間與成本,也能有效降低開發風險,加速 AI 專案的落地與部署。
對許多企業來說,自行進行數據標註相當困難,因此現今尋求專業公司協助標註已成為常態。為了突破數據瓶頸,越來越多企業選擇購買或使用免費的現成數據集。事實證明,這些數據集不僅是建立機器學習模型的良好起點,有時甚至能完整覆蓋所需的使用場景。
以下是使用現成數據集的幾個優勢:
符合法規要求
隨著客戶與監管單位對數據安全的重視日益提升,企業使用內部數據的限制也越來越多。有些公司雖然本身就接觸大量數據,但並不代表可以直接將這些數據用於機器學習模型,尤其在可能涉及用戶隱私的情況下更需審慎。
降低偏誤風險
隨著企業更重視負責任 AI 的發展,如何減少模型偏誤成為關鍵議題。若完全依賴內部數據,往往難以察覺數據中可能存在的偏誤。反之,使用現成數據集可回溯其來源、了解在建構過程中是否進行偏誤控管。值得信賴的數據供應商通常能提供多元且高品質的數據內容。
加速上市時程
蒐集與清理數據是最耗時的工作之一,常佔據數據科學家大部分的時間。若選擇使用現成數據集,這些繁重的前期作業已大致完成(當然,仍建議企業自行審查品質)。在講求速度的產業中,這將大幅提升市場反應速度。
更具成本效益
內部數據的整合、審查與清洗過程往往需要大量資源與預算,而許多優質的現成數據集可以免費或以低價取得。對於 AI 預算有限的企業來說,善用這些資源不失為一個理想選擇。
現成數據集具備多項優點,有助於解決 AI 開發中常見的挑戰。在建構機器學習模型的過程中,使用成品數據集無疑是一項值得考慮的實用策略。
網路上其實有非常多高品質的現成數據集可供使用。以下我們整理了搜尋與探索數據集的優質平台與資源,排名不分先後。首先會介紹一些常見的數據庫平台,接著也會列出適用於特定應用情境的推薦數據集。
數據資料庫
數據資料庫是彙整來自網路各處數據集的集中平台。
Kaggle
Kaggle 是目前規模最大的線上數據集資料庫之一,涵蓋運動、醫療、政府等多元主題。這個平台以社群為主導,用戶可以自行上傳數據集。由於 Kaggle 的數據來源多元,建議在使用前務必仔細檢視其數據品質。此外,Kaggle 也提供大量與機器學習相關的討論區和關鍵流程的教學資源。
Google 數據集
Google 提供一個數據集搜尋引擎,使用者可以透過名稱或關鍵字來搜尋所需的數據集。這個搜尋工具支援依據多種條件篩選結果,例如檔案類型、主題分類、最新更新時間或相關性等。Google 數據集搜尋會從全球數千個資料庫中彙整結果,讓使用者能夠一次瀏覽豐富又多樣的選項。許多數據集都來自國際知名機構,例如哈佛大學、世界衛生組織等。
Papers with Code
Papers with Code 現有超過四千個數據集,並持續增加中。這些數據集由社群成員上傳,使用者可以依據資料模態、任務類型與語言等條件輕鬆篩選。此外,這個平台也整合了其他資料庫的連結,讓使用者能快速找到更多元的數據資源。
DataFlair
DataFlair 提供超過 70 筆機器學習數據集的連結,還包含原始碼範例與專案靈感等實用資訊。例如,在手寫數字的數據集介紹中,網站會建議你嘗試建立圖像分類模型來辨識紙本上的手寫內容。這個平台不只是數據來源,也能激發你在 AI 專案上的新點子。
EliteDataScience
EliteDataScience 提供免費數據集,以及從熱門數據集整合平台精選出來的清單。這些數據集依照應用情境分類,包括可用於深度學習、自然語言處理、網路爬蟲等不同領域,非常適合用來啟動你的機器學習專案。
UCI 機器學習資料庫
UCI 擁有超過 500 筆機器學習數據集,使用者可依檔案類型、任務、應用領域與主題進行篩選。許多數據集還附有學術論文連結,可作為模型訓練與評估的基準參考,非常適合用於學術研究與實務測試。
GitHub 出色的公開數據集
GitHub 上匯集了多個優質的開源數據集,涵蓋農業、交通等多元主題。使用者可以瀏覽目錄,自由選擇所需領域的數據。除此之外,GitHub 上也有許多通用的機器學習模型集合可供參考。這些數據集大多數都可免費使用,非常適合開發者與研究人員快速上手。
Azure 公共數據集
Microsoft Azure 提供一個公共數據集資料庫,供開發人員用於原型設計與測試使用。資料庫類別涵蓋美國政府與機構數據、各類統計與科學資料,以及線上服務相關數據。此外,平台上還提供關於 SQL 操作及如何打造行動與網頁應用程式的教學文件,方便使用者加速開發流程。
Snowflake 數據集市
Snowflake 數據集市集結了超過 175 家第三方數據供應商與數據服務提供商,提供超過 650 筆即時且可隨時查詢的數據集。這些資源特別適合數據科學家、商業智慧與數據分析專業人士,以及任何希望透過數據驅動決策的使用者,大幅提升資料運用的效率與靈活度。
AWS 上的開放數據註冊表
AWS 提供一個開放數據註冊表,收錄了超過 280 筆可透過 AWS 資源存取的數據集。使用者不僅可以搜尋並使用這些數據集,也可以分享自己整理的數據或新增特定數據集的應用示例。這個註冊表對於需要雲端資源進行資料分析或機器學習實驗的開發者與研究人員來說,是一個相當實用的工具。
KDNuggets
KDNuggets 提供一份涵蓋性極高的數據資料庫清單,內含超過 75 個數據存儲庫,涵蓋各種主題與領域。其中包含多個國際級資料庫,非常適合從事資料科學、機器學習與人工智慧研究的使用者參考與運用。
Appen
Appen 提供多樣化的現成訓練數據集。我們的數據庫涵蓋超過 80 種語言、250 多個可授權的數據集,內容包含多語言方言的語音數據,以及完整的電腦視覺圖像與影片數據集。這些數據廣泛應用於語音辨識、自然語言處理等機器學習情境,支援多種檔案格式(文本、圖像、影片、語音與音訊),例如:
- 適用於車載對話、家庭語音助理的完整轉錄語音數據集
- 涵蓋通用與特定領域(如人名、地名、數字)的發音詞典
- 含詞性標記的詞典與詞彙資料庫
- 含詞彙資訊與命名實體標記的文本語料庫
我們致力於提供高品質數據集,助您打造準確且可靠的 AI 解決方案。
電腦視覺(Computer Vision)數據集
這些資料庫與數據集專為電腦視覺相關專案設計,內容主要為影像數據,可應用於各類視覺辨識任務。
ImageNet
ImageNet 是一個依據 WordNet 層級結構所組成的名詞數據集,每個節點都對應數千張相關圖片。這個資料庫中的影像數據免費提供給研究人員使用,廣泛應用於電腦視覺與深度學習研究中。
MNIST 數據庫
MNIST 是一個經典的手寫數字影像數據集,包含 60,000 筆訓練資料與 10,000 筆測試資料,每筆都是標準化的 28x28 像素灰階圖像。這個數據集廣泛應用於機器學習與深度學習的圖像分類任務中,是入門電腦視覺的常用基準數據集。
IMDB-Wiki 數據集
IMDB-Wiki 是目前最大的人臉圖像數據集之一,包含超過 50 萬張帶有性別與年齡標籤的人臉照片。這些圖像多數來自名人資料庫 IMDB 和維基百科,廣泛應用於年齡預測、性別辨識與人臉辨識等機器學習任務。
LabelMe 數據集
LabelMe 數據集是透過 LabelMe 標註工具建立的,該工具可讓使用者描繪圖像中物體的輪廓並加上標籤。這個數據集廣泛應用於影像辨識專案,特別適合用來訓練物體偵測與語義分割等電腦視覺模型。
MS COCO 數據集
MS COCO,全名為「Microsoft Common Objects in Context Dataset」,是為了解決「在真實場景中辨識常見物體」這一問題而推出的數據集。它收錄超過 120,000 張圖片,每張圖片都具備多個標註,包括物件偵測、語義分割與圖像描述等資訊。圖像內容涵蓋 91 個常見物體類別,廣泛應用於各種電腦視覺任務與深度學習模型訓練中。
Kinetics-700
Kinetics-700 是一個以人類行為為主要標註的影片資料集,內容來自 YouTube。它包含超過 65 萬個影片片段,涵蓋 700 種不同的人類行為,如跳舞、煮飯、打鼓等,非常適合用於動作辨識與視覺理解的研究與訓練模型。
Places2 Database
Places2 Database 是由麻省理工學院(MIT)釋出的圖像數據集,收錄超過 1,000 萬張圖像,涵蓋 400 多種場景類別。這個數據集特別適用於場景分類與場景解析等電腦視覺任務,有助於提升模型對各種真實世界場景的辨識能力。
Open Images 數據集
Open Images 是目前具有物件位置標註功能的最大圖像數據集之一,包含超過 900 萬張圖像。每張圖像皆附有物件邊界框、分割標註以及其他註解,總計超過 1,600 萬個邊界框,涵蓋 600 種物件類別。這個數據集廣泛應用於物件偵測、影像分類與語義分割等電腦視覺任務。
MPII 人體姿態數據集
MPII 人體姿態數據集包含約 25,000 張圖像,涵蓋 410 種人體動作,圖像中標註了約 40,000 個不同人物的身體關節位置。這些圖像主要取自 YouTube 影片,廣泛應用於人體姿態估計與行為識別等研究領域。
自然語言處理(NLP)數據集
以下這些數據集涵蓋文本與語音的自然語言範例,適用於您的自然語言處理專案。應用情境包含情緒分析、語音辨識、語音轉錄等。
Google Blogger 語料庫
Google Blogger Corpus 收錄了來自 blogger.com 的近 70 萬篇部落格文章,每篇文章至少包含 200 個英文單字。整體來說,這些文章涵蓋了大量常見英文詞彙,非常適合用於語言模型訓練或文本分析等自然語言處理應用。
Yelp Reviews
Yelp Reviews 數據集收錄了大量與餐廳相關的評分與評論,內容豐富,非常適合用於進行情感分析、意見挖掘與自然語言處理訓練等應用。
WikiQA 語料庫
WikiQA 語料庫是一個問答(Q&A)數據集,由 Bing 搜尋資料整理而成。數據集包含超過 3,000 個問題、29,000 句潛在答案,其中約有 1,500 句經過標註為正確答案,非常適合用於訓練與測試問答系統與自然語言理解模型。
M-AI Labs 語音數據集
M-AI Labs 語音數據集包含近 1,000 小時的音訊與對應轉錄資料,涵蓋多種語言的男女聲錄音。該數據集適用於語音辨識、語音轉文字(ASR)等人工智慧應用的訓練與測試。
LibriSpeech
LibriSpeech 包含約 1,000 小時的語音數據,這些語音已被切段並對齊對應文本。數據來源為 LibriVox 專案中的有聲書,非常適合用於訓練與測試語音辨識(ASR)模型。
WordNet
WordNet 是一個以詞義為基礎編排的英文單字資料庫,將英文單字依照語義組成約 117,000 組同義詞集,並彼此建立關聯。這個資料庫非常適合用於文本分類、語義分析與自然語言處理等專案。
OpinRank 數據集
OpinRank 數據集收錄來自 Edmunds 和 TripAdvisor 的 30 萬則評論,內容涵蓋旅遊景點、飯店等主題,並依據不同目的地與評價因素進行分類,非常適合用於情感分析與推薦系統相關的研究與應用。
多領域情感數據集
多領域情感數據集收錄來自 Amazon.com 四個品類的產品評論:DVD、書籍、廚房用品與電子產品。每個類別中都有數千筆評論,並附有 1 到 5 星的評分。顧名思義,這套數據集特別適合應用於情感分析相關的自然語言處理專案。
Twitter 情感分析數據集
Twitter 情感分析數據集包含超過 150 萬則已分類的推文。每則推文都被標記為 1(正面情緒)或 0(負面情緒),非常適合用於訓練情感分類模型或其他自然語言處理應用。
20 Newsgroups
20 Newsgroups 數據集包含 20,000 篇來自 20 個不同新聞群組的文件,如其名所示。主題涵蓋廣泛,有些新聞群組的主題相對相似。該數據集有三個版本:初始版本、移除日期的版本,以及移除重複內容的版本,適合用於文本分類與主題建模等自然語言處理任務。
依產業分類的數據集
值得一提的是,有一些非常實用的資源能協助你取得特定產業的數據集。
美國政府資料入口網站
美國政府資料入口網站(Data.gov)整合了所有美國政府承諾公開的數據資源。透過這個平台,你可以查找超過 30 萬筆數據集,例如學生貸款資料、醫療機構收費資訊等。
適用產業:政府機構
歐盟開放資料入口網站
歐盟開放資料入口網站提供用戶查找歐盟各機構所公開的資料資源,例如人口統計、教育資訊等。這些數據來自歐盟各部門與機構,涵蓋多項公共政策領域。
適用產業:政府機構
世界衛生組織(WHO)
世界衛生組織提供涵蓋全球飢餓、醫療保健、傳染病、公共衛生等關鍵議題的數據資料,可用於分析各地健康狀況與趨勢。
適用產業:醫療保健
博德研究所
博德研究所提供多項與癌症相關的數據集,內容涵蓋基因定序、分類與分析等主題,適用於癌症研究與醫療應用。
適用產業:醫療
Google 金融
Google 金融提供超過 40 年的股票市場數據,並持續進行即時更新,適用於投資分析與金融模型建構。
適用產業:金融
Berkeley DeepDrive
由加州大學柏克萊分校建立,Berkeley DeepDrive 包含超過 10 萬段來自不同地理區域、環境與天氣條件的影片剪輯。這些影片以邊界框標註,可用於物體偵測、車道標線辨識及各種影像分割任務,非常適合用於訓練自動駕駛車輛的模型。
適用產業:汽車業
Level5
Level5 是由共乘公司 Lyft 建立的資料集,包含自動駕駛車輛在特定地理區域所收集的原始感測器資料(如攝影機與 LiDAR 雷射雷達)。該資料集以三維邊界框標註特定目標物體,能用於自駕技術的偵測與辨識任務。
適用產業:汽車業
USDA 開放數據目錄
USDA(美國農業部)開放數據目錄收錄了美國農業部所彙整的各類資料,主題涵蓋美國農業生產力的測量、食源性疾病成本估算等。這些數據對於農業研究、政策制定與食品安全分析具有高度價值。
適用產業:農業
Fashion-MNIST
Fashion-MNIST 包含近 60,000 張時尚產品圖像作為訓練資料,以及 10,000 張測試圖像,分為 10 種類別。這個資料集常被用於產品分類、電商推薦系統等 AI 應用,是零售產業中廣泛使用的基準資料集之一。
適用產業:零售
電子商務搜尋相關性
電子商務搜尋相關性資料集包含各類產品的功能描述、在網頁上的排名、用戶搜尋的關鍵字以及其他相關屬性。這些資料來自五個大型英文電子商務網站,可用於訓練搜尋排序、推薦系統與關鍵字配對的機器學習模型。
適用產業:零售
澳鵬首席數據科學家 Monchu Chen 的專家見解
選擇數據庫時的考量
在啟動一個新專案時,建議不要一開始就急著找現成的數據集,而是應該先退一步,仔細思考您的應用或服務實際要解決的是什麼樣的使用者需求。有時候,相同的產品設計可能透過不同的 AI 功能實現,而這些功能可能會依賴完全不同的機器學習模型。不同模型的開發成本、建構方式,以及對訓練數據的要求也會有所不同。
當您準備好進一步推進時,有一些實用技巧可以幫助您挑選合適的公開數據集,特別是在預算不足以自行採集數據時,這些數據集可以協助您快速啟動模型開發。
選擇數據集的子集
在挑選數據集時,不需要被整體數據的龐大與複雜性嚇到。有時候,只要擷取整體數據集中的一個子集,就足以滿足您的 AI 專案需求。這樣的做法不僅更有效率,也能幫助您更聚焦在特定目標或應用場景上。
組合使用多個數據集
有時候,單一數據集可能無法完全符合您在開發模型時所需的數據內容。這時,您可以考慮組合多個數據集(或其子集),打造一個更貼近實際應用情境的訓練數據,進一步提升模型的表現與泛化能力。
現有的 API
許多數據集都附有 API 或開發庫,讓您更方便地存取與轉換資料。這能在專案初期大幅節省時間,加快模型訓練與測試流程。
現有的示範專案
您也可以尋找曾使用熱門數據集進行專案的人,他們通常會在 GitHub 等平台上公開其工作成果。在挑選數據時,您可以參考他們的原始碼、模型設計,甚至是預訓練模型,作為起點或靈感來源。
授權問題
就像軟體一樣,數據集也會有不同類型的授權條款。有些授權可能要求您公開在該數據集上所做的工作;也有些僅限於非商業用途。一般建議盡可能將程式碼與數據集分開處理。最保險的做法,是在選用任何數據集之前,先諮詢法律專業意見,確保您的應用程式不會涉及授權爭議。
短期 / 長期考量
在做短期決策時(例如選擇第一個數據集),最好也同時思考其長期影響。從全局角度來看,當您之後需要從公開數據集過渡到自行策劃的數據集時,您會發現當初看似「次佳」的選擇,反而可能為您節省大量時間、精力與預算。
我們可以為您做些什麼?
當您決定進一步擴充現成數據集時,我們的數據採集與標註服務,以及專業的數據標註平台,能協助您取得支撐機器學習模型大規模運作所需的資料。
作為業界的全球領導者,我們的客戶受惠於我們在多種資料類型上的強大能力,無論是影像、影片、語音、音訊或文本,我們都能快速提供大量高品質數據,以滿足您特定的 AI 計畫需求。我們也提供多元數據解決方案與服務(包含現成數據集),靈活滿足您的需求。
憑藉超過 25 年的專業經驗,我們將與您攜手合作,最大化資料傳輸效率,助您加速 AI 發展。
歡迎聯繫我們,討論您的訓練數據需求。
Appen 提供 600+ 現成數據集,涵蓋語音辨識 (ASR)、文本、發音詞典、影像與影片,為您的快速部署提供高品質數據。