當前位置：首頁 > 芯聞號 > 充電吧

TensorFlow中超大的30個機器學習數(shù)據(jù)集

時間：2020-08-06 10:52:02

關鍵字： tensorflow 數(shù)據(jù) 機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]導讀包括圖像，視頻，音頻，文本，非常的全。 largest tensorflow datasets for machine learning 由谷歌Brain的研究人員創(chuàng)建的TensorFlow

導讀

包括圖像，視頻，音頻，文本，非常的全。

largest tensorflow datasets for machine learning

由谷歌Brain的研究人員創(chuàng)建的TensorFlow是機器學習和數(shù)據(jù)科學領域最大的開源數(shù)據(jù)庫之一。它是一個端到端的平臺，適用于初學者和有經驗的數(shù)據(jù)科學家。TensorFlow庫包括工具、預訓練模型、機器學習指南，以及開放數(shù)據(jù)集的語料庫。為了幫助你找到所需的訓練數(shù)據(jù)，本文將簡要介紹一些用于機器學習的最大的TensorFlow數(shù)據(jù)集。我們已經將下面的列表分為圖像、視頻、音頻和文本數(shù)據(jù)集。

圖像數(shù)據(jù)集

1、CelebA: 最大的公開的人臉圖像數(shù)據(jù)集之一，名人臉屬性數(shù)據(jù)集(CelebA)包含超過20萬名名人的圖像。

每幅圖像包含5個面部特征點和40個二值屬性標注。

2、Downsampled Imagenet：該數(shù)據(jù)集用于密度估計和生成建模任務。它包含130多萬幅物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率：32 x 32和64 x 64。

3、Lsun – Lsun是一個大型圖像數(shù)據(jù)集，用于幫助訓練模型理解場景。數(shù)據(jù)集包含超過900萬張圖像，這些圖像被劃分為場景類別，例如臥室、教室和餐廳。

4、Bigearthnet – Bigearthnet是另一個大型數(shù)據(jù)集，包含來自Sentinel-2衛(wèi)星的航空圖像。每幅圖像覆蓋1.2 km x 1.2 km的地面。每張圖像包括43個不平衡標簽。

5、Places 365 – 顧名思義，Places 365包含了180多萬張不同地方或場景的圖片。其中包括辦公室、碼頭和小屋。Places 365是用于場景識別任務的最大數(shù)據(jù)集之一。

6、Quickdraw Bitmap – Quickdraw數(shù)據(jù)集是Quickdraw玩家社區(qū)繪制的圖像集合。它包含了500萬幅橫跨345個類別的畫作。這個版本的Quickdraw數(shù)據(jù)集包括28 x 28灰度格式的圖像。

7、SVHN Cropped – 來自斯坦福大學的街景門牌號(SVHN)是一個TensorFlow數(shù)據(jù)集，用來訓練數(shù)字識別算法。它包含600,000個真實世界的圖像數(shù)據(jù)樣本，這些數(shù)據(jù)被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人臉圖像數(shù)據(jù)集之一，VGGFace2包含從谷歌搜索引擎下載的圖像。這些臉因年齡、姿勢和種族而不同。每個受試者平均有362張圖像。

9、COCO – 由谷歌，F(xiàn)AIR, Caltech和更多的合作者制作，COCO是世界上最大的標記圖像數(shù)據(jù)集之一。它用于目標檢測、分割和圖像描述任務。

Coco TensorFlow Dataset

數(shù)據(jù)集包含330,000張圖像，其中200,000張已被標注。在這些圖像中有分布在80個類別中的150萬個物體實例。

10、Open Images Challenge 2019 – 包含大約900萬幅圖像，這個數(shù)據(jù)集是在線可用的最大的標注圖像數(shù)據(jù)集。包含圖像級標簽、物體邊框和物體分割掩碼，以及視覺關系。

11、Open Images V4 – 這個數(shù)據(jù)集是上面提到的開放圖像數(shù)據(jù)集的另一個迭代。V4有600個不同的物體類包含1460萬個邊框。邊界框是由人工標注人員手動繪制的。

12、AFLW2K3D – 該數(shù)據(jù)集包含2000個面部圖像，所有標注了3D人臉特征點。它是用來評估三維人臉特征點檢測模型的。

視頻數(shù)據(jù)集

13、UCF101 – 來自中佛羅里達大學的UCF101是一個用來訓練動作識別模型的視頻數(shù)據(jù)集。該數(shù)據(jù)集有13,320個跨越101個動作類別的視頻。

14、BAIR Robot Pushing – 來自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000個機器人推動運動的示例視頻。

15、Moving MNIST – 該數(shù)據(jù)集是MNIST基準數(shù)據(jù)集的一個變體，Moving MNIST包含10,000個視頻。

16、EMNIST – 擴展MNIST包含從原始MNIST數(shù)據(jù)集轉換為28 x 28像素格式的數(shù)字。

音頻數(shù)據(jù)集

17、CREMA-D – CREMA-D是為情感識別任務而創(chuàng)建的，包括聲音情感表達。這個數(shù)據(jù)集包含7,442個音頻片段，由91個不同年齡、種族和性別的演員配音。

18、Librispeech – Librispeech是一個簡單的音頻數(shù)據(jù)集，它包含1000小時的英語語音，這些語音來自LibriVox項目的有聲讀物。它被用于訓練聲學模型和語言模型。

19、Libritts – 這個數(shù)據(jù)集包含大約585小時的英語演講，是在谷歌Brain team成員的協(xié)助下準備的。Libritts最初是為文本到語音(TTS)研究設計的，但可以用于各種語音識別任務。

20、TED-LIUM – TED- lium是一個包含超過110小時的英語TED演講的數(shù)據(jù)集。所有談話都已抄錄下來。

21、VoxCeleb – VoxCeleb是一個用于揚聲器識別任務的大型音頻數(shù)據(jù)集，包含來自1,251名揚聲器的超過150,000個音頻樣本。

文本數(shù)據(jù)集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web頁面數(shù)據(jù)的開放源碼存儲庫。它有40多種語言，涵蓋了7年的數(shù)據(jù)。

23、Civil Comments – 這個數(shù)據(jù)集包含了來自50個英語新聞網站的超過180萬份公眾評論。

24、IRC Disentanglement – 這個TensorFlow數(shù)據(jù)集包含了來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數(shù)據(jù)包括消息ID和時間戳。

25、Lm1b – 這個數(shù)據(jù)集被稱為語言模型基準測試，它包含10億個單詞。它最初是用來衡量統(tǒng)計語言建模的進展。

26、SNLI – 斯坦福自然語言推理數(shù)據(jù)集是一個包含570,000對人類書寫的句子的語料庫。所有對都經過人工標記，以達到類別平衡。

27、e-SNLI – 這個數(shù)據(jù)集是上面提到的SNLI的擴展，它包含了原始數(shù)據(jù)集的570,000對句子，分類為：entailment，contradiction和neutral。

28、MultiNLI – 以SNLI數(shù)據(jù)集為模型，MultiNLI包括433,000對句子對，它們都標注了entailment信息。

29、Wiki40b – 這個大規(guī)模數(shù)據(jù)集包括來自40種不同語言的維基百科文章的文本。數(shù)據(jù)已經被清洗，非內容部分以及結構化對象已經被刪除。

30、Yelp Polarity Reviews – 這個數(shù)據(jù)集包含59.8萬個高度兩極分化的Yelp評論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽的數(shù)據(jù)中提取出來的。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]