画像認識(機械学習、AI)のデータセットをダウンロードできるサイト一覧

著者:aoki

画像認識(機械学習、AI)のデータセットをダウンロードできるサイト一覧

現在私も機械学習(主に画像認識)に取り組んでおりますがやはり1番大変なのが学習です。
数百程度では精度がだせないので何万~何十万ものデータが必要となってきますが自分でデータを集めるのは非常に大変。
そんなときには公開されているデータセットを利用して学習させるのが非常に手っ取り早いです。

という事で主に画像関連のデータセットを公開しているサイトを集めてみました。

ImageNet


http://www.image-net.org/
1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得がしやすい。

CoPhIR


http://cophir.isti.cnr.it/whatis.html
Flickerのデータセットで1億600万枚もあるらしい。
データセットのダウンロードは申請が必要。

Tiny Images Dataset


http://horatio.cs.nyu.edu/mit/tiny/data/index.html
32×32ピクセルの画像が約8,000万枚ダウンロード可能。
小さいサイズですが8,000万枚もあるのでサイズが227Gbととても大きい。

SUN dataset


http://vision.princeton.edu/projects/2010/SUN/
シーン認識用のデータセットで風景+オブジェクトの認識には適していそう。

UC Irvine Machine Learning Repository


http://archive.ics.uci.edu/ml/index.php
様々な画像のデータセットあり現在399クラス。

THE MNIST DATABASE


http://yann.lecun.com/exdb/mnist/
有名な文字認識用のデータセット。約6万の学習用データがある。

MegaFace and MF2


http://megaface.cs.washington.edu/
顔認識用データセットで470万枚ほどの顔写真がダウンロード可能。
日本人の写真は少ない?

私が使ってみた感じでは ImageNet が一番使いやすいと思いましたが、画像認識はデータ量が命なので色々な所のデータセットを活用するのが良いと思います。
但しライセンスフリーではない場合もありますのでご注意ください。

  • この記事いいね! (1)

著者について

aoki author