現在私も機械学習(主に画像認識)に取り組んでおりますがやはり1番大変なのが学習です。
数百程度では精度がだせないので何万~何十万ものデータが必要となってきますが自分でデータを集めるのは非常に大変。
そんなときには公開されているデータセットを利用して学習させるのが非常に手っ取り早いです。
という事で主に画像関連のデータセットを公開しているサイトを集めてみました。
ImageNet
http://www.image-net.org/
1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得がしやすい。
CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickerのデータセットで1億600万枚もあるらしい。
データセットのダウンロードは申請が必要。
Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
32×32ピクセルの画像が約8,000万枚ダウンロード可能。
小さいサイズですが8,000万枚もあるのでサイズが227Gbととても大きい。
SUN dataset
http://vision.princeton.edu/projects/2010/SUN/
シーン認識用のデータセットで風景+オブジェクトの認識には適していそう。
UC Irvine Machine Learning Repository
http://archive.ics.uci.edu/ml/index.php
様々な画像のデータセットあり現在399クラス。
THE MNIST DATABASE
http://yann.lecun.com/exdb/mnist/
有名な文字認識用のデータセット。約6万の学習用データがある。
MegaFace and MF2
http://megaface.cs.washington.edu/
顔認識用データセットで470万枚ほどの顔写真がダウンロード可能。
日本人の写真は少ない?
私が使ってみた感じでは ImageNet が一番使いやすいと思いましたが、画像認識はデータ量が命なので色々な所のデータセットを活用するのが良いと思います。
但しライセンスフリーではない場合もありますのでご注意ください。