画像認識(機械学習、AI)のデータセットをダウンロードできるサイト一覧

現在私も機械学習(主に画像認識)に取り組んでおりますがやはり1番大変なのが学習です。
数百程度では精度がだせないので何万~何十万ものデータが必要となってきますが自分でデータを集めるのは非常に大変。
そんなときには公開されているデータセットを利用して学習させるのが非常に手っ取り早いです。

という事で主に画像関連のデータセットを公開しているサイトを集めてみました。

ImageNet


http://www.image-net.org/
1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得がしやすい。

CoPhIR


http://cophir.isti.cnr.it/whatis.html
Flickerのデータセットで1億600万枚もあるらしい。
データセットのダウンロードは申請が必要。

Tiny Images Dataset


http://horatio.cs.nyu.edu/mit/tiny/data/index.html
32×32ピクセルの画像が約8,000万枚ダウンロード可能。
小さいサイズですが8,000万枚もあるのでサイズが227Gbととても大きい。

SUN dataset


http://vision.princeton.edu/projects/2010/SUN/
シーン認識用のデータセットで風景+オブジェクトの認識には適していそう。

UC Irvine Machine Learning Repository


http://archive.ics.uci.edu/ml/index.php
様々な画像のデータセットあり現在399クラス。

THE MNIST DATABASE


http://yann.lecun.com/exdb/mnist/
有名な文字認識用のデータセット。約6万の学習用データがある。

MegaFace and MF2


http://megaface.cs.washington.edu/
顔認識用データセットで470万枚ほどの顔写真がダウンロード可能。
日本人の写真は少ない?

私が使ってみた感じでは ImageNet が一番使いやすいと思いましたが、画像認識はデータ量が命なので色々な所のデータセットを活用するのが良いと思います。
但しライセンスフリーではない場合もありますのでご注意ください。

>株式会社シーポイントラボ

株式会社シーポイントラボ

TEL:053-543-9889
営業時間:9:00~18:00(月〜金)
住所:〒432-8003
   静岡県浜松市中央区和地山3-1-7
   浜松イノベーションキューブ 315
※ご来社の際はインターホンで「316」をお呼びください

CTR IMG