機械学習で使える大規模な画像データセット｜CO-WRITE ─ AIとデータサイエンス by GRI

大規模なオープン画像データが必要になったので調査してみました。

ImageNet

オープンデータの中で特に有名なデータセットです。
かなり細分化されており、大量のクラスが存在しています。

WordNetに紐づけられており、階層構造になっているので、目的の画像が探しやすくなっています。

Poppyを選択してみました。Poppyだけで16クラスも持っています。

ランダムにクラスを選んで、アノテーション情報に関しても確認してみます。
体感的には1/3くらいがバウンディングボックスの情報を持っているようです。

Open Images Dataset

Googleが出している画像の大規模データセット。クラス数はそこまで多くはないようです。

Appleを選択してみます。

TypeをDetectionにするとこんな感じ。バウンディングボックス付きの画像が表示されました。

個別では認識できていないものも多そうですが、集合体だと認識されたものに対してはApple(Group)というタグがつけられているようです。

TypeをSegmentationに変更してみます。リンゴの領域が塗りつぶされた画像が出てきました。

個別で識別できているもののみがSegmentされているようです。

Open Images Dataset

COCO dataset

豊富なアノテーションが特徴のデータセットです。

chairとwine glassを選択して画像を検索してみます。

chairとwine glassの両方が含まれている画像が数多くでてきました。

画像から抽出されたものが画像の上に表示されています。

さらに画像に対するCaptionも生成してくれています。

もう一枚見てみます。

奥にいる人などはSegmentされていないようですが、手前にあるものは高い精度でSegmentされています。

COCO dataset

おわりに

今回は登録なしで気軽にデータを確認できる3つのデータセットを調査しました。

今回紹介したもの以外にも動物の画像だけのものや工業製品の画像だけのものなど条件を絞ったデータセットは数多くありそうです。

データサイエンス

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

機械学習で使える大規模な画像データセット

ImageNet

Open Images Dataset

COCO dataset

おわりに

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

ImageNet

Open Images Dataset

COCO dataset

おわりに

AI予測で競馬は勝てるのか？ ~ 予測編①~

データがあるのに、活用しない人々へ - 最高の統計が教えてくれる『発展途上国とは何か？』

エクセルで重回帰分析をする方法 - Step-by-Stepガイド

Isolation Forest と異常検知（ネットアクセスログを用いて）

分析会社GRIが開発したAI予測ツール「ForecastFlow」は何がいいのか

ビンゴゲームで同じ数字が続けて出てしまうのはランダムと言えるのか？

【生成AIと従来のAIは何が違う？】やっていることは同じで目的が違うだけ

今注目のGPTモデル・学習と予測の仕組み大解説

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

AI予測で競馬は勝てるのか？　~ 予測編①~