深層学習入門:画像認識系のAIについて

E資格のための勉強もかねて、画像認識系のAIの紹介をしていきます。
もし間違っているところがあれば、ぜひコメントしてください。

画像認識AIとは

画像認識系のAIは、画像分類Classification)、物体検出Detection)、領域検出Semantic Segmentation)の3つのタスクに分類されます。

それぞれのタスクのイメージは次の図の通りです。

これから個々のタスクについて、説明していきます。

画像分類(Classification)とは

画像分類とは入力画像に映っているものを判別させるタスクです。

例えばソフトクリームが写った画像と、ソフトクリームが写っていない画像でAIを学習させることで、ソフトクリームか否かを判別できるAIが作成することができます。



また、教師画像をソフトクリームの画像とアイスクリームの画像にすることで、ソフトクリームかアイスクリームかを判別するAIを作成することができます。




この前者後者の分類方法は、作成するAIの用途によって使い分ける必要があります。




図からも分かるかとは思いますが、入力画像のバリエーションが無数にある場合前者、限られている場合は後者がおすすめです。

物体検出(Detection)とは

物体検出とは画像上の対象物の位置を矩形で検出する手法です。
画像分類手法と違って、複数の物体を検出できるのがポイントです。



画像分類ではソフトクリームが写っている個数を把握することが困難ですが、物体検出であればカウントできます。

よって物体検出は対象物の大まかな位置個数を把握するのに適したタスクとなります。

領域検出(Semantic Segmentation)とは

矩形で領域を検出していたDetectionと異なり、領域検出ではピクセルレベルで対象領域を検出することができます。

物体検出は個数を把握するのに適したタスクでしたが、領域検出は対象物の大きさを把握するのに適したタスクとなります。

それぞれのタスクはこれから紹介していきたいと思います!

今回使用した画像:ソフトクリーム/上島珈琲

日光東照宮店で食べたものになります。
観光終わりにサクッと行ける感じが良いですね。

コメント