特徴量抽出

従前の機械学習において使われていた「特徴量」は、たとえば「耳」の違いという「特徴」を特徴量抽出の手法を使って座標にマッピングします。たくさんの犬・猫の画像について、特徴量を座標にしてマッピングしていくと、少しずつ画像が 座標上でグループ化されてきます。つまり、「耳」という特徴量によって、座標上で、犬のグループと、猫のグループに少しずつ分かれていきます。ここで二つのグループを区分けしようと考えたとき、「犬と猫の間のどこかに、線引きをすればいい」と考えつきます。その犬のグループ、猫のグルーフをきれいに分類するための境界線の引き方は、犬と猫の点がいちばん近接している軸に対して補助線を引いて、その中点を取ればいいように思えます。このように、プロットとプロットの中点をつないで境界線を引いていくと、犬と猫の分類がきれいにできます。ここで、もう1枚、新しい画像を追加したとします。それが犬か猫かは、まだわかりませんが、グラフ上では、ある一点に入ったとします。すると、この座標が犬か猫のどちらに入るか、という問題に置き換わっていきます。境界線の引き方によって「犬」と判断されたり、「猫」と判断されることになり、実際 座様にマッピングした画像が犬なのか、猫なのかと、結局は、機械学習の最もむずかしい課題にあたってしまいます。境界線の引き方によって、犬にも猫にもなりえるということです。こうなると、耳という一つの特徴量だけでは解決できないので、さらに、目、口、ヒゲ、毛並み……と、別の部分に着目して特徴量を次から次と抽出していかなければいけません。こうやって特徴量の要素を増やせば解決するかというと、結局そうとも限りません。「目の特徴は明らかに猫」と判断されたけれど、「口の特徴はどう見ても犬」 と判断された場合、果たしてどっちなのかという問題は解決されません。これは、データを大量に集めて統計的に判断しないと解決のむずかしい問題なのです。

Be the first to comment

Leave a Reply

Your email address will not be published.


*