先日の「
サイエンスZERO」で、
錯視の解明にAIを使う、という話があった。
ディープラーニングの学習において、画像の入力と出力が同じになるように学習をさせると、特定の層において錯視が再現できた、というものだ。つまり、錯視画像を見せると錯視が起きる層が形成されていた。また、動画において、少し先の画像を合わせるような学習をさせると、動いて見える錯視が再現できた。
これは興味を引かれた。番組では言及されていなかったのが、この実験で何層使っていたのか、だ。その層数をどうするかで、錯視ができたりできなかったりする可能性が出てきた。また、複数の層から分岐を出して、錯視を取り出すようなこともできるのではないか。一つの画像からさまざまな情報を一気に引き出すDNN、というのは考えられないだろうか。つまり、錯視以外にも色々な情報を持つ層が作れるのではないだろうか。
例えば特定の特徴を持つものの抽出だ。出来上がった後の画像を解析するのではなく、DNNの特定の層をチェックしていればリアルタイムで抽出できる、といったようなものだ。それは画像とは限らず動きかもしれないし、動きや変化の予想かも知れないし、視線が違っても追いかけられるかもしれない。画像解析でもできるだろうが、それよりずっと単純で簡単な可能性がある。
例えばスリの動き予想や逃走犯の逃走経路予想のような予想、マイクロジェスチャーのような感情解析、画像の解像度以下のものの動き、超解像、映っていないものの推測(大衆の動きから)、といった推測は、面白い結果が色々と出てくる可能性がある。
こういったものが複数いっぺんに取り出せるとなると、将来の監視カメラがどう発展するかは興味深い。
0 件のコメント:
コメントを投稿