Googleが「Teachable Machine」というサイトを公開しているのだが、これが秀逸だ。3つの違った状態を表す画像を、PCカメラから入力することができるようになっている。アウトプットは3つの違った画像を表示するだけとか音声を流すとかだけなのだが、入力が自分のPCのカメラ(TV電話で使うあれだ)なので、手近なものを映して学習させることができる。例えば、怒った顔はウサギ、普通の顔はカメ、笑った顔は狸の画像を表示することができる。
単に「画像による学習」と言われると何に使っていいものかと悩むが、この、言わば「自撮りカメラ」と機械へのインプットを結びつける技術は、簡単な応用がある。ジェスチャー入力だ。
もちろん遊びでも使えるが、実用も侮れない。整理するとこのようになる。
- 手近にキーボードがなく、(遠くの)カメラから映されている状態で、そのカメラ経由で情報を伝える。
- イベントの雑踏の中で、怪我人が出たことを通報する。
- お化け屋敷でお化け役が次のアクションのタイミングを図る。
- 飛行機の誘導員のボディサインを飛行機自身が認識する。
- 信号が故障したときの誘導員や警官のジェスチャーを自動車が認識して信号と同等に扱えば、自動運転車でも速やかに動ける。
- 目の前に顧客が居て、キーボードをカチャカチャさせるのは失礼な状態で入力する。
- 保険や銀行窓口などでの相談で使用する。
- 病院での問診に使用する。
- キーボードの苦手な人がジェスチャーで入力する。
- 重役による稟議をうなづきと首振りで識別する。
- 高齢者、幼児、障害者などの意思確認に使う。どちらかといえばエビデンスで使うのかもしれない。
- 銀行強盗に「動くな」と脅されているときに「目で合図する」。
- 手話ができる人が手話で入力する。
0 件のコメント:
コメントを投稿