スタートレックシリーズを始め、コンピュータとの会話が音声で済んでしまうというSFでのシチュエーションは多い。Google HomeやAmazon Echoは、この先駆けになるのだろうか。
Amazon Echoのいわゆる「レシピ」に注目している。今のスマホには何百ものアプリがインストール可能だが、ここまで数が増えると立ち上げるだけで苦労する。これが音声ないしはチャット(意味はほとんど同じだ)で立ち上げられ、操作自体も音声ないしはチャットで完結できたら、相当に楽なはずだ。Amazon Echoでは、一部のアプリについてそれらを実現している。
そんな時代、音声インターフェースはもはやOSと言えるだろう。いくら自然言語だとは言っても一定のルールは必要なはずで、例えばAlexaとGoogleアシスタントが同じフレーズで別の動作をしては困る。
以前提案したような、エスペラント語による操作体系とはまた別に、未知の指示についてどう解釈するかといったAI的な視点でも規格が必要な点、従来のOSよりも少し考えるべき範囲が広がる。また、既存のアプリは音声出力のみを前提としてはいなかったから、ここも改善が必要である。
今、ここは各社が勝手に考えていて、統一されていない。初期の混乱としてはよくあることだが、そのうち、複数の音声アシスタントがひとつの家の中に入る日は必ず来る。その日に備えて、錯誤が生じないような音声操作体系は早めに作ってほしいものだと思う。
どんなことを決めなければいけないのか、少し考えてみたので参考にしてほしい。
- 最初に「誰に言っているのか」を推定し、その後の言葉の続きについて、何処までが最初に言った人に向かって話しているのかを特定すること。また、それが曖昧だった場合には確認をし、さらにそのときの特徴を基にその精度を向上すること。
- AlexaにHeyGoogleという名前を付けてはいけない。
- 特定できない場合にはお互いがバックグラウンドで相談して代表者が応答するものとし、いっせいに返事をしたりしない。これは曖昧なときも同じ。つまり、同じ音声空間に音声アシスタントが幾つあるのかを、音声アシスタント自身が認識して相互連携する。
- ある音声アシスタントにはできて、他の音声アシスタントにはできないことを要求されたとき、話者が同じでもそれを引き継ぐと共に、そのことを知らせる。
- 操作体系を統一する。
- 音声認識が間違っていた場合の訂正方法(キーワード)。
- 情報を補完したい場合(ピザを買って、と言われたときに何枚か、何時届けるか)のユーザへの聞き方やそのデフォルト値を共有する。一人しかいないことが分かっていれば一人前、など。
- 音声アシスタントを変えてほしいときの言い方。
- 同じことを別のアシスタントが双方操作可能な場合、その加減。例えば照明を暗くしろ、という風に曖昧に言われた場合の暗さ具合。
- 制御をアプリケーションに渡したことが分かるようにする。音声を変える、最初に名乗る、など。
- 音声アシスタントごとにつながっているアプリケーションが異なる場合、その制御引継ぎも行う。
- 学習結果を共有する。
- 話者によって生じるクセなど。
- チャイルドロック、ないしは一般ユーザー制限。
- 聞き取りにくい単語。
- まだ完全には音声出力に対応していないアプリケーションが出す出力(結果)を扱う際のルール、変換エンジンの仕様。
- 例えば記号や図形など、音声に変換しづらいデータをどのように表現するか。あるいはディスプレイを選んで表示する操作体系。
- アウトプットが物理的なものの場合(サイレンを鳴らす、ガレージを開ける、照明を点けるなど)は操作だけで済ますのか、その旨通知をするのかなど。
0 件のコメント:
コメントを投稿