音声入力に未来を見る〜ビーイング・デジタルからVoiceTra へ - サイエンスメディアな日々　　　インフォグラフィクスな日々

1995年に出版された「ビーイング・デジタル」は、15年以上経った今でも未来の道先案内人として時々読み返したい本の一つだ。バーチャルリアリティ、画像認識、インターフェース、ネットワークから、情報化社会の本質論まで、初代MITメディアラボ所長、ニコラス・ネグロポンテの縦横無尽な語りは、端的で示唆に富んでいる。その第11章「話し合いは可能か？」は、音声インターフェースについての省察だ。この中でネグロポンテは、「未来のインターフェースは音声になる」と予言している。
音声インターフェース技術自体は新しいものではないし、今まで多くの研究や実験が行われてきた。しかし、現在、音声インターフェースが活躍しているとは言い難い。アンチ音声インターフェース派の代表的な反対論は「公共の場所では声を出しにくい」と言うものだ。一瞬同意したくなるが、よく考えて欲しい。公共の場所であっても（よほど静粛にしなければいけない場所を除いて）、人間同士のコミュニケーションなら、まず声＝音声を使うはずだ。筆談もEメールも、まどろっこしくて使い物にならない。

もうひとつの理由として、技術的な問題＝音声理解の精度が低いこと、をあげる人もいる。「音声認識って、信頼性がねえ…。」と言うわけだ。実は、現在の音声認識技術は一般人が思うよりはるかに成熟している。そもそもアンチ音声派は、実際に音声インターフェースを使ったことが無い人が多く、その性能を過小評価していると思う。

結論。現在、音声インターフェースが使われていないのは、ただ単に音声インターフェースに慣れていないからだ。アンチ音声インターフェース論者の主張は、人間と機械はコミュニケーションの方法が違って当たり前、と言う先入観からくるものでしかない。この「バカの壁」さえ乗り越えれば、近い将来、音声インターフェースが主役になると予測する。僕が、と言いたいところだが、ネグロポンテ先生の受け売りだ。（そう言えば説得力があるだろう。）

それでも音声インターフェースには味方できない、と言う人は、例えば、iPhone4Sに"siri"が搭載された意味を考えると良い。iPhoneのタッチインターフェースは素晴らしいが、Eメールやウェブ検索のテキストをもっと早く入力するには音声しかない、と言う明確なメッセージではないか。僕の、と言いたいところだが、スティーブ・ジョブズのご神託だ。（そう言えばさらに説得力があるだろう！）

残念ながら"siri"は日本語未対応なので、もし音声インターフェースを体験したいなら、例えば、iPhoneアプリの「音声認識メール」を使ってみて欲しい。あるいは、音声対話処理・音声翻訳をアプリ化した、情報通信研究機構の"AssisTra"や"VoiceTra"も、まだ完全とは言えないが、未来の姿を感じさせてくれる技術だ。（ちなみに、NICTの音声コミュニケーション技術については以前、サイエンスニュースで取材した。その映像「スマートフォンで観光案内　進化する音声コミュニケーション技術」も見ていただきたい。）

音声インターフェースが正当に評価される世の中は、意外に早くやってくるのではないだろうか。