音声コマンドデバイス(VCD)の実用性と課題

  • このエントリーをはてなブックマークに追加

音声認識の技術は、さまざまな分野で用いられ実用化が進んでいます。音声をテキスト化する文字起こしにおいても、音声認識の技術が応用されるようになってきましたが、ここでは人間の声による指示で操作を行う音声コマンドデバイスについて考えてみたいと思います。

音声認識技術の実用化が進んでいる

スマートフォンやスマートスピーカーの普及で、一般人にもお馴染みになった感もある音声認識技術。でも、知っているようで、よくわからないという方が多いのではないでしょうか。

音声コマンドデバイス(VCD)とは

人間の声で操作するデバイス

音声コマンドデバイス(Voice command device、略称はVCD)とは、人間の声によって指示を出して操作するデバイスのことです。

ボタン、スイッチ、ダイヤルなどに手を触れなくてもよいので、他の作業をしながら、また目の不自由な方でも簡単に操作することができます。例えばカーナビゲーション、情報家電、スマートフォンなどで実用化されています。

核になるのは音声認識の技術

これらの機器を制御するうえで重要になるのが、音声認識の技術になります。音声をテキスト化する文字起こし(テープ起こし)の分野でも、音声認識という言葉はよく耳にするようになりました。

とくに近年は、GoogleやAppleをはじめ、時代を先取りする先進企業が音声認識の研究・開発を積極的に進めていることもあり、話題性のある音声コマンドデバイス(VCD)が次々と登場し市場を賑わせています。

スマートフォンではお馴染みの機能

音声コマンド機能を搭載したデバイスは、今や珍しいものではなくなりました。なかでも、多くの人にとって現在もっとも身近なものの一つは、やはりスマートフォンと言ってよいでしょう。

スマートフォンでの音声検索のほか、メールの送信、WEBサイトへのアクセス、音楽再生、道案内、地図の表示、メモ書きなど、人の声による指示でさまざまな機能が働きます。「音声コマンド機能なんて知らないよ」という方も、ご自身が使っていないだけで、多くのスマホには機能が搭載されていると思います。

音声認識について

音声認識の精度向上がカギ

音声コマンドデバイスは家庭や職場をはじめ、さまざまな施設、乗り物の中、屋外など、あらゆる場で応用できると言っても過言ではありません。

その際、ポイントの1つになるのは、どのような場所・状況であっても人間の声を正確に捉えることができるよう、音声認識の精度を向上することです。実験室と現実社会では条件が異なりますからね。

厳しい条件下でも音声認識できるか

スマートフォンのCMで、音声検索をする話者が、スマホのマイクに口を近づけて、話しかけているシーンを見たことがないでしょうか。

やはり確実に音声認識してもらうには、あのようにして、マイクの近くで明瞭な発音で音声入力するのがベストです。

しかし、スマホならまだしも、他の機器ですとマイクに口を近づけて話すのが難しいことも当然あります。

さらに、使用する人の年齢、健康状態、話し方の癖、訛り、それから使用状況や使用時の騒音などさまざま環境もあります。音声コマンドデバイスがますます普及発展するには、現実に対応できる音声認識技術が必要ということです。

文字起こしも音声認識で自動化できるか

私どもは文字起こし業者になりますが、この音声認識技術は文字起こしへの利用という点でも関心が高まっています。

現在、文字起こし(テープ起こし)においても、音声認識技術を使って音声からのテキスト化を自動で行おうという研究が進んでいます。

すでに、多くのソフトやアプリも登場しており、使用されたことのある方もおられるでしょう。そのテキスト化の精度も日進月歩でかなり高くなっています。

ただ、どんな音声でも正確にテキスト化できるかというと、実用面ではまだまだ課題が多いのも現実です。大きな流れとしては文字起こしの自動化が進むのは間違いないと思いますが、完全にできるようになるにはもう少し時間がかかりそうです。

■関連記事

専門業者はなぜ自動文字起こしソフトを使わないのか

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。