音声認識が上手くいかない?「HeySiri」はこう使え!

スマホの発展とともに進化してきた音声認識。文字を指で打たずに入力や、呼びかけるだけで検索をかけてくれる便利な機能ですが、世間の人々はまだまだその機能を100%使いこなせているとは言い難い状況です。
なんでも、とある調査によれば、半年以内に音声技術(音声認識、音声検索、音声対応アプリ)を使用しているのはスマートフォン利用者の40%だとか。特殊的な用途で使われており、まだまだ日常ではアシスタント機能として定着していないようですね。

日本で利用頻度を上げるにはいくつかのハードルがあるようです。公共の場で音声技術を使用することの躊躇や、音声技術が正確に理解してくれないストレスなどがあると言われています。確かに検索ワードで「音声認識」と入れただけでも「音声認識できない」や「音声認識 勝手に起動」など問題を抱えているようです。今回は「音声認識」が抱える問題と向き合いながら、便利な使い方を学んで上手に付き合っていく方法を伝授します。

歴史を知ってみよう!音声認識の始まりはあの人気キャラクター!?

そもそも「音声認識」とは、人間の発する声などをコンピューターに認識させ、話し言葉を文字列に変換したり、発声の特徴をとらえて人の識別を行う機能です。今や、医師向け電子カルテの入力システムや、学校向け語学学習アプリケーションでの発音評価システムなど、企業、団体で利用されています。また、聞きなじみのある「OK Google」「Hey Siri」など携帯端末への文章入力、音声検索や、同時通訳型機器の自動通訳、指示を聞き分けるペットロボットなど幅広く世間に浸透してきています。

この音声認識の歴史をたどってみると、60年ほど前から研究が開始されたようです。先ほども出てきた「OK Google」で有名なGoogleが音声検索に関わる特許を最初に出願したのは2001年だといいます。約20年前から技術開発に取り組んでいました。そしてその音声検索機能を世に発表したのは2008年のことでした。実は音声認識としていち早く登場したのがゲームです。1998年に任天堂から発売された「ピカチュウげんきでちゅう」は音声認識システムとヘッドセットを使ってピカチュウとコミュニケーションを取って遊べる事が特徴でした。

最近ではAIが人の声を認識する音声認識の技術発展が進んでいます。近年はこの音声認識を活かしたサービスが増加しており、仕事から日常まであらゆる面を活用することができます。代表的なものをあげるとスマートスピーカー で、声だけの操作で、音楽を再生したり、天気予報を聞き出すことができます。

実験!音声認識とうまく付き合うために。

音声認識は便利なものとして活用されており、これからの時代、より一層機能が進化したり、有効な使用が考えられます。ですが、やはりまだ日常には浸透していない面もあり、課題も残されていると思います。そこで音声認識とうまく付き合っていくため、様々なシチュエーションを交えて実験を行い、その活用方法を見出せればと思います。

【シチュエーションその①:方言がきつくても通じるのか?】

日本の携帯電話の契約数は約1億7000万台です。おそらく日本全国の方がスマートフォンをもっていることでしょう。そうなると音声認識で問題になりそうな点として、「方言」による認識は可能なのかということです。社内の地方出身者スタッフの言葉を借りて実験してみます。まずは大阪の大阪弁で「面白い動画をYouTubeで探して」を音声認識に言って頂きます。ちなみに標準語でお願いするとしっかりオススメを探してくれます。

「めっちゃおもろい動画をYouTubeで探して」

なぜか”めっちゃ”の部分を凄く強調しているような気がしましたが、大阪弁はしっかりと認識してくれるみたいです。しっかりと面白い動画を検索してくれました。続いては石川の金沢弁です。

「がんこおもしい動画をYouTubeで探して」

金沢弁もなんとか認識してくれたみたいです。「おもしい=面白い」と捉えてくれて面白い動画を検索してくれました。最後は愛媛の新居浜弁です。

「べらだらい動画をYouTubeで探して」

やはり「面白い=だらい」だと難しそうです。「ベラ手洗動画」全く違うワードとして認識してしまっています。ただ、検索された動画はなぜか面白い系の動画にはなっているようでした。

その他にもフランス語に聞こえると有名な西諸弁をPCからの音声で聞かせてみると、認識すらしてくれませんでした。やはりあまり耳にしにくい方言には対応できないのでしょうか。

【シチュエーションその②:音は同じで意味が違う言葉はどう認識させるのか?】

言葉は不思議で、音は一緒なのに意味が違う言葉が存在しますよね。例えば「橋」「箸」「端」、「雲」「蜘蛛」、「雨」「飴」、「柿」「牡蠣」「夏季」などはどのように発音すれば認識してくれるのでしょうか?まずは「はし」を試してみます。

「はし」だけだと「橋」と捉えるようです。一度、認識してしまうとイントネーションを変えても「はし」は「橋」となるようです。「箸」にしたい場合は「箸の持ち方」などその単語の意味に沿った文章にしてあげると認識してくれるようです。

その中で気になるのは「柿」と「牡蠣」ですね。どちらとも食べ物ですし、イントネーションを変えるだけでは認識してくれなさそうなのです。「かき」だけで音声入力すると「牡蠣」になりました。「かきをうっているやおや」で音声入力すれば成功するかと思いきや、まさかの回答も……。

「柿」にするには「かきくだもの」と音声入力すれば、スーパーマーケットや青果店を探してくれました。

【シチュエーションその③:手の文字打ちを無くして携帯は操作できるのか?】

最後の実験は、一切手の打ち文字を使わずにスマホを操作したいと思います。この仕事をしていると記事制作の締め切りに追われて連絡しなければいけない方への連絡が遅れてしまうことがあります。そんな時、音声認識に呼びかけるだけでメッセージを送ってもらえれば、少しでも記事制作が進みますよね。これも実験してみます。

「Hey Siri 藤田さんにLINE」

Hey Siri 藤田さんにLINE

「今日の17時に大阪駅に来てください。」

今日の17時に大阪駅に来てください。
今日の17時に大阪駅に来てください。

何とかPCを操作しながらでもメッセージを送ることに成功しました。この機能はなかなか便利かもしれません。もしかしたらと思い、電話も実験してみることにしました。

「Hey Siri LINEで藤田さんに電話。」

Hey Siri LINEで藤田さんに電話

やはり手で操作せずに電話をかけることができました。この機能を使えば、手が離せない時でも電話をかけることができるので、かなり便利だと思います。イヤホンをしているとそのままイヤホンで聞こえるので、スマホを手に取らなくても会話することができます。

音声認識の便利な使用方法

様々な実験を行いましたが、音声認識で便利だと思った使用方法をまとめましょう。やはり手でスマホの操作を省ける機能が便利だと思いました。一つ目はタイマーをセッティングしてもらう機能です。例えば料理中とかにタイマーをセットしたいのに、手が汚れていて操作できない時は「Hey Siri 5分後にタイマー」と言うだけでタイマーをセットしてくれます。

Hey Siri 5分後にタイマー

あとは計算機能です。飲み会などで割り勘するときに話しかけるだけで割り勘してくれます。これで飲み会の支払いでもたもたすることはありませんね。

21,500円を6人で割る

最後に場所検索です。「ここから大阪駅に行きたい」と音声入力すると、現在地から大阪駅までの道のりを検索してくれます。最近では「近くの○○」で検索すると現在地から近い行きたい場所を調べてくれます。これは「Near me検索」といって、近年増加している検索方法なのだとか。旅行など知らない土地に行った時に便利な機能ですね。

近くのカフェ

まとめ

今回、音声認識について実験を行いましたが、かなり便利に使える機能とやはりまだまだ改善が必要そうな部分もありました。便利な機能については明日からすぐに使えそうなものなので、仕事の作業効率化やプライベートでの充実も図れそうです。これを機に音声認識とうまく付き合ってみてはいかがでしょうか?


ご自宅のネットをさらに快適に!関西在住の方にはeo光があります!
オンラインゲーム・動画視聴・配信には驚くほど速いeo光ネットがおすすめ!

超高速インターネット 速さで選ぶならeo光

※上記掲載の情報は、取材当時のものです。掲載日以降に内容が変更される場合がございますので、あらかじめご了承ください。

関連記事