GoogleHome:音声生成アプリ「コエステーション」でGoogle Homeの音声認識を突破できるか!?

おはようございます!!

今日は昨日とうってかわって(汗)固い話です。(コホン)

以前、Google Home音声認識について記事にさせていただきました。

GoogleHomeは登録したユーザーだけでなく誰の声でも反応して動いてくれますが、スケジュール表にある予定などもそうなのでしょうか?ちょっと心配になったので、いろいろ実験してみました。
Google Home miniを奥さんにプレゼントする為に、音声認識の再登録をしようとしたのですが残念ながらうまくいきませんでした。なんとか解決方法が見つかったのですが・・・
GoogleHomeでアラームを鳴らす時に思わず「鳴らして!」と言ってしまうとリマインダーが登録されるのですが、これが大きな落とし穴だって知ってました??

私は毎朝Google Home「おはよう!」と言ってから珈琲を煎れ始めるのですが、その時に「xxxさん、おはようございます!」私の名前を呼んでくれる確率が8割ぐらいです。
逆に言えば、2割の確率で奥さんの名前で呼ばれてしまいます

サポートセンターにも相談し、2人の声で何度もVoiceMatchを行ったのですが、これが限界のようです。

ネットで「Google Homeは他の機種に比べて音声認識が優れているので、セキュリティ的に安心である。」なんて記事を読むと、悔しくて涙が出てきます。

この画像の使用頻度が高いのはなぜだろう?

使えるのは使えるのですが、時々間違うというのでは・・・

・・・で、突然話は変わりますが、東芝さんから「コエステーション」というアプリがリリースされたと知りました。
簡単に言えば、あらかじめ自分の音声を登録しておけば、後はテキストを入力して発声ボタンを押しだけで自分の声で読み上げてくれるというものです。

あれ?もしかしたら、これを使えば簡単に声認識を突破できる?

Google Home音声認識の悪さを暴きたかった音声認識の性能をチェックしたかったのもあって、早速試してみることにしました!!

コエステーションとは?

公式ページはこちらです。

コエステーションは、スマートフォンアプリを使って指定の文章をいくつか読み上げることで、
自分の声の分身である「コエ」を生成し、
テキストを入力するだけでその「コエ」でしゃべらせることができるサービスです。
音声合成技術を使ったコエステーションであなたの「コエ」を作って、もっと簡単に、もっと身近に、
あなたの「コエ」をさまざまなシーンで活用してみましょう!

数年前にどこかの学会で聞いたような記憶があるのですが、いよいよユーザーレベルまで降りてきたようですね。
いろいろな機能があるようですが、大きくは2つです。

最初は10種類の言葉を登録するだけで使い始めることができるのですが、その後、50、100・・・という風に育てていくことができるようです。

こちらはテキストで文章を入力しスピーカーボタンを押す事で、登録した声で発声するというものです。

これまであらかじめ決められた音声で発声するものは沢山ありましたが、登録した声で発声してくれるものは初めてみました。
(※ 余談ですが、マツコロイドの声は合成音声でなく、ものまねのホリさんの声のようです)

コエステーションを試してみました!!

リリースされたのは4月17日ですから、一昨日ですね。

インストール

めずらしくiOS版(iPhone,iPad)しかないようです。(こちら

ダウンロードが終わったらすぐに立ち上げてみました。

この後の音声登録時にサーバー側で処理(「コエをつくる」という処理)がありますので、それが終わったときに通知してもらうように許可にしておきます。

それが終わったらユーザー登録ですね。



すぐに認証コードがメールで届きましたので、これを入力して進めます。

ここからはお約束のチュートリアルですね。

はい、これでインストールは終わりです。
そのまま続けて自分の声の登録へ進みます。

自分の声の登録

登録しないと使えないので、上の画面からそのまま遷移しました。

この次は発声練習になります。
できるだけ静かなところに移動し、枠内できるだけ大きく波形が表示されるように練習しました。


次からが本番です。

10個の文章が出てくるので順番に声で読み上げて先に進みます。
中央録音開始と録音終了です(上の画面では終了ボタンに変わっています)ので、まずここをタップして録音します。
終了ボタンを押すと、録音された声の再生が始まりますので問題ないか再確認します。
もし問題があったら左のやり直しボタンをタップして、再度録音します。
再生された声が問題なくなったら右の>をタップします。
・・・って、触ればわかります。よくできてますので!!

それぞれの録音が終わる度に、音声がアップロードされます。

これが10回終わったらこの画面が出てくるのですが・・・


10分でとりあえず試したい場合でも、OKを押してからこの吹き出しを消してから、右上にある「コエを作るボタン」をタップします。(申し訳ありません。撮影し忘れました)

「コエ」をサーバーで作るのに、1時間~数日ということでビビってしまいましたが、まだリリースされて間もないせいか、10分ほどで通知(及びメール)が届きました。

アプリに戻ると・・・

嬉しいですね!!これで使えるようになりました。

Google Homeに発声してみました!

本来の目的(?)はこれを使ってGoogle Homeを動かすことなので、早速やってみました。
アプリのメイン画面から左下の「読み上げ」ボタンですね。

そして発声させる文章を入力し、スピーカーボタンを押します。
まずは、「オッケーGoogle」ですね。

はい、バッチリGoogle Home反応してくれました!!

次は、「オッケーGoogle」「私の名前は?ですね。
もちろん自分で話せば(基本的に)「あなたはミッキーさんです!」と返ってきます。(※ 実はこの実験から、まだニックネームを変えていません)

これで私の名前を読み上げれば、完全に乗っ取ることが可能ということです(汗)

そんなにうれしい?

・・・はい、結果はダメでした。

ちなみに、マイアクティビティーでの表示は・・・

なぜか3回分が出てますが、こんな感じです。
意外と優秀(こらこら)Google Homeの音声認識は、私本人でないと答えてくれないようです。

諦められないのでチャレンジが続きます!!

この記事を書くに当たっての思惑は・・・

「ほ~ら、やっぱり合成音声で認識してしまいました!
 やっぱりGoogle Homeってお馬鹿さんですね!! 」

・・・で終わる予定だったのですが、これでは格好がつきません!!
(※ ちなみに、よく奥さんから「あんた、性格悪いで!!」って言われます。)

引き続きやってみました。

音声の微調整

発声するテキストの入力画面で、よくよく見ると下に4つのアイコンが並んでました。
左端がテキスト入力で、残り3つが微調整でした。

いや~あ、楽しいです!時が過ぎるのを忘れます・・・いやいや必死です。

理論的には速くしたり音を高くした方がデータの密度が高くなる(はず?)なので、いろいろ変えてみましたがダメでした。

合わせ技も、もしかしたら効果があるかと思って、いろいろ試しましたが・・・
一通り試した後で、中央下のリセットでリセットすると、それが一番似ているという・・・

コエを育てなおす

最初は10個の文章だけでしたから、育ってないのも仕方ありません。
結構体力を使うのですが・・・試してみました。

ここから先は、初期設定の時にやった内容と同じです。
ただし、次のコエレベル2になるには50個やらなくてはなりませんでした。

ちなみに、この時もサーバーの処理時間は10数分でした。まだ空いてますね。
・・・で、結果はダメでした。歯が立ちません。

これが真冬だったらやめてたのですが、この時期に喉を痛めるとは思えませんので、次のステップまで頑張りました。

コエレベル2です。ここは20分ほどかかりました。
そろそろドラクエのレベルアップのファンファーレを鳴らしてほしいぐらいです(泣)

・・・で、結果はダメでした。歯が立ちません。

来年こそは・・・

まとめ

必死になって頑張ったものの、コエステーションによる合成音声ではGoogle Homeの音声認識は突破できませんでした。

動画を撮りましたので掲載させていただきます。

★「オッケーGoogle」「明日の天気は?」


個人認証がありませんので、普通に認識して翌日の天気を答えてくれました。

★「オッケーGoogle」「私の名前は?」


こちらはVoiceMatchした私の声との認証がありますので、「どのユーザーの声か特定できませんでした。」エラーを返してきます。

ちなみに、今回のアプリの事を教えていただいたimajoさんは同じレベル3「私の名前は?」にも成功しているとのことでした。
もしかしたら、声によっては可能なのでしょうか??

こちらはimajoさんの声のツイートです。

私の声に比べると若いですね(汗)
若い方が波形がきれいでなので再現しやすいとか??

あと、私の合成音声うちの奥さんに評価してもらった結果です。

  • イントネーションがおかしい(関西&九州訛りが入っていたから?)
  • 声が星野源に似てしまっている(余計なお世話!!)
  • 雑音が多い(iPhone7の内蔵マイクで録音してました)
  • 生声と全然違う(・・・)

自分では結構似ていると思ったのですが、そうでもないようですね。
どんなアルゴリズムで情報を収集して再生成しているかはわかりませんが、どんなに頑張って標準語で話しても、根底にある方言が影響してしまうのかもしれません。

折角ですので、また試してみたいと思います!!

・・・って、本来の目的はなんだったんでしょうね?

(おわり)

↓ この記事よかったよ!!という方はクリックお願いいたします。
ブログランキング・にほんブログ村へ
にほんブログ村

シェアする

  • このエントリーをはてなブックマークに追加

フォローする