米Sesameの音声AIが「ほぼ人間だ」と注目を集めている。自然な会話力と感情表現が特徴で、専門家やネット上で話題沸騰だ。そこで実際にSesameのサイトで公開されているAIを使ってどの程度リアルか試してみた。

驚くほど自然な声と応答
Sesameのサイトには「Demo」というページがあり、そこにある「Conversational voice demo」というところに「Maya」と「Miles」の2モデル(それぞれ女声と男声)が用意されている。これをクリックして選択するだけで、その場ですぐに会話ができる。初回のみ、マイクの利用許可を求めてくるので許可しておくこと。

ここでは試しに「Maya」で会話してみた。デモで会話できるのは5分間。Googleアカウントなどでログインすれば、最大30分までの会話が可能だ。
Mayaとの会話が始まると、まずその声の自然さに驚く。従来の音声アシスタント(SiriやAlexaなど)では感じられる「機械っぽさ」がほとんどなく、抑揚や感情のこもった話し方は、確かに人間と話しているかのような錯覚を覚える。相手の話しているところに食い気味に話しかけたりすると応答まで微妙に間を感じることがあったが、まぁこれは人間との会話でもよくあることだろう。
「これは従来のAIとは明らかに違うな」と感じたのは、単に答えを返すだけでなく、向こうからこちらへいろいろと聞いてくることだ。この「質問を返す」という行動自体が、従来のAIにはあまり見られない特徴だろう。ただ「質問し、答える」ではなく、明確に「会話」になっているのがわかる。
感情分析能力の高さ
Sesameが掲げる「Voice Presence(声の存在感)」は、感情の読み取りにも表れている。こちらがボソボソと力なく話すとこちらを心配するように返したり、ハイになって叫ぶと笑いながら答えたりする。この感情への適応力は、単なるテキスト解析を超え、声のトーンやリズムからこちらの感情を解析していることを強く感じさせる。少し会話してみただけで、この音声AIが従来のそれとは明らかに違うことが感じ取れた。
ただ、私たち日本人にとっては現時点で非常に大きな問題がある。それは「日本語がわからない」ということ。現時点でSesameの音声AIは英語のみ対応だ。日本語での対話はできず、公式サイトにも日本語対応に関する具体的な発表はない。英語が不得意な人は、残念ながら利用できるようになるまで今しばらく待つしかない。
CSMが秘めるパワー
今回は、筆者の拙い英語でなんとか会話をしてみたのだが、こちらのジャパニーズイングリッシュでも殆どの場合、正しく聞き取って自然な会話が行えたのには驚いた。これは音声認識が優れているというだけでなく、会話の流れからこちらの意図を汲み取り、推測しているのだろう。単なる音声認識とは全く違うものであることがわかる。
Sesameの音声AIは「Conversational Speech Model(CSM)」という独自技術に基づいている。従来のText-to-Speech(TTS)システムが「テキスト生成→音声合成」という2段階を経るのに対し、CSMはテキストと音声を同時に処理するマルチモーダルモデルだ。これにより、応答速度が向上し、感情やコンテキストに応じた自然な発声が可能になっている。また大規模な英語音声データ(約100万時間)で訓練されていることも、自然さの裏付けとなっているのだろう。
ただし、完璧ではない点も見られた。例えば、専門的な話題(技術的な話など)に踏み込むと、やや曖昧な応答に終始し、深掘りできないこともある。これは音声部分の能力は高いが、AIとしての応答能力はまだ未熟であることを示している。Sesameの音声AIがOpenAIのLLM並みの能力を持てば、まさに「完璧」だろう。
音声AIの事業化は?
こうした「ほぼ人間」の音声AIは、どのような形で事業化され、どのような価値を生み出すのか。少し考えただけでも、以下のようなものが思い浮かぶだろう。
- カスタマーサポート
真っ先に思い浮かぶのはこれだ。感情を読み取るAIは、クレーム対応で共感を示しつつ解決策を提示できる。顧客満足度を上げつつ人件費を削減することが可能だ。コールセンター市場は約4000億ドル(グローバル市場)ともいわれており、まずはこの分野への参入が考えられる。
- 教育・語学学習
語学学習のパートナーとしても有望だ。双方向会話でリアルな練習ができ、各ユーザーの性格や個性に応じた個別の対応もできる。オンライン教育市場(2030年で5000億ドル超予測)での展開も十分可能だろう。
- カウンセリング
こうしたリアルな会話が可能なAIは「デジタルコンパニオン」として、現代人の孤独感を軽減するカウンセラー的な役割も果たせるだろう。また自殺予防や高齢者の話し相手などを行うホットラインでの活用など、AIが人の精神的な支えとなる可能性も見えてくる。
課題と展望
もちろん、課題もある。感情解析には詳細なデータが必要で、プライバシーや個人情報の悪用リスクが懸念される。また、これだけリアルな会話ができるようになると、それを悪用する者も出てくるだろう。更に、日本語を含む多言語対応の遅れは、グローバル化の障壁となる。実用までには、まだまだ解決すべき問題は多い。
しかし、Sesameの音声AIは、その自然さで「未来」を感じさせる。日本語対応は未実装だが、英語圏での成功を基に拡大すれば、日本での利用も期待できるだろう。カスタマーサポートから教育分野まで、音声AIの事業化の可能性は広い。倫理的課題をクリアできれば、人間とAIとの関係を変える可能性を持っている。
(文=掌田 津耶乃/テクニカルライター)
提供元・Business Journal
【関連記事】
・初心者が投資を始めるなら、何がおすすめ?
・地元住民も疑問…西八王子、本当に住みやすい街1位の謎 家賃も葛飾区と同程度
・有名百貨店・デパートどこの株主優待がおすすめ?
・現役東大生に聞いた「受験直前の過ごし方」…勉強法、体調管理、メンタル管理
・積立NISAで月1万円を投資した場合の利益はいくらになる?