と、このようにあなたが完全に話し終える前に、友達が質問を被せたり、相づちを打つことで会話はスムーズに進行します。

ところが従来の音声AIは 「相手の話を聞き終えるまで沈黙する」 ため、どうしても違和感があったり、テンポ感の遅い会話になってしまうのです。

画像
Credit: canva

「J-Moshi」はどうやって自然な会話を実現したのか?

名古屋大学の研究チームは、この問題を解決するために 「Full-duplex(フルデュプレックス)音声対話技術」 に着目しました。

Full-duplexとは、相手の話を聞きながら同時に話すことができる技術で、人間の会話に近いリズムを実現します。

J-Moshiは、英語版の「Moshi」という既存のモデル(7Bパラメータ)をベースに開発され、大量の日本語音声データを学習することで、日本語特有の会話の流れや相づちを適切に処理できるようになりました。

さらにAIのリアルタイム処理能力を向上させ、発話がオーバーラップしても適切に対応できるように設計されています。

例えば、

従来のAIとの会話:

あなた:「昨日、新しいレストランに行ったんだけど…」

(数秒の沈黙)

AI:「どこのレストランですか?」

J-Moshiとの会話:

あなた:「昨日、新しいレストランに行ったんだけど…」

J-Moshi:「えっ、どこの?」(すかさず、相づちを入れる)

あなた:「あの近所のスーパーの隣にできたところで。すごく美味しくて…」

J-Moshi:「へぇ!どんな料理だった?」(自然なリアクション)

このようにJ-Moshiは 会話のテンポを崩さず、より人間らしい対話を実現します。

では、研究で行われた実際の会話を聴いてみましょう。

こちらのページでご視聴できます。

画像
Credit: canva

どうでしたか?あまりに滑らかで、どちらがAIでどちらが人間かもはや区別がつきませんね。

これまでの音声AIとの会話は「命令を伝えるツール」としての役割が強く、雑談にはあまり向いていませんでした。