●この記事のポイント ・名古屋大学が日本語対応の全二重音声対話システム「J-Moshi」を開発 ・AIの音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現 ・コールセンターや接客など、さまざまな領域での活用に期待
名古屋大学大学院情報学研究科の東中竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル「J-Moshi」を開発した。日本語による対話には「ええ」「なるほど」「はい」といった“相づち”が頻繁に入るため、英語と比較して自然な音声対話システムの実現は技術的に難しい。J-MoshiはAIの音声対話性能を飛躍的に高めることに成功し、人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な対話、まるで人間のような音声対話を実現。雑談や接客など、さまざまな場面での利用が期待されるという。J-Moshiが秘める可能性について、東中教授に取材した。
●目次
「誰がいつ喋るか」の課題を解決
対話システムの開発において、最も重要な課題となっていたのが「ターンテイキング」の問題だった。
「対話システムの開発には結構長い歴史があり、音声認識や音声合成の性能も向上してきましたが、人間のようなやり取りができないというのは大きな課題でした。一番の問題はターンテイキングであり、“誰がいつ喋るのか”という部分を、いかに人間らしくするのかという点でした。
従来の対話システムでは、音声認識をして、何を言うか考え、ターンを取るかどうかを判断してから音声合成を行うという段階的な処理を行っていました。しかし、この方法では、どうしてもトランシーバーのような対応になってしまうという限界がありました」
この問題を解決するため、J-Moshiでは世界的な潮流となっている新しいアプローチを採用した。
「最近では音声を直接モデル化するという方法が世界的な潮流になってきています。“音声認識して、考えて、喋る”というやり方ではなく、そこまでの音声から次にシステムが出すべき音声を直接生成するというアプローチです。
この手法により、従来のような段階的な処理ではなく、“音声から直接、次に喋るか黙るかも含めて判断することができる”ため、トランシーバーのようにならずに自然な対話が実現できるのです。結果として、ターンテイキングだけでなく音声の自然さも向上しました。会話の流れから何を、どういう声を出すかを予測しているので、声の出し方も非常に自然になり、人間らしいインタラクションになります」