データ準備が最大のハードル

 開発において課題となったのは、データの準備だったという。

「全体的に7万時間分ほどの音声データを使っていますが、綺麗なデータは非常に少ないのです。2チャンネルの音声で、例えば左側のチャンネルに話者A、右側に話者Bが入っているような音声データというのは、それほど多くありません。J-Moshiでは、数百時間の独自収集データに加え、東京大学が公開している大規模データを活用しました。そのデータを扱えるようにするための前処理にも労力を要しました。音声認識や音と単語の対応付けなど、何万時間の音声データに対する地道な作業が必要でした。名古屋大学は大規模計算機クラスターを持っており、百台を超えるGPUマシンを使った学習環境が整っていたことも成功の要因となりました」

 主にどのような領域での実用化が想定されるのか。

「基本的には対話システムが入っているところであれば、全てに活用できると思います。今の対話システムは、いつ話していいか分かりにくいので話しにくいという問題を抱えています。少し話したら急に動き出してしまったり、急に話が止まってしまったりというケースがよくあります。

 例えばコールセンターでの顧客対応では、お客さんのクレーム対応であるとか、一般的な問い合わせ対応では、人間のような速いやり取りが重要になってくるため、従来のトランシーバー型では効率が悪く、顧客満足度の面でも課題がありました。

 接客やカウンセリングなどの分野でも活用が期待され、AIで置き換えたいというニーズがあります。本技術は、人間の技量のほうが圧倒的に高いという現状を変える技術として注目されています」

GPTの進化のように段階的に改良

 現在のJ-Moshiはプロトタイプ版で、研究用データを使用しているため商用利用にはハードルがある。そこで、商用化に向けた取り組みが進んでいる。

「国立情報学研究所に日本語の大規模言語モデルをつくる国のプロジェクト、LLM-jpがあり、そのなかで商用利用が可能な音声モデルを作っていくプロジェクトを立ち上げました。今年度中にはJ-Moshiと同等レベルのものを商用で利用できるようなかたちに持ってきたいと考えています。

 1年目で商用利用可能なバージョンを開発し、2~3年目には制御性を高めて特定のタスクや業務に対応できるよう性能向上を図っていく予定です。現在のシステムは数分ぐらいしか持たないため、特定の業務にカスタマイズすることも難しいですが、初期の大規模言語モデルに近い段階から、GPTの進化のように段階的に改良していく方針です」

(文=BUSINESS JOURNAL編集部、協力=東中竜一郎/名古屋大学大学院教授)