AI技術の融合で自然な音声を再現

――実はデモ動画を拝見させていただいておりまして、本当に細かいニュアンスも表現できる優れたサービスでついにAIもここまで来たかと感動しました。こうした自然なイントネーションで翻訳する精度や品質管理について、どのような取り組みをなさったんでしょうか?

野呂:ありがとうございます。確かに、細かいニュアンスの表現には特に注力しています。簡単に説明すると、複数のAI技術を組み合わせ+人の力で解決しています。

まず、動画から音声を抽出する技術を使用しています。また、OCRなどの画像中のテキストを読み取る技術も活用しています。次に、抽出したテキストを翻訳し、さらにその翻訳されたテキストを音声に変換します。

そして、表情と音声を合成し同期させるAI(=話者の感情に合わせてトーンを変えるAI)も使用しています。例えば、気持ちがこもっている声であれば、翻訳後も同じ声色として再現するわけです。

これらの技術を組み合わせることで、言語が違ってもニュアンスがほぼ同じ翻訳を実現しています。ただし、全てをAIに任せるのではなく、最終的な品質確認は人間が行っています。いくらAIが優れているからと言っても、翻訳対象の言語によって同じ意味を表現する言語数が異なるため、どうしても翻訳後に早いテンポになってしまったりと、完全に自動化して翻訳することが難しいんですよね。