2020年設立のMurf AIは、20以上の言語で120以上のAI音声を選択できる“テキスト読み上げAI音声ジェネレーター”を提供する米国拠点のスタートアップ。同社は今年7月、カスタマイズ可能な音声モデルである「Murf Speech Gen 2」(以下、Gen 2)のリリースを発表した。
独自の生成ニューラル・アーキテクチャで設計された同モデルは、人間の音声と“聞き分け”がつかないほどのリアルな声を生成する機能と高度なカスタマイズ機能を融合したもの。企業の多様なニーズを満たすという。
本物の人間のような“微妙なニュアンス”を再現
Murf AIは「完璧なAIナレーションとは、単にリアルに聞こえるだけでなく、クリエイターのビジョンに正確に一致することだ」と考えている。そこで、本物のようなナレーションの作成機能に加え、高度なカスタマイズ機能を備えたGen 2をリリースした。Gen 2は、多様な人口統計と感情スペクトルから収集された7万時間を超える音声データを使用してトレーニングされており、人間のような抑揚・リズムを実現している。
44.1kHzのサンプリング周波数(音声をデータ化する際、1秒間に何回サンプリングを行ったかを示す値)で動作し、人間の可聴範囲全体をより正確に捉えることが可能。この忠実な再現により、「s」と「f」の音が同時に発生するときの歯擦音といった微細な音が明瞭になり、音声自体が自然に聞こえる。
また、Murf AIは複数言語における各アクセントの微妙なニュアンスを再現できるようにGen 2を設計している。言語学者による1万以上の文章を対象とした厳密なテストでは、英語音声カタログの単語レベルの発音精度が98.8%以上というスコアをたたき出した。