「『ほんやくコンニャク』があったらいいのに……」そう思ったことはないだろうか。「ほんやくコンニャク」とは、マンガ「ドラえもん」に登場するひみつ道具で、食べるだけで他国の言語を理解し、話せるようになるものだ。民間企業によってAIによる自動翻訳システムが開発され、「ほんやくコンニャク」はすでに実現されたと言われることもあるが、まだまだその翻訳精度に物足りなさを感じる方も多いだろう。
高精度な自動翻訳エンジンの開発を目指す「翻訳バンク」は、公的機関が全国からデータを集める。特定の業界や企業としてではなく広くデータを収集できるため、多様な言語、多様な専門用語にも対応。128の国と地域で利用できる音声翻訳機「POCKETALK(ポケトーク)」にも、翻訳バンクの技術が活用されている。
翻訳バンクが2017年9月の立ち上げ以来収集したデータを活用して自動翻訳システムを作ってきた国立研究開発法人情報通信研究機構(NICT)の隅田英一郎氏に、翻訳バンクに基づくシステムが高精度な理由や、日本独自のデータ収集方法について聞いた。NICTの自動翻訳システムは生活のいろいろな場面で使われている。
日本IBM、国際電気通信基礎技術研究所を経て国立研究開発法人情報通信研究機構。現在、同機構 先進的音声翻訳研究開発推進センター(ASTREC)副研究開発推進センター長。また、2016年から同機構フェロー。2018年から一般社団法人アジア太平洋機械翻訳協会会長を兼務。一貫して機械翻訳の研究に従事。音声翻訳アプリVoiceTraと翻訳サイトTexTraを公開し、多数の企業に技術移転。2025年に向けて音声翻訳の国プロを推進中。また、2017年から総務省と連携し自動翻訳の高精度化のための「翻訳バンク」を運営。
ITでも金融でも製薬でも、即時性のある高精度自動翻訳システムの活用が進む
翻訳バンクを運営するNICTでは、高精度な自動翻訳システムを日本中に広げることをミッションとし、長年自動翻訳の研究を続けてきた。2017年9月に総務省とNICTで立ち上げた翻訳バンクを活用した自動翻訳システムは、製薬業界や自動車業界などの伝統産業だけでなく、あらゆる業界で活用が進む。
例えば、IT業界においては、オープンソースソフトウェアの翻訳に役立てられている。最新のオープンソースコードをいち早く高精度に翻訳することで、プログラムの理解や利用可否の意思決定などを早めることができる。スピード感がビジネスの発展を左右するIT業界において、「即時」に「高精度」で翻訳できる状態を保つことは非常に重要だ。
また、SMBC日興証券では、業界や個別の会社、経済動向などの分析である「アナリストレポート」にNICTの自動翻訳システムを活用している。海外投資家が日本市場に進出している現在、翻訳技術は不可欠といえるだろう。
プログラミングや金融業界には、それぞれ特有の表現がある。だが、専門性の高い文書を汎用的な自動翻訳サービスに入力してみると、まったく意味が通らない文章になってしまうことも多い。経験がある方もいるのではないだろうか。この問題を解決するのが翻訳バンクのデータ収集だ。
例えば製薬業界では、“Study”という単語を『治験』、“Culture”という単語を『培養』と訳すことが多い。汎用システムだと、それぞれ一般的な使用頻度が高い「勉強」や「文化」といった翻訳ができてしまい、1つひとつ直す作業が発生する。
この手間を省くためには、業界用語がふんだんに盛り込まれた文書を数多く集め、AIに学習させる必要がある。この積み重ねによって、精度を上げていくのだ。「翻訳バンク」では、中央官庁、地方自治体、企業、各種団体など日本の多くの組織からデータを集め、自動翻訳の高精度化に活用している。
GAFAとは一線を画するデータ収集の姿勢
特徴的なのは、「競争」ではなく、「協調」をベースとした取り組みであることだ。隅田氏は言う。パブリックにデータを集めるため、企業間の利害関係や競争意識が起こりにくく、大量のデータを収集しシステムを高精度化しやすい側面がある。
「『翻訳バンク』の枠組みで、つまり、世界中のデータを1つの公的機関に集約することで、1つの翻訳会社や民間団体ではできない精度を実現することができます」(隅田氏)
これは、「競争」をベースとするGAFAなどの動きとは一線を画すものだ。
ただ、企業が手間と時間をかけて集めたデータを、無料で「寄付」してもらうためには、それ相応の“対価”が求められる場合もある。翻訳バンクは、データを提供した企業に対し、そのデータ量に応じて自動翻訳システムのライセンス料を減額する仕組みも持っている。
データ提供をしたある製薬会社では、100万文を超える対訳データを読み込ませることで高精度な自動翻訳システムを開発。文書作成を効率化して、作成期間が4週間から2週間に削減された。人件費等のコスト削減だけでなく、開発や市場に出せるまでのスピードも上がるというメリットがあるのだ。
翻訳バンクのデータ収集において今後に期待される分野は「契約書」だという。隅田氏は企業に向け、このように呼びかける。
「契約書は機密文書なので、データ提供しにくいのが現状です。ただ、契約書に使われる用語はある程度決まっていますから、高精度な自動翻訳システムができれば、大幅に手間を減らすことができるはずです。特に欧米企業の契約書はかなり分厚いですから、それを適切に、スピーディーに把握できることはビジネスにおいて非常に重要ではないでしょうか」(隅田氏)
今後は「文化」と「協調の仕組み」を海外へ
翻訳バンクの今後は「文化」と「海外」という2つの方向で進んでいくという。
ここまで紹介した事例は主にビジネス分野での活用だったが、今後は「文化」の普及においても自動翻訳が求められてくるだろう。日本のカルチャーを海外に届けていくことは、グローバル社会において今後日本のプレゼンスを高めるための重要施策になりうる。逆に、海外文化を日本に紹介していく上でも、自動翻訳技術が大いに役立つと考えているのだ。
2021年11月に「日越茶道・文化交流協会」が設立された。ベトナムとパートナーシップを結び、茶道の文化を世界に広げていく団体だ。会長を務めるのは茶道裏千家15代家元・千玄室氏だ。言葉の壁を克服して文化を普及する、その先陣を切る取り組みだ。
また、翻訳バンクでは「データ収集の仕組み」の海外展開も見据えている。公的機関が民間からデータの寄付を集め、みんなで自動翻訳の精度を高めていく。この「協調」の思想と仕組みを海外にも浸透させようとしている。
「国にとっても企業にとっても市民にとっても、コスト、セキュリティの両面でお得です。会社の大切なデータを一部の強い企業に独占されてしまうことはないので、近江商人が唱えた『三方良し』を実現できる取り組みだと思います」(隅田氏)
相互翻訳がよりスムーズにできるようになれば、より言葉の壁は解消され「ほんやくコンニャク」の世界がよりリアルになっていくだろう。
※NICTでは、毎年3月に「自動翻訳シンポジウム」を実施(参加費無料)。隅田氏が会長を務める「アジア太平洋機械翻訳協会」では12月8・9日に年次大会が行われた。今後もこうしたイベントを通して、最新の機械翻訳に関する情報を発信予定だ。
文・MONEY TIMES編集部
【関連記事】
・仕事のストレス解消方法ランキング1位は?2位は美食、3位は旅行……
・日本の証券会社ランキングTOP10 規模がわかる売上高1位は?
・人気ゴールドカードのおすすめ比較ランキングTOP10!
・つみたてNISA(積立NISA)の口座ランキングTOP10
・【初心者向け】ネット証券おすすめランキング