研究チームは、この単語ベクトルがどれだけ広い範囲に分布しているかを見ることで、その単語がどのくらい多様な意味を持っているのかを評価しました。

たとえば、同じ単語でも「文脈(言葉の使われ方)」が豊富であれば、ベクトルは球体の表面のように広い範囲に散らばります。

この広がりこそが「意味の豊かさ」を表しているというわけです。

この方法なら、辞書に載っていない新しい使われ方や、昔の文献、外国語学習者が書いた少し変わった文章でも、同じ基準で意味の広がりを調べることができます。

そこで研究チームは、この新しいAIの手法を使って、「意味‐頻度の法則」が本当にさまざまな言語で広く当てはまるのかを調べることを目的に研究を進めたのです。

AIが発見した“言葉の法則”とは?

AIが発見した“言葉の法則”とは?
AIが発見した“言葉の法則”とは? / Credit:Canva

研究チームは、この「よく使われる単語ほど意味が豊かになる」という法則が、本当に色々な言語に共通しているのかを調べることにしました。

そこで、世界中のさまざまな言語の文章を大量に集めて、それらを「コーパス」と呼ばれる大きなデータセットにしました。

具体的に言うと、今回の研究では英語や日本語、さらに聖書文章の24言語(27コーパス)をまとめた特別なデータを使いました。

(※英語2・日本語2の一般コーパスに、聖書翻訳の27サブコーパス(24言語)を加えた計31コーパスを分析。)

研究チームは、これらのデータから各単語がどれくらい頻繁に登場するか(出現頻度)をまず数えました。そして同時に、AI(人工知能)を使って、それぞれの単語がどれだけ多様な文脈で使われているか(意味の豊かさ)を測定しました。

ここで使われたAIの技術では、文章を読み込むことで単語が登場した場面ごとに「単語ベクトル(単語の意味を数値化したもの)」が作られます。

ベクトルの広がりが大きいほど、その単語はさまざまな意味で使われていると判断されます。