その結果、英語や日本語を含む多くの言語で、「頻繁に使われる単語ほど文脈が広がり、意味が豊かになる」という関係が確認されました。

グラフにすると、出現頻度と意味の豊かさの間に、なめらかな直線のような関係が見えてきます。

ただし、この傾向はすべての言語で同じように現れるわけではなく、言語によって直線の見え方にばらつきがありました。

特に、あまり使われない単語では関係が崩れやすく、グラフから外れてしまうこともありました。

それでも多くの言語で、この法則がおおむね成り立っていることが統計的に確認されました。

さらにこのAIの手法は、従来のように辞書に頼る方法とは異なり、時代や使われる場面を問わず、どんな言語データにも応用できるのが強みです。

研究チームは実際に、約100年前の文章や外国語を学ぶ人が書いた文にもこの方法を適用しました。

古い文では、頻繁に使われる単語ほど意味の広がりが見られましたが、使用頻度が低い単語では、ややずれが目立つ傾向がありました。

外国語学習者の文でも同じようなズレた結果が得られました。

それでもそれ以外の幅広い文章において、「頻繁に使われる単語ほど文脈が広がり、意味が豊かになる」という確認された意味は大きいでしょう。

次に研究チームは、「この法則の見え方がAIの性能によって変わるのか」という新たな疑問に挑戦しました。

ここで言うAIの性能とは、AIがどれくらい細かく言葉の意味を区別できるかということで、AIの「パラメータ数(処理の細かさを決める数字の数)」によって決まります。

パラメータ数が多いほど、AIはより賢くなります。

実験では、小型のAI(約2900万パラメータのbert-small)と、大型のAI(約3億4000万パラメータのbert-large)を使って比較しました。

その結果、小型AIでは「よく使う単語ほど意味が豊かになる」という関係がほとんど見られませんでした。