私たちが普段使っている言葉には、実はひとつの形でありながら、場面や状況に応じて少しずつ違う意味を持つものがあります。
たとえば、英語の「run」は「走る」だけでなく、「機械を動かす」「会社を経営する」といった意味でも使われます。
日本語の「走る」も同じように、「人が走る」以外に、「エンジンが走る」「会社を走らせる」など、さまざまな文脈で使われます。
このように、よく使われる言葉ほど意味が増えていくという現象は昔から知られており、「意味‐頻度の法則」と呼ばれています。
この法則は、「頻繁に使われる単語ほど、持っている意味が多い」という関係を示しているのです。
この関係をグラフで説明すると、横軸に単語の使用頻度(どのくらいよく使われるか)、縦軸に意味の数をとり、両方を対数(数字の変化をわかりやすくする特別な目盛り)で表すと、データがほぼ一直線に並ぶとされています。
つまり、頻度が高くなるほど意味がどんどん増えていくということが、数字の上でも確認できるのです。
ただし、実際の研究ではこの関係が必ずしもきれいな直線になるとは限りません。
特に、あまり使われない単語では、データが直線から外れることがよくあります。
また、これまでの研究では主に辞書を使って「意味の数」を数えていましたが、辞書によって語義の数が違ったり、新しい使い方が載っていなかったりするため、正確な計測が難しいという問題もありました。
このような背景から、今回の研究チームはまったく新しい方法を考案しました。
それが、AI(人工知能)の「言語モデル」を使うという手法です。
言語モデルとは、たくさんの文章を読み込み、その流れから「次にどんな単語が来るか」を予測する仕組みです。
このAIに文章を入力すると、各単語は「単語ベクトル(単語の使い方を数値で表したもの)」と呼ばれる数字の集まりに変換されます。
このベクトルは、意味が近い単語ほど似た位置に、意味が違う単語ほど離れた位置に配置される特徴があります。