株式会社リンクバルは、形態素解析をはじめとする自然言語処理と集合論の考えを応用したAI技術を独自開発。イベントを説明するテキストデータから“同じ形式”と思われるイベント同士を高精度で名寄せするロジックを開発しました。

ここで言う“同じ形式”とは、開催場所や開催日時は異なるもののイベントの内容としては同一であることを意味します。

“同じ形式”のイベントをデータ上で捉えられない課題

リンクバルが運営する「machicon JAPAN(街コンジャパン)」は、イベントプラットフォームとして、これまで多くのイベント情報を掲載してきました。

イベントは商品の特性上、開催されると在庫が0になり、2度と入荷されないという特殊性を持っており、同じ内容で場所や日時を変えてイベントを開催する場合には、新しい商品としてデータベースに登録されます。

この仕組みでは、同じ形式のイベントをデータ上で捉えられず、マーケティングの分析や顧客へのレコメンドが困難になることも。

そこで注目したいのが、同じ形式のイベントの「名寄せ」。ここでの名寄せとは、データや情報を一意に識別するために、取得したデータを統合・整理するプロセスを指し、その目的は、同一の実体を正確に識別し、データの一貫性や統一性を確保することにあります。

特定の単語を排除するためのロジック

株式会社リンクバルは、イベント情報において、「テキストから開催時間と開催場所に関する単語を排除した上で一致していれば名寄せする」とすることで、シンプルかつ適切に名寄せが可能であると考えています。

特定の単語を排除するためには、まず文章を単語の粒度に分割し、各単語がどのような意味を持つか、品詞や単語の意味の情報付与が必要。このような処理は一般に形態素解析と呼ばれます。

このロジックでは、形態素解析と単語の意味推定によって地名や時間に関する名詞といったイベントの形式に本質的でない単語を抽出。しかし、形態素解析における意味推定の精度には限界があり、それだけで所望の単語を完璧に排除しきることはできません。

曖昧な条件を定式化、集合論活用で一貫性を担保

そこで、前処理したテキストデータが完全に一致するのではなく、わずかなズレを許容した上で一致すれば名寄せするという曖昧な条件をうまく定量的に表現する手法に着目しました。

今回のロジックでは、単語を集合として比較するという方針のもと、計算コストを削減するためにトピックモデルのアプローチを採用し、この曖昧な条件を定式化しています。

ところが、この曖昧な条件により新たな問題が発生。名寄せされるべきイベントの集まりに対して一貫性のあるインデックスの付与が困難になるというのです。

この困難に対しては、集合論の知見を活用することで対応しました。