近年は生成AIテクノロジーの台頭により、さまざまな国が自国の言語に対応する大規模言語モデル(LLM)の開発に取り組んでいる。
今年7月には、タイの多角経営グループであるDTGOが香港のAIソフトウエア企業SenseTimeと提携し、タイ語、中国語、英語の3か国語に対応するLLM「DTLM(DTGO Large Language Model)」の開発を発表した。
アジア圏でのLLM開発が盛り上がりを見せるなか、台湾でも多くの企業が繁体字中国語LLMの開発を進めている。こうした背景を受け、台湾発のAIソリューションプロバイダーであるiKalaは、新たな繁体字中国語検証セット「TMMLU+」を発表した。
LLMの精度とローカリゼーションを向上させる「TMMLU+」
中国語の字体には「簡体字」と「繁体字」の2種類がある。
簡体字は、従来の複雑な漢字を簡略化した字体。中国本土、シンガポール、マレーシアなどで使用されている。いっぽう繁体字は従来、漢字文化圏で使用されてきた伝統的な字体だ。台湾のほか香港、マカオなどでも用いられている。
台湾市場ではこの繁体字に対応した言語モデルの需要が高まっており、さまざまな企業が同モデルの開発に着手しているという。
しかし、台湾には「8+9(不良を意味するスラング)」や「北車(台北駅の略称)」などの単語や、独自の文化が存在する。AIによる生成結果をより正確なものにするためには、LLMの構築プロセス中に検証セットで調整する必要がある。
そこで昨年10月、iKalaは繁体字中国語検証セットであるTMMLU+の開発を開始した。
台湾の言語・文化をカバーする設計
TMMLU+は、MediaTekが発表したフレームワーク「TMMLU」をベースに作られている。iKalaのAIチームはソーシャルメディア上のデータを活用してフレームワークを拡張し、よりローカルな台湾の言語と文化の背景をカバーするように設計した。