●この記事のポイント ・欧州各国ではディープシークのアプリの削除命令が出されたり調査が開始されるなど、世界的に規制の動き ・米国企業が提供するLLMも、日本の企業や個人のデータが大量に米国事業者のサーバーに流れている
今年1月に米Open AIの「ChatGPT」に匹敵する性能を持つAIモデルを、米国製の10分の1以下のコストで開発したと発表した中国の新興AI企業DeepSeek(ディープシーク)。その同社がユーザ情報を中国政府に提供している可能性が浮上している問題を受け、ドイツ当局は6月、ディープシークのサービスについて米アップルなどに対しアプリストアから削除するよう要請。以前から欧州各国では、ディープシークのアプリの削除命令が出されたり調査が開始されるなど、世界的に規制の動きが広まっていた。日本では中国アリババクラウドのQwenを使う日本企業も増えつつあるが、中国企業のAIモデルを利用するのはリスクが伴うのか。また、米国企業が提供するLLM(大規模言語モデル)は日本でも広く使われているが、そのLLMは米国事業者のデータセンターのサーバー上で動いており、日本の企業や個人のデータが大量に米国事業者のサーバーに流れていることになるが、これは何かリスクがあるといえるのか。専門家の見解を交えて追ってみたい。
●目次
実際のところは「わからない」
各国が提供するAIモデルを利用するのはリスクが伴うのか。AI開発者で東京大学生産技術研究所特任教授の三宅陽一郎氏はいう。
「一般的には『わからない』というのが正しい言い方かもしれません。もし仮に大規模言語モデル(LLM)のサービスなどからユーザ情報が他に流れていたとしても、公式に認められることはないですし、『100%ないといえるのか』といえば、わからないということになります。日本企業側には言語エンジンに対する情報漏えいの懸念もあって、大規模言語モデルのサービス開始当初から慎重な姿勢がありました。そこでサービス側としては、インプット情報を記録しない、保存しないというエンタープライズ向けのサービスが拡張された、という経緯があります。むしろ現在では個人ユーザ向けに情報漏洩の懸念が広まっていないのかもしれません。
では、大規模言語モデルを提供するAIモデルを使うのは避けたほうがよいのかどうか、という話でいいますと、それは注意の上で使用する以外なく、なるべく個人が特定できる情報を避け、社内のコンフィデンシャルな情報を書き込むことを禁止する以外にありません。ユーザの検索履歴やAIとのデータのやり取りというのは、AIサービスを提供する企業のサーバー側に残るわけで、大規模言語サービスが出始めた初期の頃は、ユーザ情報が別のユーザに伝わってしまうという問題がたびたび起きていました。ユーザがLLMに入力したデータが学習データとして回収されるので、社内情報をAIに話すことを禁止している企業は多いのです。
初期には企画内容の詳細や個人名を渡してしまうユーザーもあり、過去には特定の会社・部署の人の名前をそのAIで検索すると電話番号が分かってしまうということもありました。入力した内容は基本的には全てサーバーに渡ってしまいます。それは相手がアメリカのAI企業であろうが、中国のAI企業であろうが、欧州のAI企業であろうが同じことです。その取扱いは、それぞれの運営ポリシーによって処理されます。利用許諾で使用しないことを明確にしている企業もあります。あとは、それぞれの企業ごとの方針ですので、企業がAIサービスを利用する際には、提供元企業との間で、受け取ったデータを学習に使わないという内容の契約を結ぶのが一般的です。それを見越して、エンタープライズ向けのサービスがデザインされています。それでもなお慎重になる企業も多いのです」