ChatGPTに機密情報を学習させなければ安全なのか。学習させたら危険なのか。

2023年4月11日
全体に公開

「ChatGPTはすごい。」なので、法人でも従業員がうまく使える体制を築きたい。そう思うのは自然なことです。実際にどんどんと活用事例が出てきています。

でも、気になるのが情報漏洩です。機密情報を投げ込んで、それが漏れたら大変です。なので、そこにガイドラインを引きたいと考えるのは自然なことです。

そのなかで企業がChatGPTを利用する際に、学習データに関する機密情報が利用されないようにOpenAIにオプトアウト申請をすることがある種の落とし所になっているかと思います。

機密情報の漏洩を防ぐためのこの対策は、ある程度の基準としては理解できますが、冷静に考えると腑に落ちない点も存在します。

ChatGPTに機密情報を入力してしまって、その情報が社会に漏洩してしまうには2つの可能性が考えられます。

・OpenAI自身がセキュリティの不備などで「会話履歴」を漏洩する

・OpenAIが「会話履歴」を学習に用いて、学習済みのLLM(大規模言語モデル)から情報を引き出す

この2つでは、基本的に、前者のリスクの方が高いと言えます。

なぜなら、OpenAIが何らかの理由で情報漏洩してしまった場合、確実に誰かが送った一次情報であるという保証があるため、その情報が真実である可能性が高いからです。ですがこれについては、一般的なクラウド事業者も同じことが言えます。OpenAIが現在、一般的なクラウド事業者と同程度のセキュリティや基準を持っているかというと新興企業のため、これからということもあるでしょう。その点が気になる場合は、すこし時間差があるかもしれませんが、Azure OpenAI Serviceを使うということになるでしょう。

一方で、後者のLLMが生成した文章の中に機密情報が含まれていた場合を考えてみましょう。生成された文章に機密情報の一部が含まれていたとしても、それが真実であると保証することは一切できません。LLMが幻覚を見て発言していたり、何かを誤認して発言している可能性も十分にあります。

そもそも原理的にはある学習データと全く同じ情報を取り出したり生成したりする確率は極めて低いとされています。

また、OpenAIが生のLLMをそのまま使うのではなく、InstructレイヤーやSystemプロンプトによって、よりChatGPTのプロダクトにふさわしいように調教をかけていきます。このフェーズで直接的な機密情報が吐き出される確率はさらに低く学習されていることも大きな要素です。

つまり、元の情報が切り刻まれてベクトル化された脳が作り出す大量の嘘の中から、学習に使われたと思われる機密情報を取り出すことは極めて難しい状況ですし、それが真実であると判別する方法も確立されたものはありません。

しかし、それが不可能であると保証されているわけでもありません。ぱっと原理的には難しくても学習過程に関するバグや不備がないとは言えないため、そこから情報を引き出すバックドアがないとは言い切れません。また、大規模言語モデルのパラメータ数が増えて、さらに学習データへの過適応が進んでしまうと確率的にも無視できなくなる可能性はあります。

このあたりが、「学習に使われない方がベターである」と判断されている理由です。

ですが、学習に使われたら危険である、学習に使われなかったら安全であるという判断になるかというと技術的にはそうではないというのが実際のところです。

このように考えると、ChatGPTの法人利用における機密情報漏洩リスクは、一般的に想像するよりも低いはずですが、未知の手法が発見される可能性があるためや、さらに発展した際にリスクが増大する可能性があるため、大事をとっているというのがポイントでしょうか。情報セキュリティに関しては、絶対的な安全は存在しないため、企業は常にリスク管理の観点から適切な対策を検討し続けるべきです。

特に、一般的な情報に見えるが実は機密であることが、繰り返し繰り返し学習に使われてしまうケースで、事実関係の確認がしやすいことなどがあると機密の漏洩につながるかもしれません。

企業は、適切なリスク管理を行いながら、ChatGPTの持つ高いパフォーマンスを活用していけることが望ましいでしょう。

例えば、機密情報を含む文書やデータをChatGPTとやり取りする際には、事前に情報の機密性を確認し、不要な情報は取り除くことが重要です。また、従業員に対してChatGPTの適切な使い方や情報管理についての研修を実施することも、情報漏洩リスクを低減する上で有益だと思います。まあ、この辺は誰もが考えることでしょうが。

そのために、社員用のProxyを設けてモニタリングするとか、トークンの消費量の管理とかも必要かと思います。そういうときは法人向けのソリューションか、OSSのプロキシとUIを自前で構築して改良しながら使うといいでしょう。

また、OpenAI自身も、法人利用における情報漏洩リスクを軽減するために、継続的な技術改善やセキュリティ対策を行っています。例えば、モデルの学習データから機密情報を特定・除去する技術の開発や、データ送信時の暗号化技術の向上などが挙げられます。こうした取り組みにより、法人利用がさらに安全になることが期待されます。

最後に、ChatGPTの法人利用が加速する中で、企業は潜在的なリスクを常に意識しながら、その強力な機能を最大限に活用することが重要です。適切なリスク管理と対策を講じることで、企業はChatGPTを安心して活用し、業務効率やサービス品質の向上につなげることができるでしょう。

たとえば、引用の要件を満たしながら、著作権のあるコンテンツを取り出そうとしてみる

それに対して、現実の『蹴りたい背中』の冒頭

さびしさは鳴る。耳が痛くなるほど高く澄んだ鈴の音で鳴り響いて、胸を締めつけるから、せめて周りには聞こえないように、私はプリントを指で千切る。細長く、細長く。
蹴りたい背中、綿矢りさ、河出文庫

全く違う文章が生成されていることがわかる。

それっぽい「幻覚」を見ることがあるGPTから学習データに使われた真実を引き出すことは難しいというのは、このような事例からもわかる。

応援ありがとうございます!
いいねして著者を応援してみませんか



このトピックスについて
染原 睦美さん、他2010人がフォローしています