難病患者5600人分の個人情報流出 厚労省が研究機関に誤って提供
コメント
注目のコメント
個人情報の保護に関する法律(以下、個人情報保護法)における区分で、「匿名加工情報」については第三者に提供することが可能とされています。「匿名加工情報」は、事業者間におけるデータ取引やデータ連携を含む個人に関する情報の利活用を促進することを目的に個人情報保護法の平成27年(2015年)改正により導入され、個人データの取得時に特定された利用目的以外にも利用することができると定められています。
「匿名加工情報」とは特定の個人を識別することができず、加工元の個人情報を復元することができないように加工された個人に関する情報(個人情報保護法第2条の6)で、本人か一切分からない程度まで加工されたものを指し、氏名等を削除(又は置き換え)、項目削除、一般化、トップコーティング、ノイズの付加等の加工、特異な記述の削除等(同法第43条の1)を義務付けています。
リアルワールドデータ(RWD)と名付けられたこのような医療機関からの情報は、「本人の同意を得ずに研究機関や営利事業者に提供」されています。また収集と民間企業への提供については、営利事業としても行われています。RWDについてはそのような性格を持つため慎重な扱いが必要です。匿名加工を扱う民間企業は認可制になっており、匿名加工の手順も厳格に定められています。
今回の「難病患者情報」の流出は「単純なミス」によるものとのことですが、「匿名加工情報」にならなかったことにより、個人情報保護法に違反することになります。厚生労働省傘下の研究所でこういったことが起こると、手順までも厳格に指定し、監督する立場にある厚生労働省の立場自体が失墜し、個人情報保護を行わない病歴データの提供自体の安全性があらためて問われます。
このようなデータの整備基盤は、日本の医学研究者や製薬企業が「研究や事業活動に発展に不可欠」と望んで実現したものです。今回のミスは、この流れに水を差すものになりかねず、再発防止が望まれます。これは、AIで解決するユースケースではないですね。
個人情報の低リスク化がシステムとして構築出来ていなかった。
仕組み化出来ていなかったことに他ならないかと。
蓄積するシステム上では、氏名、年齢、住所、往診病院期間などの漏洩すると特定・推定できる情報は、ハッシュ化・NULL化・置換などの処理を行う。
その上で、推定も防ぎたいのであれば、k-匿名化などを行い匿名加工情報にする。ただ、これは扱いが難しい。
業務上、どうしても個人情報が必要な場合は、ハッシュ値との名寄せが可能な形にしつつ、厳格な環境でアクセスコントロール。監査ログからのアクセス履歴を随時監視。などが必要かと
また、クラウドサービスの中には、個人データの定義を正規表現含めて行っておけば定期的に探索しアラートを上げる仕組みがあります。そのため、意図しない個人情報の流入なども防ぐ事が出来ます。
DXというと抽象化・矮小化されてしまうのですが、こういった業務こそ我々データエンジニアの領分です。データサイエンティストも重要ですが、こういった業務にも注目が集まると良いと思います。これまでいくつかの記事に対してコメントしてきたことの繰り返しになりますが。
多くの危険な薬品や装置を扱う尊敬する先輩は常々「何か問題が起きたら責めるべきは問題を起こした人ではなく、問題が起こるようになっていたシステム。」と発言されています。私も同意見です。
かつ、このような問題が起こったときに繰り返される「もっと気をつけるよう担当者を指導します」というのは、仕組みをより複雑化・硬直化させ、人にさらなる負担を強いるだけで解決策になっていません。
ここで気になるのは、なぜ最初から個人情報を分離しておかなかったのかということ。いまとなっては古臭い方法になってしまいますが、分離匿名化(2つのファイルに分割し、1つには個人情報、1つには公開情報を記載、2つのファイルは独自に設定した乱数IDで紐づける)をしておけば今回のような間違いは減ります。