データの秘匿技術 ~イントロダクション~
はじめに
弊社では、今後OpenDataの時代が促進されると考えております。
データとは、公共性から機密性(個人情報)へのベクトルの通りにOpenDataになっていないという現状があります。
より機密性の情報をパブリック化することがまず必要になります。
その場合に、なぜ機密性のデータがパブリック化されていないのかを考えると、当たり前のことですが、機密性の高いものだからパブリック化されていないのです。ではどうしたらパブリック化し、OpenDataとして使えるようになるのでしょうか。
そこに焦点をしぼって研究しております。
その中で、今回は匿名化技術についてブログを書いていこうと思います。
本ブログでは、匿名化と暗号化の違いや匿名化の語句の紹介から簡単な匿名化技法を紹介できればと思っております。
匿名化技術とは、どのような技術であり、匿名化するとどのようなメリットがあるのかを考えます。
匿名化とは(暗号化と匿名化)
よく匿名化技術と、暗号化技術を混同する人がいますが、この二つの技術は、何が違うのでしょうか?
まず言葉の意味から追っかけてみます。
暗号化とは
暗号化とは、機密情報や、個人情報などを通信する際に、第三者に内容を知られたり、改ざんされたりすることを防ぐ技術を用いて、情報を加工することになります。また、暗号化された情報を元に戻すことを復号化とも言います。
「情報を第三者に分からないよう伝える」という意味では、古代エジプトのヒエログリフが現存する最古の暗号としても知られています。その後、エニグマなどに代表されるように軍事技術として発達してきました。
匿名化とは
匿名化とは、個人に関する情報から、個人の識別に関わる個人情報を削除または、加工することで個人を特定できなくするデータ処理手法です。
つまり、匿名化技術は、情報を加工し、不可逆的に特定を防止するもの と言えます。
両者の違いとして、個人の情報が、暗号化されていたとしても、第三者が個人を特定できるのであれは、それは匿名化とは言えません。
まとめると
暗号化とは、
第三者にわからないように変換して、受け取った人は可逆的に復号して内容を解読します。匿名化とは、
データを加工し、不可逆的に個人の特定をできないようにすることです。
仮名化とは
では、仮名化(Pseudonymisation)データという言葉がありますが、仮名化とは、匿名化と暗号化のどちらでしょうか。
仮名化とは、個人のレコードの名前や電話番号などを、他人にわからないように他の文字列に置き換えたものです。
一見、個人を特定することが、できないように感じますが、レコード自体は、そのまま残っており、置き換えを元に戻せば、個人が特定できるレコードに戻ります。
また、仮名化と他のプライバシーモデル組み合わせることで不可逆的な匿名化に使用することもできます。
仮名化とは暗号化、匿名化のどちらかではなく、一つの技法であり、暗号化、匿名化で使用することができるものになります。
匿名化のメリット
次に、個人の情報を匿名化することでどのようなメリットがあるのでしょうか。
これまでは、サービス事業者や機関が、収集した個人情報を、一次利用されてきましたが、
その収集した個人情報を匿名加工することで、他の機関が二次利用するという未来を促進できます。
例えば、お医者さんが患者さんの情報を一次データとして扱います。これまでは、目の前の患者の治療が目的で、それはそれで達成できていました。
しかし、もう少し俯瞰してみてみると、その一次データを匿名化して、二次データとして使う事ができると、その年の流行り風邪の特徴を調べる事ができます。また、どの薬が効くのか、あるいは、副作用が起きたかなども分析可能になります。
そしてそのような、匿名化したデータを利活用することで研究が進み、新たな新薬の開発も促進できると思います。
他の分野でもデータを汎用的に使うことで、様々なサービスがより良い形に進化していくことが可能です。
しかし、そこには匿名化の安全保障が重要になります。
匿名化とは、不可逆的に個人が特定されないことが重要です。
仮に、顔が隠れた写真があるとします。
普通の人には、誰なのかわからなくても、近しい人だった場合に、後ろの建物や一緒に写っている人、普段着ている服装、背格好などからその人が誰なのかを特定できてしまうことがあります。
そのようなケースをしっかりと防ぐことが大切です。
まずは、過去に匿名化が破られたケースをみていきましょう。
マサチューセッツ州知事の特定
マサチューセッツ州は、医療促進を目的に医療データの一部を識別子(本ケースでは、氏名)の削除など匿名加工して公開ました。
公開された情報の中には、性別、生年月日、郵便番号、医療結果、投薬の情報がありました。
Sweeneyはその時すでに公開されていた投票者の名簿(この時、アメリカでは名簿を購入することが可能でした)とこの公開医療データと突き合わせることで州知事の情報を特定することに成功しました。
同じ地域に住む54000人の中から知事と同じ生年月日が6人いました。そしてそのうち3人が男性であることがわかりました。
さらに郵便番号から州知事特定に至ったというわけです。
ネットフリックスの話
今では動画サービスの巨人として知られているNetflixですが、
映画レコメンデーション・システムを改良するために,賞金100万ドルのコンテスト「Netflix Prize」というアルゴリズム開発コンテストを実施しました。
このコンテストで50万人のレビューなどの映画評価情報を個人を識別できる情報を削除し、匿名化して公表しました。
しかし、NarayananとShmatikovは、その匿名化されたデータから個人が特定できたと発表しました。コンテストは中止となってしまいました。
なぜ、特定されてしまったのでしょうか。
それは、個人名まで載っているInternet Movie Databaseという、映画やドラマ、俳優のデータベースサイトと突き合わせるという方法で特定していきました。
Netflixの貸出履歴にある日時とIMDbの同時期の同タイトルを比較し、特定することができました。
終わりに
個人情報を匿名化して公開する場合、このようなに個人が特定されることは、避けなければなりません。
そのために様々な観点から匿名化がなされている事が重要です。
今後OpenDataとして利活用を促進するためには、このような匿名化と向き合うことが大切だと弊社は考えます。
次回は、匿名化の語句の説明、一般的な匿名化についてお伝えしていきます。
参考
https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
https://dataprivacylab.org/dataprivacy/projects/kanonymity/kanonymity2.pdf
https://www.jstage.jst.go.jp/article/johokanri/60/10/60_710/_html/-char/ja