データの秘匿技術 ~匿名化の方法と定義~
はじめに
前回(データの秘匿技術 ~イントロダクション~)は、匿名化と暗号化の違いや匿名化が破られたケースなどを説明しました。
今回は、一般的に匿名化するための流れや語句を紹介していこうと思います。
匿名化をする
匿名化は、以下の流れで匿名化するとよいです。
利活用の目的の定義
匿名化するには、破られないことが大切と前回お話しましたが、匿名化のその先に二次利用による利活用があります。全て黒塗りの情報があったとして、その情報は活用できるでしょうか?
例えばインフルエンザの流行推移としてデータを使いたい場合には、場所の情報や日時など、二次利用するデータとして使える情報(何かを判断するときに判断できる情報)が少なくともなければなりません。そう言った意味で、まず大切なのは
利活用の目的を定義し、必要な情報、不要な情報を洗い出す
事が大切です。
データの特性、特質を見る
次に実際にデータ自体の特性や特質を見ることが必要になります。
匿名化の対象になる項目の洗い出しや、データの規模などを整理しておくことで、より匿名化すべきポイントが判断できます。
一般的な匿名化
匿名化には、様々な手法がありますが、今回は簡易的に匿名化をしてみたいと思います。
下記の表の場合に、そのままの情報を渡してしまうと、suzuki_taroさんがガンであると特定できてしまいます。
名前 | 年齢 | 性別 | 住所 | 職業 | 病気 |
---|---|---|---|---|---|
suzuki_taro | 29 | 男性 | 千代田区 | 医者 | ガン |
tanaka_jiro | 23 | 男性 | 埼玉市 | 学生 | 感染症 |
では、名前を消してみましょう。
名前 | 年齢 | 性別 | 住所 | 職業 | 病気 |
---|---|---|---|---|---|
* | 29 | 男性 | 千代田区 | 医者 | ガン |
* | 23 | 男性 | 埼玉市 | 学生 | 感染症 |
するとガンの人は、29才男性で千代田区に住んでいる医者ということになり、このデータだけだとsuzuki_taroさんには結びつかなくなります。
これが匿名化です。もちろん世の中には様々な情報があり、例えば千代田区のお医者さんデータがあった場合にあった場合にそのデータと付き合わせることでsuzuki_taroさんと特定できる場合もあるでしょう。
そういった様々なケースに対応するように匿名化手法も様々発達してきました。今後、当ブログでもその手法を一つ一つ解説していけたらと思います。
言葉の説明
今後匿名化技術の解説をしていく上で匿名化技術に関わる用語を定義していこうと思います。
個人の属性データの分類
- 識別子
- 個人を特定する直接的な属性をさします。名前や、個人番号、ID、電話番号などがこれに当たります。
- 準識別子
- 複数組み合わせることで個人を識別できる属性をさします。年齢、性別、生年月日などがこれに当たります。
- センシティブ属性
- 他人に知られたくない属性をさします。病名、収入、借金などがこれにあたります。
- その他の情報
- 上記に入らないものの属性になります。
次に、特定における状態を示す用語があります。
- 識別
- 情報の中で、その個人が他の情報の個人と同一であるということはわかるが、実世界に置いては、それが誰かまではわからないことをさします。
- 特定
- 情報の中で、その個人を一意に判別することができ、実世界に置いても誰であるか特定ができることをさします。
終わりに
今回は、一般的な匿名化と語句の紹介をしました。次回は、匿名化をする上での技法であるプライバシーモデルについて解説していこうと思います。
参考
https://www.jstage.jst.go.jp/article/johokanri/60/10/60_710/_html/-char/ja