公的統計ミクロデータの安全な研究利用を推進

ミクロデータセキュリティプロジェクト

プロジェクトの概要と想定される成果・目標

公的調査のミクロデータを安全に研究利用するために、調査参加者の機密情報の漏洩を防止するためのデータ秘匿処理技術の確立に取り組むためのプロジェクトです。特に公的統計における代表的な記述統計である集計表等の表データのセル秘匿処理アルゴリズムの開発を行っています。
これによって、ミクロデータの安全な利活用を実現するデータ秘匿処理技術を確立し、また提案手法を実装したツールを提供することで、学術研究利用における安全性検証の効率化を実現します。

プロジェクトの背景

近年、我が国は公的調査票情報の二次的利用を推進し、令和1年よりオンサイト利用制度の本格運用が開始しています。この制度により、学術研究を目的とする研究者はオンサイト施設の端末から公的ミクロデータに対する探索的分析を行なうことが可能となっています。しかしミクロデータには調査客体の機密情報を含まれ、分析結果を学術論文として公表する際に機密情報の漏洩を防止する必要があります。そこで、安全な分析結果を作成するためのデータ秘匿処理技術の確立が重要な課題となっています。

図1:オンサイト利用における公的ミクロデータの安全な研究利用
プロジェクトでの研究・開発内容

本研究では、公的統計における代表的な記述統計である度数表、集計表等の表データに対し、セル秘匿処理を行う秘匿処理アルゴリズムを考案し、またオンサイト利用における安全性審査を念頭にデータを持ち出す研究者が利用する秘匿処理ツールを開発しました。表データに含まれる表セルの度数が小さい場合、外部知識を持つ攻撃者がそのセルに含まれる調査客体を識別し、その客体の機密情報を推測するリスクが存在しています。したがって、そのような機密性の高いセルの値は秘匿する必要がありますが、表データの場合、行計、列計の関係式から秘匿したセル値を復元することは容易なため、機密でないセル値も追加で秘匿する2次秘匿処理が必要になります。しかし、表データの有用性を保ちつつ適切に2次秘匿セルを選択することは容易ではありません。本研究では、この問題を秘匿セル数の最小化を目的関数とする整数計画法の枠組みで定式化し、Benders分割法による効率的なアルゴリズムをR言語で実装しました。開発した秘匿処理ツールは秘匿した表データの安全性を検証するための説明機能も提供しており、オンサイト利用における安全性審査の効率化に貢献しています。

図2:表データの秘匿処理ツール