菊池, 浩明, 荒井, ひろみ, 井口, 誠, 小栗, 秀暢, 黒政, 敦史, 千田, 浩司, 中川, 裕志, 中村, 優一, 西山, 賢志郎, 野島, 良, 波多野, 卓磨, 濱田, 浩気, 古川, 諒, 馬, 瑞強, 前田, 若菜, 村上, 隆夫, 山岡, 裕司, 山田, 明, 渡辺, 知恵美
コンピュータセキュリティシンポジウム2021論文集 1037-1044 2021年10月19日
健康診断やウェアラブルデバイスから取得したヘルスケアデータは生活習慣病の予測などに活用できる有益なビッグデータである.個人情報取扱事業者は,規則に従った適切な匿名加工に加えて,各種分析の精度を劣化させない最適な加工をすることが求められている.そこで,米国疾病対策予防センター CDC が収集した米国国民健康栄養調査(National Health and Nutrition Examination Survey: NHANES)データを用いて,年齢,学歴,BMI,運動量などの説明変数に対する糖尿病の罹患リスクを正しく評価するための匿名化技術と再識別リスクを探求するコンテストを企画する.
Big data from healthcare devices and medical examination are very useful for epidemiologic study predicting a risk of diseases given lifestyle factors. Before sharing de-identified healthcare data, personal data business entities are required to perform the appropriate anonymization algorithm so that it preserves data accuracy and is approved by regulations. In this paper, we design a competition of data anonymization of healthcare data, the National Health and Nutrition Examination Survey, conducted by the National Center for Health Statistics, Centers for Disease Control and Prevention (CDC). The goal of participants is to anonymize the healthcare data to be used to quantify the prevalence of diabetes given demographic characteristics including age, educational level, body mass index, physical activity.