ПРИМЕНЕНИЕ ИМИТАЦИОННОГО КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ К ЗАДАЧЕ ОБЕЗЛИЧИВАНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ. МОДЕЛЬ И АЛГОРИТМ ОБЕЗЛИЧИВАНИЯ МЕТОДОМ СИНТЕЗА
- Авторы: Борисов А.В.1, Босов А.В.1, Иванов А.В.1
-
Учреждения:
- Федеральный исследовательский центр “Информатика и управление” РАН
- Выпуск: № 5 (2023)
- Страницы: 19-34
- Раздел: АНАЛИЗ ДАННЫХ
- URL: https://journals.rcsi.science/0132-3474/article/view/141779
- DOI: https://doi.org/10.31857/S0132347423050023
- EDN: https://elibrary.ru/ZXUVBM
- ID: 141779
Цитировать
Аннотация
Представлена вторая часть исследования, посвященного тематике автоматизированного обезличивания персональных данных. Обзор и анализ перспектив для исследований, выполненный ранее, здесь дополнен практическим результатом. Предложена модель процесса обезличивания, сводящая задачу обеспечения анонимности персональных данных к манипулированию выборками разнотипных случайных элементов. Соответственно, ключевой идеей преобразования данных для обеспечения их анонимности при условии сохранения полезности является применение метода синтеза, т.е. полной замены всех необезличенных данных синтетическими значениями. В предлагаемой модели выделен набор типов элементов, для которых предложены шаблоны синтеза. Совокупность шаблонов составляет алгоритм обезличивания методом синтеза. Методически каждый шаблон опирается на типовой статистический инструмент – частотные оценки вероятностей, ядерные оценки плотностей Розенблатта–Парзена, статистические средние и ковариации. Применение алгоритма иллюстрируется простым примером из области гражданских авиаперевозок.
Об авторах
А. В. Борисов
Федеральный исследовательский центр “Информатика и управление” РАН
Автор, ответственный за переписку.
Email: aborisov@ipiran.ru
Россия, 119333, Москва, ул. Вавилова, д. 44, кор. 2
А. В. Босов
Федеральный исследовательский центр “Информатика и управление” РАН
Автор, ответственный за переписку.
Email: avbosov@ipiran.ru
Россия, 119333, Москва, ул. Вавилова, д. 44, кор. 2
А. В. Иванов
Федеральный исследовательский центр “Информатика и управление” РАН
Автор, ответственный за переписку.
Email: aivanov@ipiran.ru
Россия, 119333, Москва, ул. Вавилова, д. 44, кор. 2
Список литературы
- Борисов А.В., Босов А.В., Иванов А.В. Применение имитационного компьютерного моделирования к задаче обезличивания персональных данных. Оценка состояния и основные положения // Программирование, 2023. № 4, с. 58–74.
- Aggarwal C.C., Yu P.S. On Privacy-Preservation of Text and Sparse Binary Data with Sketches // SIAM Conference on Data Mining, 2007.
- Sweeney L. K-anonymity: a model for protecting privacy // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. V. 10. № 5. P. 557–570.
- Samarati P., Sweeney L. Generalizing Data to Provide Anonymity when Disclosing Information (Abstract) // Proc. of ACM Symposium on Principles of Database Systems, 1998. P. 188.
- Samarati P. Protecting Respondents’ Identities in Microdata Release // IEEE Trans. Knowl. Data Eng., 2001. V. 13. № 6. P. 1010–1027.
- Bayardo R.J., Agrawal R. Data Privacy through Optimal k-Anonymization // Proceedings of the ICDE Conference, 2005. P. 217–228.
- Fung B., Wang K., Yu P. Top-Down Specialization for Information and Privacy Preservation // ICDE Conference, 2005.
- Wang K., Yu P., Chakraborty S. Bottom-Up Generalization: A Data Mining Solution to Privacy Protection // ICDM Conference, 2004.
- Domingo-Ferrer J., Mateo-Sanz J. Practical data-oriented micro-aggregation for statistical disclosure control // IEEE TKDE, 2002. V. 14. № 1.
- Winkler W. Using simulated annealing for k-anonymity // Technical Report 7, US Census Bureau, Washington D.C. 20233, 2002.
- Iyengar V.S. Transforming Data to Satisfy Privacy Constraints // KDD Conference, 2002.
- Lakshmanan L., Ng R., Ramesh G. To Do or Not To Do: The Dilemma of Disclosing Anonymized Data // ACM SIGMOD Conference, 2005.
- Aggarwal C.C., Yu P.S. On Variable Constraints in Privacy-Preserving Data Mining // SIAM Conference, 2005.
- Aggarwal C.C. On k-anonymity and the curse of dimensionality // VLDB Conference, 2005.
- Iyengar V.S. Transforming Data to Satisfy Privacy Constraints // KDD Conference, 2002.
- Machanavajjhala A., Gehrke J., Kifer D., Venkitasubramaniam M. L-Diversity: Privacy Beyond k-Anonymity // ICDE Conference, 2006.
- Fung B., Wang K., Yu P. Top-Down Specialization for Information and Privacy Preservation // ICDE Conference, 2005.
- Wang K., Yu P., Chakraborty S. Bottom-Up Generalization: A Data Mining Solution to Privacy Protection // ICDM Conference, 2004.
- Rosenblatt M. Remarks on Some Nonparametric Estimates of a Density Function // Ann. Math. Statist., 1956. V. 27. № 3. P. 832–837.
- Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Statist., 1962. V. 33. № 3. P. 1065–1076.
- Silverman B.W. Density Estimation for Statistics and Data Analysis. London: Chapman & Hall/CRC, 1986.
- Kullback S., Leibler R.A. On information and sufficiency // Ann. Math. Statist., 1951. V. 22. № 1. P. 79–86.