On the Practical Generation of Counterfactual Examples

Cover Page

Cite item

Full Text

Abstract

One of the important elements in evaluating the stability of machine learning systems are the so-called adversarial examples. These are specially selected or artificially created input data for machine learning systems that interfere with their normal operation, are interpreted or processed incorrectly. Most often, such data are obtained through some formal modifications of the real source data. This article considers a different approach to creating such data, which takes into account the semantic significance (meaning) of the modified data counterfactual examples. The purpose of the work is to present practical solutions for generating counterfeit examples. The consideration is based on the real use of counterfactual examples in assessing the robustness of machine learning systems.

About the authors

D. E. Namiot

Lomonosov Moscow State University

Author for correspondence.
Email: dnamiot@gmail.com

Dr. of Sci., Faculty of Computational Mathematics and Cybernetics

Russian Federation, 119991, Moscow, GSP-1, 1-52, Leninskiye Gory

E. A. Ilyushin

Lomonosov Moscow State University

Email: john.ilyushin@gmail.com

Faculty of Computational Mathematics and Cybernetics

Russian Federation, 119991, Moscow, GSP-1, 1-52, Leninskiye Gory

I. V. Chizov

Lomonosov Moscow State University

Email: ichizhov@cs.msu.ru

PhD, docent, Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences, , Faculty of Computational Mathematics and Cybernetics

Russian Federation, 119991, Moscow, GSP-1, 1-52, Leninskiye Gory

References

  1. Namiot, Dmitry, Eugene Ilyushin, and Ivan Chizhov. “On a formal verification of machine learning systems.” International Journal of Open Information Technologies 10.5 (2022): 30-34.
  2. Li, Huayu, and Dmitry Namiot. “A Survey of Adversarial Attacks and Defenses for image data on Deep Learning.” International Journal of Open Information Technologies 10.5 (2022): 9-16.
  3. Artificial Intelligence in Cybersecurity. http:// master.cmc.msu.ru/?q=ru/node/3496 (in Russian) Retrieved: May, 2022
  4. Buchsbaum, Daphna, et al. “The power of possibility: Causal learning, counterfactual reasoning, and pretend play.” Philosophical Transactions of the Royal Society B: Biological Sciences 367.1599 (2012): 2202-2212.
  5. Sterelny, Kim. “Language, gesture, skill: the co-evolutionary foundations of language.” Philosophical Transactions of the Royal Society B: Biological Sciences 367.1599 (2012): 2141-2151.
  6. Kasirzadeh, Atoosa and Andrew Smart. “The use and misuse of counterfactuals in ethical machine learning.” Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. 2021.
  7. Amir-Hossein Karimi, Gilles Barthe, Borja Belle, and Isabel Valera. 2019. Model-Agnostic Counterfactual Explanations for Consequential Decisions. arXiv preprint arXiv:1905.11190 (2019)
  8. Barocas, Solon, Andrew D. Selbst, and Manish Raghavan. “The hidden assumptions behind counterfactual explanations and principal reasons.” Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
  9. Duong, Tri Dung, Qian Li, and Guandong Xu. “Prototype-based Counterfactual Explanation for Causal Classification.” arXiv preprint arXiv:2105.00703 (2021).
  10. Yadav, Chhavi, and Kamalika Chaudhuri. “Behavior of k-NN as an Instance-Based Explanation Method.” arXiv preprint arXiv:2109.06999 (2021).
  11. Verma, Sahil, John Dickerson, and Keegan Hines. “Counterfactual explanations for machine learning: A review.” arXiv preprint arXiv:2010.10596 (2020).
  12. Thiagarajan, Jayaraman J., et al. “Treeview: Peeking into deep neural networks via feature-space partitioning.” arXiv preprint arXiv:1611.07429 (2016).
  13. Boz, Olcay. “Extracting decision trees from trained neural networks.” Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. 2002.
  14. Santos, Raul T., Júlio C. Nievola, and Alex A. Freitas. “Extracting comprehensible rules from neural networks via genetic algorithms.” 2000 IEEE Symposium on Combinations of Evolutionary Computation and Neural Networks. Proceedings of the First IEEE Symposium on Combinations of Evolutionary Computation and Neural Networks (Cat. No. 00. IEEE, 2000.
  15. Andrews, Robert, Joachim Diederich, and Alan B. Tickle. “Survey and critique of techniques for extracting rules from trained artificial neural networks.” Knowledge-based systems 8.6 (1995): 373-389.
  16. Krishnan, Sanjay, and Eugene Wu. “Palm: Machine learning explanations for iterative debugging.” Proceedings of the 2nd Workshop on Human-In-the-Loop Data Analytics. 2017.
  17. Henelius, Andreas, et al. “A peek into the black box: exploring classifiers by randomization.” Data mining and knowledge discovery 5 (2014): 1503-1529.
  18. Selvaraju, Ramprasaath R., et al. “Grad-cam: Visual explanations from deep networks via gradient-based localization.” Proceedings of the IEEE international conference on computer vision. 2017.
  19. Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Model-agnostic interpretability of machine learning.” arXiv preprint arXiv:1606.05386 (2016).
  20. Gohel, Prashant, Priyanka Singh, and Manoranjan Mohanty. “Explainable AI: current status and future directions.” arXiv preprint arXiv:2107.07045 (2021).
  21. Sari, Leda, Mark Hasegawa-Johnson, and Chang Yoo. “Counterfactually Fair Automatic Speech Recognition.” IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
  22. Francisco Herrera Dataset Shift in Classification: Approaches and Problems http:// iwann.ugr.es/2011/pdf/InvitedTalk-FHerre ra-IWANN11.pdf Retrieved: Sep, 2021
  23. Teney, Damien, Ehsan Abbasnedjad, and Anton van den Hengel. “Learning what makes a difference from counterfactual examples and gradient supervision.” Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part X 16. Springer International Publishing, 2020.
  24. Roelofs, Rebecca, et al. “A meta-analysis of overfitting in machine learning.” Proceedings of the 33rd International Conference on Neural Information Processing Systems. 2019.
  25. Heinze-Deml, Christina, and Nicolai Meinshausen. “Conditional variance penalties and domain shift robustness.” arXiv preprint arXiv:1710.11469 (2017).
  26. Meinshausen, Nicolai. “Causality from a distributional robustness point of view.” 2018 IEEE Data Science Workshop (DSW). IEEE, 2018.
  27. Das, Abhishek, et al. “Human attention in visual question answering: Do humans and deep networks look at the same regions?.” Computer Vision and Image Understanding 163 (2017): 90-100.
  28. Bengio, Yoshua, Yann Lecun, and Geoffrey Hinton. “Deep learning for AI.” Communications of the ACM 64.7 (2021): 58-65.
  29. Madaan, Nishtha, et al. “Generate your counterfactuals: Towards controlled counterfactual generation for text.” arXiv preprint arXiv:2012.04698 (2020).
  30. Ribeiro, M.T., Wu, T., Guestrin, C. and Singh, S. 2020. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList. arXiv preprint arXiv:2005.04118 .
  31. Dathathri, Sumanth, et al. “Plug and play language models: A simple approach to controlled text generation.” arXiv preprint arXiv:1912.02164 (2019).
  32. Vermeire, Tom, and David Martens. “Explainable image classification with evidence counterfactual.” arXiv preprint arXiv:2004.07511 (2020).
  33. Dhurandhar, Amit, et al. “Explanations based on the missing: Towards contrastive explanations with pertinent negatives.” arXiv preprint arXiv:1802.07623 (2018).
  34. SEDC implementation https://github.com/yramon/edc Retrieved: May, 2022
  35. Van der Walt, Stefan, et al. “scikit-image: image processing in Python.” PeerJ 2 (2014): e453.
  36. He, Xin, Kaiyong Zhao, and Xiaowen Chu. “AutoML: A survey of the state-of-the-art.” Knowledge-Based Systems 212 (2021): 106622.
  37. Namiot, Dmitry, Eugene Ilyushin, and Oleg Pilipenko. “On Trusted AI Platforms.” International Journal of Open Information Technologies 10.7 (2022): 119-127. (in Russian)
  38. Ilyushin, Eugene, Dmitry Namiot, and Ivan Chizhov. “Attacks on machine learning systems-common problems and methods.” International Journal of Open Information Technologies 10.3 (2022): 17-22. (in Russian)
  39. Dadhich, Abhinav. Practical Computer Vision: Extract Insightful Information from Images Using TensorFlow, Keras, and OpenCV. Packt Publishing Ltd, 2018.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».