Web Application with GUI for Data Analysis Automation

Cover Page

Cite item

Full Text

Abstract

In the current digital age, the world has a huge amount of data. Therefore, people are more and more confronted with the use of such methods as data analysis and machine learning. Moreover, many people are considering using machine learning algorithms for their own purposes. However, data analysis is a complex process that can hardly be carried out by people who do not have sufficient knowledge both in this field and in programming. This paper presents an approach to give non-expert users the ability to apply machine learning algorithms to their datasets using an application with a graphical interface. There are a lot of challenges involved in creating ML-solutions, even if we take advantage of existing ML-algorithms: feature engineering, outliers’ detection, filling the missing values, ML-method’s hyperparameters optimization and so on. The main point of the research is to find a balance in solving these complex tasks and to provide a Web-based user interface for unexperienced people to enable them to utilize the power of ML-methods in automatic or semi-automatic way. The practical outcome is an information system development, that consists of three interrelated parts: a web application, an API and several microservices that implement ML-algorithms from Scikit-learn library.

About the authors

M. S. Manakhova

National Research University Higher School of Economics

Email: mmanakhova@hse.ru
Russian Federation, 11 Pokrovsky boul., Moscow, 109028

V. A. Dudarev

A.A. Baikov Institute of Metallurgy and Materials Science of RAS

Author for correspondence.
Email: vic@imet.ac.ru

PhD

Russian Federation, 49, Leninsky pr., Moscow, 119334

References

  1. Sarker, I.H. 2021. Machine Learning: Algorithms, real-world applications and research directions. SN Computer Science 2. Available at: https://doi. org/10.1007/s42979-021-00592-x (accessed November 15, 2021).
  2. Kumar Y., Kaur K., Singh G. 2020. Machine learning aspects and its applications towards different research areas. 2020 International Conference on Computation, Automation and Knowledge Management (ICCAKM) Proceedings. Dubai. 150-156.
  3. Angra S., Ahuja S. 2017. Machine learning and its applications: A review. 2017 International Conference on Big Data Analytics and Computational Intelligence (ICBDAC) Proceedings. Chirala. 57-60.
  4. Santu S. K. K., Hassan M. M., Smith M. J., Xu L., Zhai C., Veeramachaneni K. 2022. AutoML to Date and Beyond: Challenges and Opportunities. ACM Computing Surveys (CSUR) 54(8). Available at: https://doi.org/10.1145/3470918 (accessed November 17, 2022).
  5. Harrison M., eds. 2019. Machine Learning Pocket Reference: Working with Structured Data in Python. 1st ed. Sebastopol, CA, USA: O’Reilly Media. 320 p.
  6. Micci-Barreca D. 2001. A preprocessing scheme for high-cardinality categorical attributes in classification and prediction problems. SIGKDD Explorations 3(1). Available at: https://doi.org/10.1145/507533.507538 (accessed March 31, 2022).
  7. Jović A., Brkić K., Bogunović N. 2015. A review of feature selection methods with applications. 2015 38th International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO). Opatija. 1200-1205.
  8. Waring J., Lindvall C., Umeton R. 2020. Automated machine learning: Review of the state-of-the-art and opportunities for healthcare. Artificial Intelligence in Medicine 104. Available at: https://doi. org/10.1016/j.artmed.2020.101822 (accessed November 21, 2021).
  9. Pedregosa F. et al. 2011. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research 12. Available at: https://doi.org/10.48550/ arXiv.1201.0490 (accessed May 12, 2022).

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».