COMPARATIVE ANALYSIS OF THE USE OF DECISION TREES AND LASSO REGRESSION

Мұқаба

Дәйексөз келтіру

Толық мәтін

Ашық рұқсат Ашық рұқсат
Рұқсат жабық Рұқсат берілді
Рұқсат жабық Тек жазылушылар үшін

Аннотация

The paper considers the issue of comparing two methods of analyzing the relationships between sets of natural numbers ordered in ascending order: decision trees and Lasso regression. A comparative analysis of the positive and negative aspects of using both methods is carried out. The simplicity of calculations, the visibility of the obtained model and its informative value are evaluated. Finally, recommendations are given on choosing a method for analyzing correlations between sets of natural numbers.

Авторлар туралы

V. Leonov

FRC CSC RAS

Хат алмасуға жауапты Автор.
Email: m.nor@ro.ru
Moscow, Russia

M. Norokesku

FRC CSC RAS

Email: m.nor@ro.ru
Moscow, Russia

Әдебиет тізімі

  1. Задачи и технологии анализа данных [электронный ресурс] // Задачи и технологии анализа данных АНАЛИТИКА ПЛЮС. Режим доступа: https://analytikaplus.ru/zadachi-i-tehnologii-analiza-dannyh/ (дата обращения: 17.12.2024).
  2. Саадалов Т.Ы., Мырзаибраимов Р.М., Абдуллаева Ж.Д. Методика расчета коэффициента корреляции фехнера и пирсона, и их области применения // Бюллетень науки и практики. 2021. №10. URL: https://cyberleninka.ru/article/n/metodika-rascheta-koeffitsienta-korrelyatsii-fehnera-i-pirsona-i-ih-oblasti-primeneniya (дата обращения: 03.12.2024).
  3. Кузовлев В.И., Орлов А.О. Метод выявления аномалий в исходных данных при построении прогнозной модели решающего дерева в системах поддержки принятия решений // Машиностроение и компьютерные технологии. 2012. №09. URL: https://cyberleninka.ru/article/n/metod-vyyavleniya-anomaliy-v-ishodnyh-dannyh-pri-postroenii-prognoznoy-modeli-reshayuschego-dereva-v-sistemah-podderzhki-prinyatiya (дата обращения: 03.12.2024).
  4. Чернавин П.Ф., Чернавин Н.П., Чернавин Ф.П. Управление качеством моделей регрессии на основе задач математического программирования // Автоматизация и моделирование в проектировании и управлении. 2023. №2 (20). URL: https://cyberleninka.ru/article/n/upravlenie-kachestvom-modeley-regressii-na-osnove-zadach-matematicheskogo-programmirovaniya (дата обращения: 03.12.2024).
  5. Евдокимов И.А., Солодовников В.И., Филипков С.В. Использование деревьев решений для интеллектуального анализа данных и извлечения правил из нейронных сетей // Новые информационные технологии в автоматизированных системах. 2012. №15. URL: https://cyberleninka.ru/article/n/ispolzovanie-dereviev-resheniy-dlya-intellektualnogo-analiza-dannyh-i-izvlecheniya-pravil-iz-neyronnyh-setey (дата обращения: 03.12.2024).
  6. Абрамов Р. Что такое дерево решений и где его используют? [электронный ресурс] // Habr. Режим доступа: https://habr.com/ru/users/Productstar/ (дата обращения: 17.04.2024).
  7. Использование деревьев решений в задачах прогнозной аналитики [электронный ресурс] // Компания “Форсайт”. Режим доступа: https://www.fsight.ru/blog/ispolzovanie-derevev-reshenij-v-zadachah-prognoznoj-analitiki/ (дата обращения: 17.04.2024).
  8. Толмачев А., Классен Н. Для чего начинающим аналитикам нужны деревья решений [электронный ресурс] // Дерево решений: что это, в чем суть, виды, преимущества метода - структура деревьев, этапы построения. Режим доступа: https://practicum.yandex.ru/blog/chto-takoe-derevo-reshenii-kak-ego-postroit/ (дата обращения: 17.04.2024).
  9. Пшеничнов А. 5 алгоритмов регрессии в машинном обучении, о которых вам следует знать [электронный ресурс] // Habr. Режим доступа: https://habr.com/ru/companies/vk/articles/513842/ (дата обращения: 17.04.2024).
  10. What is lasso regression? [электронный ресурс] // IBM. Режим доступа: https://www.ibm.com/think/topics/lasso-regression (дата обращения: 17.04.2024).
  11. Ивин Е.А., Артамонов Н.В., Курбацкий А.Н. Методическое пособие по эконометрике: для социально-экономических специальностей. Вологда: ИСЭРТ РАН, 2016. 184 с.
  12. Кремер Н.Ш., Путко Б.А. Эконометрика: учебник для студентов вузов. 3-е изд., перераб. и доп. М.: ЮНИТИ-ДАНА, 2010. 328 с.
  13. Кремер Н.Ш., Путко Б.А. Эконометрика. М.: Юнити-Дана, 2003–2004. 311 с.
  14. Синицин Ф., Соколов Е. Линейные модели от линейной до логистической регрессии. Регуляризация, работа с категориальными признаками, многоклассовая классификация [электронный ресурс] // Учебник по машинному обучению. Режим доступа: https://education.yandex.ru/handbook/ml/article/linear-models (дата обращения: 10.05.2025).
  15. Jamal I. Daoud. Multicollinearity and Regression Analysis // 4th Intern. Conf. on Mathematical Applications in Engineering 2017 (ICMAE’17, International Islamic University Malaysia, Kuala Lumpur, Malaysia. Bristol: “IOPscience”, 2017. 227 p.
  16. Hastie T. The Elements of Statistical Learning: Data Mining, Inference, and Prediction: 2nd ed. Springer, 2017. 764 p.
  17. Жукова А.А., Минец М.Л. Биометрия: пособие. В 3 ч. Ч. 3. Корреляция и регрессия. Минск: БГУ, 2021. 103 с.
  18. Kotsiantis S.B., Kanellopoulos D., Pintelas P.E. Decision Trees: A Recent Overview. WSEAS Transactions on Computers. 2022. V. 21. P. 123–134.
  19. Zhang Y., Wang X., Li J. Ensemble Learning Methods: A Survey and Recent Advances. Information Fusion. 2023. V. 82. P. 10–28.
  20. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. Classification and Regression Trees. Boca Raton: CRC Press, 2017. 368 p.
  21. Lin Y., Hu R., Karypis G. Generalized and Scalable Optimal Sparse Decision Trees Proc. 26th ACM SIGKDD Intern. Conf. on Knowledge Discovery & Data Mining. Toronto: KDD, 2020. P. 428–438.
  22. Mohri M., Rostamizadeh F., Talwalkar F. Foundations of Machine Learning. 2nd ed. Cambrige: MIT Press, 2018. 640 p.
  23. Shalev-Shwartz S., Ben-David S. Understanding Machine Learning: From Theory to Algorithms. N. Y.: Cambridge University Press, 2014. 449 p.
  24. James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R. 2nd ed. N. Y.: Springer, 2024. 500 p.
  25. Hastie T., Tibshirani R., Wainwright M. Statistical Learning with Sparsity: The Lasso and Generalizations. 2nd ed. N. Y.: Chapman and Hall/CRC, 2024. 400 p.
  26. Friedman J., Hastie T., Tibshirani R. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 3rd ed. N. Y.: Springer, 2024. 800 p.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

© Russian Academy of Sciences, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».