Алгоритм выбора признаков линейной регрессии для решения проблемы мультиколлинеарности

Обложка

Цитировать

Полный текст

Аннотация

В работе рассматривается задача отбора факторов линейной регрессии с помощью оптимизационной модели, включающей характеристики связи признаков, а также зависимости признака и результативного показателя. Для ее решения предлагается переформулирование исходной задачи в виде обратной при минимизации суммы абсолютных значений аргументов. Результаты вычислительных экспериментов, включающие сравнение с методами нелинейного программирования, реализованными в математических пакетах и библиотеке Python, продемонстрировали высокую эффективность предложенного алгоритма решения модифицированной задачи.

Об авторах

Екатерина Борисовна Грибанова

Томский государственный университет систем управления и радиоэлектроники

Автор, ответственный за переписку.
Email: ekaterina.b.gribanova@tusur.ru

доктор технических наук, доцент

Россия, Томск

Список литературы

  1. Zhao С., Wu M., Liu J., Duan Z., Li J., Shen L., Shangguan X., Liu D., Wang Y. Progress and prospects of data-driven stock price forecasting research // International Journal of Cognitive Computing in Engineering. 2023. V. 4. P. 100–108.
  2. Chen S., Ke S., Han S., Gupta S., Sivarajah U. Which product description phrases affect sales forecasting? An explainable AI framework by integrating WaveNet neural network models with multiple regression // Decision Support Systems. 2023. 114065.
  3. Mekanik F., Imteaz M., Gato-Trinidad S., Elmahdi A. Multiple regression and Artificial Neural Network for longterm rainfall forecasting using large scale climate modes // Journal of Hydrology. 2013. V. 503. P. 11–21.
  4. Busari S., Samson T. Modelling and forecasting new cases of Covid-19 in Nigeria: Comparison of regression, ARIMA and machine learning models // Scientific African. 2022. V. 18. e01404.
  5. Yarahmadi M., MirHassani S., Hooshmand F. Handling the significance of regression coefficients via optimization // Expert Systems with Applications. 2023. V. 238. No 6. 121910.
  6. Brooks G., Ruengvirayudh P. Best-subset selection criteria for multiple linear regression // General Linear Model Journal. 2016. V. 42. No 2. P. 18-25.
  7. Tsagris M., Pandis N. Multicollinearity // Statistics and research design. 2021. V. 159. No 5. P. 695–696.
  8. Kurita T. Principal Component Analysis (PCA) // Computer Vision. 2020. P. 1-4.
  9. Hamaker H. On multiple regression analysis // Statistica Neerlandica. 1962. V. 16. P. 31–56.
  10. Efron B., Hastie T., Johnstone J., Tibshirani R. Least Angle Regression // The Annals of Statistics. 2004. V. 32. No 2. P. 407–499.
  11. Bertsimas D., King A., Mazumder R. Best Subset Selection via a Modern Optimization Lens // Annals of Statistics. 2016. V. 44. No 22. P. 813-852.
  12. Wang J., Wang, L. A cooperative memetic algorithm with feedback for the energy-aware distributed flow-shops with flexible assembly scheduling // Computers and Industrial Engineering. 2022. V. 168. P. 108-126.
  13. Garg R., Khandekar R. Gradient descent with sparsification: an iterative algorithm for sparse recovery with restricted isometry property // Proceedings of the 26th Annual International Conference on Machine Learning. 2009. P. 337–344.
  14. Blumensath T., Davies M. Iterative hard thresholding for compressed sensing // Applied and Computational Harmonic Analysis. 2009. V. 27. No 3. P. 265–274.
  15. Kapetanios G. Variable selection in regression models using non-stantard optimisation of information criteria // Computational Statistics & Data Analysis. 2006. V. 52. No 1. P. 4-15.
  16. Rodrigues D., Hugo V., Albuquerque C., Papa J. A multiobjective artificial butterfly optimization approach for feature selection // Applied Soft Computing. 2020. V. 94. 106442.
  17. Askr H., Abdel-Salam M., Hassanien A. Copula entropybased golden jackal optimization algorithm for high-dimensional feature selection problems // Expert Systems with Applications. 2024. V. 238. 121582.
  18. Katrutsa A., Strijov V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications. 2017. V. 76. P. 1–11.
  19. Zhu Z., Zhang W., Geng Z. A feasible SQP method for nonlinear programming // Applied Mathematics and Computation. 2010. V. 215. No 11. P. 3956–3969.
  20. Beck A., Teboulle M. Mirror descent and nonlinear projected subgradient methods for convex optimization // Operations Research Letters. 2003. V. 31. No 3. P. 167–175.
  21. Storn R., Price K. Differential Evolution – A Simple and Efficient Heuristic for global Optimization over Continuous Spaces // Journal of Global Optimization. 1997. V. 11. P. 341–359.
  22. Грибанова Е.Б. Стохастические алгоритмы решения обратных задач экономического анализа с ограничениями // Доклады Томского государственного университета систем управления и радиоэлектроники. 2016. № 4. С. 112–116.
  23. Грибанова Е.Б. Методы решения обратных задач экономического анализа с помощью минимизации приращений аргументов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2018. № 2. С. 95–99.
  24. Gribanova E.B. Development of iterative algorithms for solving the inverse problem using inverse calculations // Eastern-European Journal of Enterprise Technologies. 2020. No 4 (3). P. 27–34.
  25. Gribanova E.B. An Iterative Algorithm for Solving Inverse Problems of Economic Analysis Using Weighting Factors. Advances in Engineering Research. New York: Nova Publishers, 2021. P. 49–79.
  26. Ahuja R.K., Orlin J.B. Inverse Optimization, Part1: Linear Programming and General Problem. Cambridge: MIT, 1998.
  27. Gribanova E. Elaboration of an Algorithm for Solving Hierarchical Inverse Problems in Applied Economics // Mathematics. 2022. V. 10. 2779.
  28. Gribanova E.B. Algorithm for solving the inverse problems of economic analysis in the presence of limitations // EUREKA: Physics and Engineering. 2020. No 1. Р. 70–78.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».