An Algorithm for Selecting Linear Regression Features to Solve the Multicollinearity Problem

Cover Page

Cite item

Full Text

Abstract

The paper considers the problem of selecting linear regression factors using an optimization model that includes characteristics of the relationship of features, as well as the dependence of the feature and the effective indicator. To solve it, it is proposed to reformulate the original problem in the form of an inverse while minimizing the sum of the absolute values of the arguments. The results of computational experiments, including comparison with nonlinear programming methods implemented in mathematical packages and the Python library, demonstrated the high efficiency of the proposed algorithm for solving the modified problem.

About the authors

Ekaterina B. Gribanova

Tomsk state university of control systems and radioelectronics

Author for correspondence.
Email: ekaterina.b.gribanova@tusur.ru

Doctor of technical sciences, docent, Associate Professor

Russian Federation, Tomsk

References

  1. Zhao С., Wu M., Liu J., Duan Z., Li J., Shen L., Shangguan X., Liu D., Wang Y. Progress and prospects of data-driven stock price forecasting research // International Journal of Cognitive Computing in Engineering. 2023. V. 4. P. 100–108.
  2. Chen S., Ke S., Han S., Gupta S., Sivarajah U. Which product description phrases affect sales forecasting? An explainable AI framework by integrating WaveNet neural network models with multiple regression // Decision Support Systems. 2023. 114065.
  3. Mekanik F., Imteaz M., Gato-Trinidad S., Elmahdi A. Multiple regression and Artificial Neural Network for longterm rainfall forecasting using large scale climate modes // Journal of Hydrology. 2013. V. 503. P. 11–21.
  4. Busari S., Samson T. Modelling and forecasting new cases of Covid-19 in Nigeria: Comparison of regression, ARIMA and machine learning models // Scientific African. 2022. V. 18. e01404.
  5. Yarahmadi M., MirHassani S., Hooshmand F. Handling the significance of regression coefficients via optimization // Expert Systems with Applications. 2023. V. 238. No 6.121910.
  6. Brooks G., Ruengvirayudh P. Best-subset selection criteria for multiple linear regression // General Linear Model Journal. 2016. V. 42. No 2. P. 18-25.
  7. Tsagris M., Pandis N. Multicollinearity // Statistics and research design. 2021. V. 159. No 5. P. 695–696.
  8. Kurita T. Principal Component Analysis (PCA) // Computer Vision. 2020. P. 1-4.
  9. Hamaker H. On multiple regression analysis // Statistica Neerlandica. 1962. V. 16. P. 31–56.
  10. Efron B., Hastie T., Johnstone J., Tibshirani R. Least Angle Regression // The Annals of Statistics. 2004. V. 32. No 2. P. 407–499.
  11. Bertsimas D., King A., Mazumder R. Best Subset Selection via a Modern Optimization Lens // Annals of Statistics. 2016. V. 44. No 22. P. 813-852.
  12. Wang J., Wang, L. A cooperative memetic algorithm with feedback for the energy-aware distributed flow-shops with flexible assembly scheduling // Computers and Industrial Engineering. 2022. V. 168. P. 108-126.
  13. Garg R., Khandekar R. Gradient descent with sparsification: an iterative algorithm for sparse recovery with restricted isometry property // Proceedings of the 26th Annual International Conference on Machine Learning. 2009. P. 37–344.
  14. Blumensath T., Davies M. Iterative hard thresholding for compressed sensing // Applied and Computational Harmonic Analysis. 2009. V. 27. No 3. P. 265–274.
  15. Kapetanios G. Variable selection in regression models using non-stantard optimisation of information criteria // Computational Statistics & Data Analysis. 2006. V. 52. No 1. P. 4-15.
  16. Rodrigues D., Hugo V., Albuquerque C., Papa J. A multiobjective artificial butterfly optimization approach for feature selection // Applied Soft Computing. 2020. V. 94. 106442.
  17. Askr H., Abdel-Salam M., Hassanien A. Copula entropybased golden jackal optimization algorithm for high-dimensional feature selection problems // Expert Systems with Applications. 2024. V. 238. 121582.
  18. Katrutsa A., Strijov V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with Applications. 2017. V. 76. P. 1–11.
  19. Zhu Z., Zhang W., Geng Z. A feasible SQP method for nonlinear programming // Applied Mathematics and Computation. 2010. V. 215. No 11. P. 3956–3969.
  20. Beck A., Teboulle M. Mirror descent and nonlinear projected subgradient methods for convex optimization // Operations Research Letters. 2003. V. 31. No 3. P. 167–175.
  21. Storn R., Price K. Differential Evolution – A Simple and Efficient Heuristic for global Optimization over Continuous Spaces // Journal of Global Optimization. 1997. V. 11. P. 341–359.
  22. Gribanova E.B. Stohasticheskie algoritmy reshenija obratnyh zadach jekonomicheskogo analiza s ogranichenijami [Stochastic algorithms to solve the economic analysis inverse problems with constraints] // Doklady Tomskogo gosudarstvennogo universiteta sistem upravlenija i radiojelektroniki [Proceedings of TUSUR University]. 2016. No 4. P. 112–116.
  23. Gribanova E.B. Metody reshenija obratnyh zadach jekonomicheskogo analiza s pomoshh'ju minimizacii prirashhenij argumentov [Methods for solving inverse problems of economic analysis by minimizing argument increments] // Doklady Tomskogo gosudarstvennogo universiteta sistem upravlenija i radiojelektroniki [Proceedings of TUSUR University]. 2018. No 2. P. 95–99.
  24. Gribanova E.B. Development of iterative algorithms for solving the inverse problem using inverse calculations // Eastern-European Journal of Enterprise Technologies. 2020. No 4 (3). P. 27–34.
  25. Gribanova E.B. An Iterative Algorithm for Solving Inverse Problems of Economic Analysis Using Weighting Factors. Advances in Engineering Research. New York: Nova Publishers, 2021. P. 49–79.
  26. Ahuja R.K., Orlin J.B. Inverse Optimization, Part1: Linear Programming and General Problem. Cambridge: MIT, 1998.
  27. Gribanova E. Elaboration of an Algorithm for Solving Hierarchical Inverse Problems in Applied Economics // Mathematics. 2022. V. 10. 2779.
  28. Gribanova E.B. Algorithm for solving the inverse problems of economic analysis in the presence of limitations // EUREKA: Physics and Engineering. 2020. No 1. Р. 70–78.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».