Comparison of the Methodology for Hypothesis Testing of the Independence of Two-Dimensional Random Variables Based on a Nonparametric Classifier

Cover Page

Cite item

Full Text

Abstract

The properties of a new method for hypothesis testing of the independence of random variables based on the use of a nonparametric pattern recognition algorithm corresponding to the maximum likelihood criterion are considered. The estimation of the distribution laws in classes is carried out according to the initial statistical data under the assumption of independence and dependence of the analyzed random variables. Under these conditions, estimates of the probabilities of pattern recognition errors in classes are calculated. According to their minimum value, a decision is made on the independence or dependence of random variables. The results of the proposed method are compared with the Pearson criterion and the Pearson, Spearman and Kendall correlation coefficients. When implementing the Pearson criterion, the formula for optimal discretization of the range of values of a two-dimensional random variable is used. Their effectiveness in complicating the dependence between random variables and changing the volume of initial statistical data is studied by the method of computational experiment.

About the authors

Alexander V. Lapko

Institute of Computational Modelling SB RAS; Reshetnev Siberian State University of Science and Technology

Author for correspondence.
Email: lapko@icm.krasn.ru

Doctor of Science in technology, professor, Honored worker of science of the Russian Federation, Chief researcher, Professor of the Department of space facilities and technologies

Russian Federation, Krasnoyarsk; Krasnoyarsk

Vasiliy А. Lapko

Institute of Computational Modelling SB RAS; Reshetnev Siberian State University of Science and Technology

Email: lapko@icm.krasn.ru

Doctor of Science in technology, professor, Leading researcher, Head of the Department of space facilities and technologies

Russian Federation, Krasnoyarsk; Krasnoyarsk

Anna V. Bakhtina

Reshetnev Siberian State University of Science and Technology

Email: anna-denisyuk@yandex.ru

Head of the Remote Sensing Laboratory

Russian Federation, Krasnoyarsk

References

  1. Pugachev V.S., eds. 2002. Teoriya veroyatnostey i matematicheskaya statistika [Probability theory and mathematical statistics]. Moscow: Fizmatlit Publs. 496 p.
  2. Lapko A.V., V.A. Lapko. 2010. Nonparametric algorithms of pattern recognition in the problem of testing a statistical hypothesis on identity of two distribution laws of random variables. Optoelectronics, Instrumentation and Data Processing. 46(6):545-550.
  3. Lapko A.V., V.A. Lapko. 2012. Comparison of empirical and theoretical distribution functions of a random variable on the basis of a nonparametric classifier. Optoelectronics, Instrumentation and Data Processing. 48(1):37-41.
  4. Lapko A.V., V.A. Lapko. 2019. A technique for testing hypotheses for distributions of multidimensional spectral data using a nonparametric pattern recognition algorithm. Computer Optics. 43(2):238-244.
  5. Lapko A.V., V.A. Lapko. 2021. Testing the Hypothesis of the Independence of Two-Dimensional Random Variables Using a Nonparametric Algorithm for Pattern Recognition. Optoelectronics, Instrumentation and Data Processing. 57(2):149–155.
  6. Parzen E. 1962. On estimation of a probability density function and mode. Annals of Mathematical Statistics. 33(3):1065-1076.
  7. Epanechnikov V.A. 1969. Non-Parametric Estimation of a Multivariate Probability Density. Theory of Probability & Its Applications. 14(1):156-161.
  8. Lapko A.V., A.V. Medvedev, E.A. Tishina. 1975. K optimizatsii neparametricheskikh otsenok [To the optimization of nonparametric estimates]. Sbornik nauchnykh trudov “Algoritmy i programmy dlya sistem avtomatizatsii eksperimental'nykh issledovaniy” [Collection of scientific papers “Algorithms and programs for automation systems of experimental research”]. Frunze: Ilim Publs.:105116.
  9. Rudemo M. 1982. Empirical choice of histogram and kernel density estimators. Scandinavian Journal of Statistics. 9(2):65-78.
  10. Bowman A.W. 1982. A comparative study of some kernel-based non-parametric density estimators. Journal of Statistical Computation and Simulation. 21:313-327.
  11. Hall P. 1983. Large-sample optimality of least squares cross-validation in density estimation. Annals of Statistics. 11(4):1156-1174.
  12. Jiang M., and S.B. Provost. 2014. A hybrid bandwidth selection methodology for kernel density estimation. Journal of Statistical Computation and Simulation. 84(3):614-627.
  13. Dutta S. 2016. Cross-validation revisited. Communications in Statistics Simulation and Computation. 45(2):472-490.
  14. Heidenreich N.B., A. Schindler, S. Sperlich. 2013. Bandwidth selection for kernel density estimation: a review of fully automatic selectors. AStA Advances in Statistical Analysis. 97:403-433.
  15. Li Q., Racine J.S. 2007. Nonparametric Econometrics: Theory and Practice. Princeton: Princeton University Press Publs. 768 p.
  16. Lapko A.V., V.A. Lapko. 2019. Method of fast bandwidth selection in a nonparametric classifier corresponding to the a posteriori probability maximum criterion. Optoelectronics, Instrumentation and Data Processing. 55(6):597-605.
  17. Lapko A.V., V.A. Lapko. 2020. Modified Fast Algorithm for the Bandwidth Selection of the Kernel Density Estimation. Optoelectronics, Instrumentation and Data Processing. 56(6):566–572.
  18. Scott D.W. 2015. Multivariate density estimation: Theory, Practice, and Visualization. New Jersey: John Wiley & Sons. 384 p.
  19. Sheather S.J. 2004. Density estimation. Statistical Science. 19(4):588-597.
  20. Silverman B.W. 1986. Density estimation for statistics and data analysis. London: Chapman and Hall. 175 p.
  21. Lapko A.V., V.A. Lapko. 2021. Estimation of a nonlinear functional of probability density when optimizing nonparametric decision functions. Measurement Techniques. 64(1):13–20.
  22. Lapko A.V., and V.A. Lapko. 2016. Selection of the Optimal Number of Intervals Sampling the Region of Values of a Two-Dimensional Random Variable. Measurement Techniques. 59(2):122–126.
  23. Lapko A.V., V.A. Lapko. 2018. Estimation of parameters of the formula for optimal discretization of the range of values of a two-dimensional random variable. Measurement Techniques. 61(5):427–433.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».