Аннотация
В статье представлен углубленный анализ теоретических подходов к обнаружению и заполнению пропущенных (NaN) значений в информационных системах. Качество набора данных напрямую влияет на надежность и эффективность процессов анализа разведывательной информации. Поэтому алгоритмы устранения значений NaN становятся актуальной проблемой современных информационных технологий. В статье теоретически изучены 7 основных методов — среднее значение, медиана, мода, регрессия, метод K-ближайших соседей (KNN), интерполяция и дополнение с использованием искусственных нейронных сетей. Каждый метод оценивался по критериям вычислительной сложности, влияния на дисперсию, уровня чувствительности к модели, точности прогнозирования и адаптивности к типам данных. В исследовании проанализированы сильные и слабые стороны методов и обоснована необходимость выбора оптимального подхода для различных контекстов. Также были высказаны перспективы разработки комплексных подходов с использованием комбинированных (гибридных) алгоритмов. Статья служит важной теоретической основой для повышения качества интеллектуального анализа в информационных системах, обеспечения точности моделей искусственного интеллекта и эффективной организации процессов цифровой трансформации.
Библиографические ссылки
Little R.J.A., Rubin D.B. Statistical Analysis with Missing Data. 2nd ed. — Hoboken: Wiley, 2019. — 408 p.
Van Buuren S. Flexible Imputation of Missing Data. 2nd ed. — Boca Raton: CRC Press, 2018. — 352 p.
Zhang S., Yao L., Sun A., Tay Y. Deep Learning Based Missing Data Imputation: A Survey. // IEEE Transactions on Knowledge and Data Engineering. — 2021. — Vol. 34(1). — P. 1–18.
Batista G.E.A.P.A., Monard M.C. A study of K-Nearest Neighbour as an imputation method. // Proceedings of the 2002 Brazilian Symposium on Artificial Intelligence. — Springer, 2002. — P. 251–260.
Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. 3rd ed. — Melbourne: OTexts, 2020. — [Online]. Available: https://otexts.com/fpp3/
Yoon J., Jordon J., van der Schaar M. GAIN: Missing Data Imputation using Generative Adversarial Nets. // Proceedings of the 35th International Conference on Machine Learning (ICML), 2018. — P. 5689–5698.
Pedregosa F. et al. Scikit-learn: Machine Learning in Python. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825–2830.
Jerez J.M. et al. Missing Data Imputation Using Statistical and Machine Learning Methods in a Real Breast Cancer Problem. // Artificial Intelligence in Medicine. — 2010. — Vol. 50(2). — P. 105–115.
Rubin D.B. Multiple Imputation for Nonresponse in Surveys. — New York: Wiley, 1987. — 258 p.
Schafer J.L. Analysis of Incomplete Multivariate Data. — London: Chapman & Hall, 1997. — 421 p.
Andridge R.R., Little R.J.A. A Review of Hot Deck Imputation for Survey Nonresponse. // International Statistical Review. — 2010. — Vol. 78(1). — P. 40–64.