ТЕОРЕТИЧЕСКИЙ АНАЛИЗ АЛГОРИТМОВ ОБРАБОТКИ ПРОПУЩЕННЫХ (NAN) ЗНАЧЕНИЙ ПРИ ИНТЕЛЛЕКТУАЛЬНОМ АНАЛИЗЕ ДАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
PDF (English)

Ключевые слова

значения NaN, информационная система, анализ интеллекта, алгоритмы импутации, искусственный интеллект, качество данных, статистический вывод, глубокое обучение, CNN, нейронная сеть, регрессия, интерполяция, очистка данных.

Аннотация

В статье представлен углубленный анализ теоретических подходов к обнаружению и заполнению пропущенных (NaN) значений в информационных системах. Качество набора данных напрямую влияет на надежность и эффективность процессов анализа разведывательной информации. Поэтому алгоритмы устранения значений NaN становятся актуальной проблемой современных информационных технологий. В статье теоретически изучены 7 основных методов — среднее значение, медиана, мода, регрессия, метод K-ближайших соседей (KNN), интерполяция и дополнение с использованием искусственных нейронных сетей. Каждый метод оценивался по критериям вычислительной сложности, влияния на дисперсию, уровня чувствительности к модели, точности прогнозирования и адаптивности к типам данных. В исследовании проанализированы сильные и слабые стороны методов и обоснована необходимость выбора оптимального подхода для различных контекстов. Также были высказаны перспективы разработки комплексных подходов с использованием комбинированных (гибридных) алгоритмов. Статья служит важной теоретической основой для повышения качества интеллектуального анализа в информационных системах, обеспечения точности моделей искусственного интеллекта и эффективной организации процессов цифровой трансформации.

PDF (English)

Библиографические ссылки

Little R.J.A., Rubin D.B. Statistical Analysis with Missing Data. 2nd ed. — Hoboken: Wiley, 2019. — 408 p.

Van Buuren S. Flexible Imputation of Missing Data. 2nd ed. — Boca Raton: CRC Press, 2018. — 352 p.

Zhang S., Yao L., Sun A., Tay Y. Deep Learning Based Missing Data Imputation: A Survey. // IEEE Transactions on Knowledge and Data Engineering. — 2021. — Vol. 34(1). — P. 1–18.

Batista G.E.A.P.A., Monard M.C. A study of K-Nearest Neighbour as an imputation method. // Proceedings of the 2002 Brazilian Symposium on Artificial Intelligence. — Springer, 2002. — P. 251–260.

Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. 3rd ed. — Melbourne: OTexts, 2020. — [Online]. Available: https://otexts.com/fpp3/

Yoon J., Jordon J., van der Schaar M. GAIN: Missing Data Imputation using Generative Adversarial Nets. // Proceedings of the 35th International Conference on Machine Learning (ICML), 2018. — P. 5689–5698.

Pedregosa F. et al. Scikit-learn: Machine Learning in Python. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825–2830.

Jerez J.M. et al. Missing Data Imputation Using Statistical and Machine Learning Methods in a Real Breast Cancer Problem. // Artificial Intelligence in Medicine. — 2010. — Vol. 50(2). — P. 105–115.

Rubin D.B. Multiple Imputation for Nonresponse in Surveys. — New York: Wiley, 1987. — 258 p.

Schafer J.L. Analysis of Incomplete Multivariate Data. — London: Chapman & Hall, 1997. — 421 p.

Andridge R.R., Little R.J.A. A Review of Hot Deck Imputation for Survey Nonresponse. // International Statistical Review. — 2010. — Vol. 78(1). — P. 40–64.