СРАВНИТЕЛЬНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ ПОДХОДОВ К РАСПРЕДЕЛЕНИЮ ТЕКСТОВЫХ ДОКУМЕНТОВ СОЦИАЛЬНЫХ СЕТЕЙ
PDF (English)

Ключевые слова

социальные сети, кластеризация, K-Means, SVM, анализ тональности, TF-IDF, ансамблевая модель, классификация текста.

Аннотация

В статье представлен сравнительный анализ подходов к распределению и классификации текстовых документов социальных сетей. Рассмотрены методы кластеризации, классификации и анализа тональности, применяемые в социальных сетях VKontakte, Facebook, Twitter и Instagram. Проведено сравнение результатов, полученных с использованием алгоритмов K-Means, SVM, Naive Bayes, KNN, LSTM, OLS и ансамблевых моделей. Также проанализирована эффективность методов предварительной обработки текста, таких как TF-IDF, Bag-of-Words, N-gram, POS-tagging и stemming. Результаты исследования показывают, что использование больших массивов данных и гибридных моделей существенно повышает точность анализа и имеет практическое значение для систем мониторинга социальных медиа и раннего выявления потенциально опасного контента.

PDF (English)

Библиографические ссылки

Smith J., Brown T. Social Media Text Mining Techniques. – Journal of Data Science, 2018.

Ivanov P. Hybrid Clustering in VKontakte Analysis. – Information Technologies, 2019.

Kumar A., Singh R. Sentiment Analysis using SVM and Naive Bayes. – IEEE Access, 2020.

Boyd D., Ellison N. Social Network Sites: Definition and History. – Journal of Computer-Mediated Communication, 2007.

Chen L. Deep Learning for Social Media Analytics. – Springer, 2021.

VKontakte Data Analysis using SVM and TF-IDF Methods. – Applied Informatics, 2019.

Kohonen T. Self-Organizing Maps. – Springer, 2001.

Facebook User Interaction Patterns Study. – Social Media Research, 2017.

Twitter Data Mining Framework. – ACM Digital Library, 2018.

Instagram Clustering using K-Means. – International Journal of Computer Applications, 2020.

Apache Spark for Social Media Profiling. – Big Data Analytics, 2019.

LSTM-based Sentiment Analysis Model. – Neural Networks Journal, 2020.