Аннотация
В статье представлен сравнительный анализ подходов к распределению и классификации текстовых документов социальных сетей. Рассмотрены методы кластеризации, классификации и анализа тональности, применяемые в социальных сетях VKontakte, Facebook, Twitter и Instagram. Проведено сравнение результатов, полученных с использованием алгоритмов K-Means, SVM, Naive Bayes, KNN, LSTM, OLS и ансамблевых моделей. Также проанализирована эффективность методов предварительной обработки текста, таких как TF-IDF, Bag-of-Words, N-gram, POS-tagging и stemming. Результаты исследования показывают, что использование больших массивов данных и гибридных моделей существенно повышает точность анализа и имеет практическое значение для систем мониторинга социальных медиа и раннего выявления потенциально опасного контента.
Библиографические ссылки
Smith J., Brown T. Social Media Text Mining Techniques. – Journal of Data Science, 2018.
Ivanov P. Hybrid Clustering in VKontakte Analysis. – Information Technologies, 2019.
Kumar A., Singh R. Sentiment Analysis using SVM and Naive Bayes. – IEEE Access, 2020.
Boyd D., Ellison N. Social Network Sites: Definition and History. – Journal of Computer-Mediated Communication, 2007.
Chen L. Deep Learning for Social Media Analytics. – Springer, 2021.
VKontakte Data Analysis using SVM and TF-IDF Methods. – Applied Informatics, 2019.
Kohonen T. Self-Organizing Maps. – Springer, 2001.
Facebook User Interaction Patterns Study. – Social Media Research, 2017.
Twitter Data Mining Framework. – ACM Digital Library, 2018.
Instagram Clustering using K-Means. – International Journal of Computer Applications, 2020.
Apache Spark for Social Media Profiling. – Big Data Analytics, 2019.
LSTM-based Sentiment Analysis Model. – Neural Networks Journal, 2020.