Abstract
В работе проведено сравнительное исследование трех методов формирования ответов в диалоговых системах: TF-IDF, BM25 и генеративного подхода.
Результаты демонстрируют превосходство BM25 по показателю релевантности ответов (4.40/5.0) при оптимальном времени выполнения (0.156 мс), в то время как генеративный подход показал наивысшую скорость работы (0.010 мс) при снижении качества ответов.
Автоматические метрики BLEU и ROUGE показали ограниченную эффективность в оценке качества диалоговых систем [1, 2].
References
Papineni K., Roukos S., Ward T., Zhu W. J. BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th annual meeting of the Association for Computational Linguistics. – 2002. – P. 311-318.
Lin C. Y. ROUGE: A package for automatic evaluation of summaries // Text summarization branches out. – 2004. – P. 74-81.
Serban I. V., et al. A survey of available corpora for building data-driven dialogue systems // arXiv preprint arXiv:1512.05742. – 2017.
Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information processing & management. – 1988. – Vol. 24. – No. 5. – P. 513-523.
Robertson S., Zaragoza H. The probabilistic relevance framework: BM25 and beyond // Foundations and Trends® in Information Retrieval. – 2009. – Vol. 3. – No. 4. – P. 333-389.
Jurafsky D., Martin J. H. Speech and language processing. – 3rd ed. – Pearson, 2023.
Manning C. D., Raghavan P., Schütze H. Introduction to information retrieval. – Cambridge university press, 2008.