Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)Ващенко В. А.Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов

Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)

Ващенко В. А.

Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов

DOI: https://doi.org/10.19181/4m.2023.32.1.2
Ващенко Василиса Андреевна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Стажер-исследователь Международной лаборатории прикладного сетевого анализа

Полный текст

Открыть текст

Ссылка при цитировании:

Ващенко В. А. Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов // Социология: методология, методы, математическое моделирование (Социология:4М). 2023. № 56. С. 69-112.
DOI: https://doi.org/10.19181/4m.2023.32.1.2. EDN: SJPPOZ

Рубрика:

ОБЩИЕ ВОПРОСЫ МЕТОДОЛОГИИ СЕТЕВОГО АНАЛИЗА

Аннотация:

Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры, – имеет множество академических и практических приложений в случаях отсутствия подробной разметки текстовых данных. Однако качество работы алгоритмов тематического моделирования может ограничиваться полнотой семантического контекста, необходимого для качественного числового представления единицы текста. В этой статье рассматриваются шесть разных подходов к тематическому моделированию, основанных на различающихся принципах концептуализации текста и тем. Сравнивается качество работы указанных алгоритмов на наборе русскоязычных комментариев в сети TikTok и проводится формальная оценка скорости и когерентности результирующих тем.

Литература:

  • Brookes G., McEnery T. The utility of topic modelling for discourse studies: A critical evaluation // Discourse Studies. 2019. Vol. 21, № 1. С. 3–21. DOI: 10.1177/1461445618814032.
  • Using topic models for Twitter hashtag recommendation / F. Godin, V. Slavkovikj, W. De Neve [et al.] // Proceedings of the 22nd International Conference on World Wide Web. Rio de Janeiro, Brazil: ACM, 2013. P. 593–596. DOI: 10.1145/2487788.2488002.
  • Asmussen C.B., M?ller C. Smart literature review: a practical topic modelling approach to exploratory literature review // Journal of Big Data. 2019. Vol. 6, № 1. P. 93. DOI: 10.1186/s40537-019-0255-7. EDN: XBRIWK.
  • On the Globalization of the QAnon Conspiracy Theory Through Telegram / M. Hoseini, P. Melo, F. Benevenuto [et al.] // Proceedings of the 15th ACM Web Science Conference 2023. Austin TX, USA: ACM, 2023. P. 75–85. DOI: 10.1145/3578503.3583603.
  • Кольцова О.Ю., Маслинский К.А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: методология, методы, математическое моделирование (Социология: 4М). 2013. № 36. С. 113–139. EDN: RCFOWJ.
  • Lyu J.C., Han E.L., Luli G.K. COVID-19 Vaccine–Related Discussion on Twitter: Topic Modeling and Sentiment Analysis // Journal of Medical Internet Research. 2021. Vol. 23, № 6. P. e24435. DOI: 10.2196/24435.
  • ET-LDA: Joint topic modeling for aligning, analyzing and sensemaking of public events and their Twitter feeds / Y. Hu, A. John, F. Wang [et al.] // Cornwall University [site]. 08.10.2012. URL: https://arxiv.org/abs/1210.2164 (дата обращения: 01.09.2023).
  • Multi-modal event topic model for social event analysis / S. Qian, T. Zhang, C. Xu, J. Shao // IEEE Transactions on Multimedia. 2016. Vol. 18, № 2. P. 233–246. DOI: 10.1109/TMM.2015.2510329.
  • Zheng Y., Zhang Y.-J., Larochelle H. Topic Modeling of Multimodal Data: An Autoregressive Approach // 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014. P. 1370–1377. DOI: 10.1109/CVPR.2014.178.
  • Gong Y., Poellabauer C. Topic Modeling Based Multi-modal Depression Detection // Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge. Mountain View, California, USA: ACM, 2017. P. 69–76. DOI: 10.1145/3133944.3133945.
  • Бызов А.А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование (Социология: 4М).2019. № 49. С. 131–160. EDN: GCIIVL.
  • Boon-Itt S., Skunkan Y. Public Perception of the COVID-19 Pandemic on Twitter: Sentiment Analysis and Topic Modeling Study // JMIR Public Health and Surveillance. 2020. Vol. 6, № 4. P. e21978. DOI: 10.2196/21978.
  • Albalawi R., Yeap T.H., Benyoucef M. Using topic modeling methods for short-text data: A comparative analysis // Frontiers in artificial intelligence. 2020. Vol. 3. P. 42. DOI: 10.3389/frai.2020.00042.
  • Hong L., Davison B.D. Empirical study of topic modeling in Twitter // Proceedings of the First Workshop on Social Media Analytics. Washington, D.C.: ACM, 2010. P. 80–88. DOI: 10.3390/ijerph18126487.
  • Short Text Topic Modeling Techniques, Applications, and Performance: A Survey / Q. Jipeng, Q. Zhenyu, L. Yun [et al.] // IEEE Trans. Knowl. Data Eng. 2022. Vol. 34, № 3. P. 1427–1445. DOI: 10.1109/TKDE.2020.2992485. EDN: ACFCRC.
  • Медиапотребление 2023 // Mediascope [сайт]. [2023]. URL: https://mediascope.net/upload/iblock/226/e7lwh96qizxpwhf1rj2ttfzkwlie8vr8/медиапотребление%202023.pdf (дата обращения: 09.02.2024).
  • Hofmann T. Probabilistic latent semantic analysis // Cornwall University [site]. 22.01.2013. URL: https://arxiv.org/abs/1301.6705 (дата обращения: 01.09.2023).
  • Blei D.M., Ng A.Y., Jordan M.I. Latent dirichlet allocation // Journal of machine learning research. 2003. Vol. 3. P. 993–1022.
  • Кольцов С.Н. Применение энтропийного подхода к проблеме выбора числа тем в тематических моделях // Социофизика и социоинженерия’2018: труды второй Всероссийской междисциплинарной конференции. Москва, 23–25 мая 2018 г. М.: Ин-т проблем управления им. В.А. Трапезникова РАН, 2018. С. 235–236. DOI: 10.21883/PJTF.2017.12.44713.16725. EDN: XYERBR.
  • Потапенко А.А. Семантические векторные представления текста на основе вероятностного тематического моделирования: дис. … канд. физ.-мат. наук / НИУ ВШЭ. М., 2017. 147 с. EDN: DNXEFS.
  • Digital Trace Data in the Study of Public Opinion: An Indicator of Attention Toward Politics Rather Than Political Support / A. Jungherr, H. Schoen, O. Posegga, P. J?rgens // Social Science Computer Review. 2017. Vol. 35, № 3. P. 336–356. DOI: 10.1177/0894439316631043.
  • Ahuja A., Wei W., Carley K.M. Topic modeling in large scale social network data // SSRN electronic journal. January 2015. DOI: 10.2139/ssrn.2720333.
  • Using hashtag graph-based topic model to connect semantically-related words without co-occurrence in microblogs / Y. Wang, J. Liu, Y. Huang, X. Feng // IEEE Transactions on Knowledge and Data Engineering. 2016. Vol. 28, № 7. P. 1919–1933. DOI: 10.1109/TKDE.2016.2531661.
  • The author-topic model for authors and documents / M. Rosen-Zvi, T. Griffiths, M. Steyvers, P. Smyth // Cornwall University [site]. 11.01.2012. URL: https://arxiv.org/abs/1207.4169 (дата обращения: 01.09.2023).
  • Phan X.-H., Nguyen L.-M., Horiguchi S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections // Proceedings of the 17th international conference on World Wide Web. Beijing, China: ACM, 2008. P. 91–100. DOI: 10.1145/1367497.1367510.
  • Gerlach M., Peixoto T.P., Altmann E.G. A network approach to topic models // Sci. Adv. 2018. Vol. 4, № 7. P. eaaq1360. DOI: 10.1126/sciadv.aaq1360.
  • Mixed Membership Stochastic Blockmodels / E.M. Airoldi, D. Blei, S. Fienberg, E. Xing // Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2008. P. 33–40.
  • Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. Т. 23. С. 215–244. DOI: 10.15514/ISPRAS-2012-23-13. EDN: PLUXDR.
  • Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure // Cornwall University [site]. 11.03.2022. URL: https://arxiv.org/ abs/2203.05794 (дата обращения: 01.09.2023).
  • Attention is All you Need / A. Vaswani, N. Shazeer, N. Parmar [et al.] // Advances in Neural Information Processing Systems. Long Beach, CA, USA: Curran Associates Inc., 2017. P. 5998–6008.
  • Topic modeling algorithms and applications: A survey / A. Abdelrazek, Y. Eid, E. Gawish [et al.] // Information Systems. 2022. Vol. 112. P. 102131. DOI: 10.1016/j.is.2022.102131. EDN: WLYLKR.
  • Lee D., Seung H.S. Algorithms for Non-negative Matrix Factorization // Advances in Neural Information Processing Systems. Denver, CO, USA: MIT Press, 2000. P. 556–562.
  • Dieng A.B., Ruiz F.J.R., Blei D.M. Topic Modeling in Embedding Spaces // Transactions of the Association for Computational Linguistics. 2020. Vol. 8. P. 439–453. DOI: 10.1162/tacl_a_00325.
  • Srivastava A., Sutton C. Autoencoding Variational Inference for Topic Models // Cornwall University [site]. 04.03.2017. URL: https://arxiv.org/abs/1703.01488 (дата обращения: 01.09.2023).
  • Cross-lingual Contextualized Topic Models with Zero-shot Learning / F. Bianchi, S. Terragni, D. Hovy [et al.] // Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics. April 19–23, 2021 / Ed. by P. Merlo, J. Tiedemann, R. Tsarfaty. Potsdam, Germany: Association for Computational Linguistics, 2021. P. 1676–1683. DOI: 10.18653/v1/2021.eacl-main.143.
  • Кукушкин А. Navec – компактные эмбеддинги для русского языка // Проект Natasha – набор Python-библиотек для обработки текстов на естественном русском языке [сайт]. 2022. URL: https://natasha.github.io/navec/ (дата обращения: 05.01.2024).
  • Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean // Cornwall University [site]. 16.01.2013. URL: https://arxiv.org/abs/1301.3781 (дата обращения: 01.09.2023).
  • Distributed representations of words and phrases and their compositionality / T. Mikolov, I. Sutskever, K. Chen [et al.] // Advances in Neural Information Processing Systems. 2013. Vol. 26. Р. 3111–3119.
  • Pennington J., Socher R., Manning C.D. Glove: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics, 2014. P. 1532–1543. DOI: 10.3115/v1/D14-1162.
  • Aletras N., Stevenson M. Evaluating topic coherence using distributional semantics // Proceedings of the 10th International Conference on Computational Semantics (IWCS 2013) – Long Papers. Potsdam, Germany: Association for Computational Linguistics, 2013. P. 13–22.
  • Optimizing Semantic Coherence in Topic Models / D. Mimno, H.M. Wallach, E. Talley [et al.] // Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP). Edinburgh, Scotland, UK: Association for Computational Linguistics, 2011. P. 262–272.
  • Tan Y., Ou Z. Topic-weak-correlated Latent Dirichlet allocation // 2010 7th International Symposium on Chinese Spoken Language Processing. Tainan, Taiwan: IEEE, 2010. P. 224–228. DOI: 10.1109/ISCSLP.2010.5684906.
  • Newman D., Karimi S., Cavedon L. External Evaluation of Topic Models // ADCS 2009 – Proceedings of the Fourteenth Australasian Document Computing Symposium. Sydney, Australia: University of Sydney, 2011. P. 1–8.
  • MLSUM: The Multilingual Summarization Corpus / T. Scialom, P.-A. Dray, S. Lamprier [et al.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). [s. l.]: Association for Computational Linguistics, 2020. P. 8051–8067. DOI: https://doi.org/10.18653/v1/2020.emnlp-main.647.

Содержание выпуска

>> Содержание выпуска 2023. № 56.
>> Архив журнала