Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)Анташева М. С., Лобанова П. А., Исаева Ю. К., Сабидаева Е. А., Пиекалнитс А. С., Логинова И. В.Сентимент-анализ как метод исследования информационной повестки и общественного мнения (на примере СМИ и социальных сетей КНР)

Журнал: Социология: методология, методы, математическое моделирование (Социология:4М)

Анташева М. С., Лобанова П. А., Исаева Ю. К., Сабидаева Е. А., Пиекалнитс А. С., Логинова И. В.

Сентимент-анализ как метод исследования информационной повестки и общественного мнения (на примере СМИ и социальных сетей КНР)

DOI: https://doi.org/10.19181/4m.2023.32.2.1
Анташева Мария Сергеевна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Эксперт отдела информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Лобанова Полина Александровна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Заведующая отделом информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Исаева Юлия Камаловна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий программист отдела разработки интеллектуальных систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Сабидаева Елизавета Алексеевна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий эксперт отдела информационно-аналитических систем Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Пиекалнитс Анна Сергеевна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Ведущий эксперт отдела исследований больших данных Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний
Логинова Ирина Владимировна
Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Заведующая отделом исследований больших данных Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний

Полный текст

Открыть текст

Ссылка при цитировании:

Анташева М. С., Лобанова П. А., Исаева Ю. К., Сабидаева Е. А., Пиекалнитс А. С., Логинова И. В. Сентимент-анализ как метод исследования информационной повестки и общественного мнения (на примере СМИ и социальных сетей КНР) // Социология: методология, методы, математическое моделирование (Социология:4М). 2023. № 57. С. 7-41.
DOI: https://doi.org/10.19181/4m.2023.32.2.1. EDN: CRGFLH

Рубрика:

ПРАКТИКИ СБОРА И АНАЛИЗА ФОРМАЛИЗОВАННЫХ ДАННЫХ

Выражение признательности

Статья подготовлена в рамках гранта, предоставленного Министерством науки и высшего образования Российской Федерации (№ соглашения о предоставлении гранта: 075-15-2022-325).

Аннотация:

Информационная повестка, транслируемая китайскими медиаресурсами, является источником актуальных данных о мнении общества в отношении ключевых вопросов социального благосостояния. Вследствие технических особенностей организации китайских веб-сайтов и необходимости привлечения дополнительных ресурсов для автоматической обработки (парсинга) текстов на китайском языке, данная тематика не представлена достаточно широко в отечественных и зарубежных исследованиях. Целью настоящей работы является демонстрация методологии и результатов оценки общественного мнения на примере данных, собранных из китайских СМИ и социальных сетей, на основе обученной модели сентимент-анализа текстовых данных на китайском языке. При помощи ML-модели был проведен сравнительный анализ контента на китайском языке по проблематике развития городской инфраструктуры за период 2020–2022 гг. Результаты представлены в формате диаграмм распределения сентимента на основе данных СМИ и социальных сетей по месяцам за 2-летний период. Выявлено, что уровень сентимента значительно отличается в зависимости от типа источника данных. Определено устойчивое преобладание позитивного сентимента в СМИ и негативного – в социальных сетях, что может объясняться различиями в составе авторов текстов, ограничениями, накладываемыми на публикуемый в источниках контент, а также разными целями использования ресурсов пользователями.

Литература:

  • Hu Y.S. The impact of increasing returns on knowledge and big data: from Adam Smith and Allyn Young to the age of machine learning and digital platforms // Prometheus. 2020. Vol. 36, No. 1. P. 10–29. DOI: 10.13169/prometheus.36.1.0010.
  • Henke N., Libarikian A., Wiseman B. Straight talk about big data // McKinsey Quarterly: [сайт]. 28.10.2016. URL: https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/straight-talk-about-big-data (дата обращения: 16.01.2023).
  • ???????????????????47?????????????????????[Государственная канцелярия интернет- информации КНР. Сорок седьмой статистический отчет о состоянии развития Интернета в Китае (полный текст)]. 03.02.2021. URL: http://www.cac.gov.cn/2021-02/03/c_1613923423079314.htm (дата обращения: 16.01.2023).
  • Individuals using the Internet (% of population) // World Bank: [сайт]. 2023. URL: https://data.worldbank.org/indicator/IT.NET.USER.ZS (дата обращения: 22.03.2023).
  • Liu B. Sentiment analysis: mining opinions, sentiments, and emotions. Cambridge: Cambridge university press, 2015. 381 p. DOI: 10.1017/CBO9781139084789.
  • Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of ACL. 2005. P. 115–124. DOI: 10.3115/1219840.1219855.
  • Taboada M. Sentiment Analysis: An Overview from Linguistics // Annual Review of Linguistics. 2016. Vol 2. P. 325–347. DOI: 10.1146/annurev-linguistics-011415-040518. EDN: YAKIFR.
  • Ohman E. The validity of lexicon-based emotion analysis in interdisciplinary research // Proceedings of the Workshop on Natural Language Processing for Digital Humanities. December 16–19, 2021 / NLP Association of India. Silchar, India, 2021. P. 7–12.
  • Колмогорова А.В., Калинин АА., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент- анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: 10.29025/2079-6021-2018-1(29)-139-148. EDN: YRHARM.
  • Construct validity of six sentiment analysis methods in the text of encounter notes of patients with critical illness / G.E. Weissman, L.H. Ungar, M.O. Harhay [et al.] // Journal of biomedical informatics. 2019. No. 89. P. 114–121. DOI: 10.1016/j.jbi.2018.12.001.
  • Medical sentiment analysis using social media: towards building a patient assisted system / S. Yadav, A. Ekbal, S. Saha, P. Bhattacharyya // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, May 07–12, 2018. P. 2790–2797. EDN: YZXBDW.
  • Luis M.D., Juan C.M., Glen M. Social media as a resource for sentiment analysis of Airport Service Quality (ASQ) // Journal of Air Transport Management. 2019. No. 78. P. 106–115. DOI: 10.1016/j.jairtraman.2019.01.004.
  • Islam M.R., Zibran M.F. Sentiment analysis of software bug related commit messages // Network. 2018. Vol. 740. P. 740.
  • Twitter sentiment analysis applied to finance: A case study in the retail industry / T.T.P. Souza, O. Kolchyna, P.C. Treleaven, T. Aste // ArXiv. Submitted on 2 Jul 2015 (v. 1), last revised 11 Jul 2015. URL: arXiv preprint arXiv:1507.00784 (дата обращения: 30.09.2024).
  • Sentibench-a benchmark comparison of state-of-the-practice sentiment analysis methods / F.N. Ribeiro, M. Ara?jo, P. Gon?alves [et al.] // EPJ Data Science. 2016. Vol. 5, No. 1. P. 1–29. DOI: 10.1140/epjds/s13688-016-0085-1. EDN: RMUGIO.
  • Van Atteveldt W., Van der Velden M.A., Boukes M. The validity of sentiment analysis: Comparing manual annotation, crowd-coding, dictionary approaches, and machine learning algorithms // Communication Methods and Measures. 2021. No. 15 (2). P. 121–140. DOI: 10.1080/19312458.2020.1869198.
  • Kasper K.N. Assessing the Validity of Sentiment Analysis Measures through Polychoric Correlation // University of New Mexico. Digital Repository. 2020. URL: https://digitalrepository.unm.edu/math_etds/174 (дата обращения: 30.09.2024).
  • Pandian A.P. Performance evaluation and comparison using deep learning techniques in sentiment analysis // Journal of Soft Computing Paradigm. 2021. No. 3 (2). P. 123–134. DOI: 10.36548/jscp.2021.2.006.
  • Happy parents’ tweets: An exploration of Italian Twitter data using sentiment analysis / L. Mencarini, D.I.H. Farias, M. Lai [et al.] // Demographic Research. 2019. Vol. 40. P. 693–724. DOI: 10.4054/DemRes.2019.40.25.
  • Stieglitz S., Dang-Xuan L. Emotions and information diffusion in social media– sentiment of microblogs and sharing behavior // Journal of management information systems. 2013. Vol. 29, No. 4. P. 217–248. DOI: 10.2753/MIS0742-1222290408.
  • COVID-19 vaccine sentiment analysis using public opinions on Twitter / P. Chinnasamy, V. Suresh, K. Ramprathap [et al.] // Materials Today: Proceedings. 2022. Vol. 64. P. 448–451. DOI: 10.1016/j.matpr.2022.04.809.
  • ?????????????????LSTM??????——???“???”??//???? [ Чэнь Лин, Сун Яньсинь. Cентимент-анализ публичных настроений с помощью LSTM на примере тайфуна «Лекима» // Сяньдай Цинбао]. 2020. Т. 40, №6. C. 98–105. DOI: 10.3969/j.issn.1008-0821.2020.06.010.
  • ?????????????????????????//?????????????[Ян Гуан. Эмпирический анализ эмоционального заражения и механизмов воздействия подсказок в социальных сетях // Вестник Шэньчжэньского университета (гуманитарные и социальные науки)]. 2020. Т. 37, № 6. С. 115–126.
  • ???????????????????????“????”??????/??????????? [Юэ Цзунпу, Лю Цай, Ли Ин, Лу Вэньцзин. Анализ текстовых комментариев по тематике «Новая коронавирусная инфекция» на основе анализа данных Weibo / Факультет менеджмента Тяньцзиньского университета традиционной китайской медицины]. 2020 (12). С. 48–50.
  • ?????????????????????????//?????? [ Яо Тяньфан, Лоу Дэчэн. Исследование метода анализа тематико- семантической структуры текстов на китайском языке // Китайский журнал о науках об информации]. 2007. № 5. С. 73–79. ISBN: 1003–0077 (2007) 05–0000–00.
  • ????????????55.4%?????1.016?//IT?? [Доход компании Zhihu в первом квартале вырос на 55,4% по сравнению с аналогичным периодом прошлого года, при 101,6 млн ежемесячных активных пользователей // IT Чжи Цзя]. 2022. URL: https://baijiahao.baidu.com/s?id=1733794653563608924 (дата обращения: 01.03.2023).
  • ???????????????????????????? [Госсовет КНР. Гуандун, Гонконг, Макао и зона Большого залива: совершенствование механизма связи для ускорения трансграничного медицинского сотрудничества]. 2021. URL: http://www.zlb.gov.cn/2021-08/23/c_1211341836.htm (дата обращения: 09.03.2023).
  • ????????????????????????????????//???? [Автокатастрофа у входа в больницу в Цзилине и никто не пришел на помощь? Комментарий со стороны больницы: Врачи не могут покидать свои рабочие места, медсестры и охранники также находятся на своем посту // Бэйвань цзай сянь]. 2020. URL: https://baijiahao.baidu.com/s?id=1680050105222 894394&wfr=spider&for=pc (дата обращения: 09.03.2023).
  • 2021???????????????600??//??? [Провинция Хэйлунцзян планирует реализовать 60 млрд юаней в виде инвестиций в развитие транспорта в 2021 году // Жэньминван]. 2021. URL: http://hlj.people.com.cn/n2/2021/0319/c220024-34631394.html (дата обращения: 09.03.2023).
  • ???4?“??”????????//??? [Четверо «официальных лиц» во Внутренней Монголии были исключены из партии и лишены права занимать государственные должности // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
  • ???????????????????????//??? [Китай поддерживает привлечение частного и иностранного капитала для инвестирования в новую инфраструктуру // Синьхуа]. 2021. URL: http://www.xinhuanet.com/2021-09/10/c_1127850249.htm (дата обращения: 09.03.2023).
  • ??718?????????//?? [Каковы обстоятельства инцидента 718 в Цзинане? // Чжиху]. 2022. URL: https://www.zhihu.com/question/282692759 (дата обращения: 09.03.2023).
  • Duan Y., Liu L., Wang Z. COVID-19 sentiment and the Chinese stock market: evidence from the official news media and Sina Weibo // Research in International Business and Finance. 2021. Vol. 58. DOI: 10.1016/j.ribaf.2021.101432.
  • Peng W., Tang L. Health content in Chinese newspapers // Journal of health communication. 2010. Vol. 15, No. 7. P. 695–711. DOI: 10.1080/10810730.2010.514028.
  • Hassid J. Safety valve or pressure cooker? Blogs in Chinese political life // Journal of Communication. 2012. Vol. 62, No. 2. P. 212–230. DOI: 10.1111/j.1460-2466.2012.01634.x.
  • Chen D. Review essay: The safety valve analogy in Chinese politics // Journal of East Asian Studies. 2016. Vol. 16, No. 2. P. 281–294. DOI:10.1017/jea.2016.4.
  • AI Language Models: Technological, Socio-Economic and Policy Considerations // OECD. 2023. Vol. 352. P. 1.

Содержание выпуска

>> Содержание выпуска 2023. № 57.
>> Архив журнала