Системная социология: Opinion Mining

Системная социология: Opinion Mining

 А.А.Давыдов

Системная социология: Opinion Mining

Ключевые слова: системная социология, Opinion Mining, индустриальный анализ данных, текстовая информация

 

Введение

Opinion Mining [1] - компьютерные системы для интеллектуального автоматического извлечения так называемой «субъективной»» информации (мнений, оценочных суждений, аттитюдов, эмоций, чувств, верований и т.д.) из текстовой информации. Opinion Mining - раздел Text Mining [2]. Opinion Mining Systems широко используются для автоматической оценки (позитивной, негативной, нейтральной) новостных событий, продуктов, персоналий, организаций, стран мира и т.д., поступающих в режиме реального времени из сообщений e-СМИ (электронных средств массовой информации), сообщений блоггеров, дискуссионных форумов  и т.д. в Интернете, т.е. всего того, что обозначается общим термином Social Media [3] и, в частности, Social Media Monitoring.  

Интерес автора к Opinion Mining обусловлен следующими причинами. Во-первых, Opinion Mining давно, широко и успешно используется в системной социологии [4], поскольку оценки, субъективные мнения и т.д. являются социально-психологическими системами. В частности, автором [5] разработана новая алгебра оценочных суждений, которая включает амбивалентные оценки. В Институте социологии РАН А.Н.Чураковым при участии автора, была разработана компьютерная система Контент-анализ ПРО [6], предназначенная для контент-анализа текстов, в которой заложена возможность  использования семантического анализа Opinion Mining. Автором проводились эмпирические исследования Online Reputation Monitoring - мониторинговое исследование репутации крупной российской компании в сообщениях е-СМИ [7]. Поэтому необходимо следить за новинками в данном, быстро развивающемся, направлении исследований и разработок. Во-вторых, по наблюдениям автора, в российской социологии недостаточно используются системы Opinion Mining, несмотря на то, что данные компьютерные системы имеют очевидные научные и практические преимущества, подтвержденные многолетней международной практикой. Поэтому  целью данной статьи является привлечение внимания российских социологов к полезным возможностям компьютерных систем Opinion Mining. Скажем сразу, что  Opinion Mining - это широкое направление исследований, разработок и практических приложений, в частности, по Opinion Mining издаются монографии, например [1], проводятся международные конференции, например International CIKM Workshop on Topic-Sentiment Analysis for Mass Opinion Measurement (Hong Kong Nov. 6, 2009) ( http://sites.google.com/site/tsa2009workshop ), International Conference AAAI on Weblogs and Social Media ( http://www.icwsm.org/2008/tutorials.shtml ), поэтому обзор неизбежно будет конспективным.

 

Opinion Mining

Задачи. Основные содержательные задачи Opinion Mining следующие: Automated Opinion Text Analysis; Automatically recognizing and interpretating expressions of opinions and sentiments in text; Automatic text classification and clustering, в частности, Polarity classification (positive or negative), Collective classification, Emotional tagging и т.д.; Segmenting texts into different opinions; Prediction of sentiments and opinions from given text documents; Aggregation and statistics of sentiments; Evaluating the quality of aggregated sentiments, в частности, Opinion-Oriented Summarization; Identifying subjective word senses; Automatically process customer feedback, в частности, Structural correspondence learning.

Теории. Opinion Mining базируется на множестве теорий из различных научных дисциплин. Social Media [3]; Subjectivity [8]; Cognitive Theory of Cultural Meaning [9]; Theory of Emotions and Social Life [10]; психологических теориях эмоций [11]; Natural Language Processing (NLP) [12], в частности, лингвистической интерпретации эмоций и т.д.; Computational Linguistics («вычислительной» лингвистики) [13], в частности, Appraisal theory, Lexical Semantic Language Theory (LSLT), Intelligent Text Processing ( http://www.cicling.org ) и т.д.; Affective Computing (эмоциональные «вычисления») [14]; Affective Information Processing [15]; Automatic Text Analysis [16]; Artificial Intelligence (искусственного интеллекта) [17], в частности, Text Understanding (понимание текстов), машинного обучения, извлечения эмоционального смысла из информации и т.д.

Методы. Один из основных методов анализа, который широко используется в Opinion Mining для практических приложений - Sentiment Analysis [1], который предназначен для выявления эмоциональных, оценочных суждений,  субъективного отношения к какому-либо объекту, явлению и т.д. в текстовой информации. Одна из основных содержательных задач Sentiment Analysis - автоматическое оценивание какого-либо объекта (персона, сообщение СМИ, событие, организация и т.д.) в текстовых сообщениях, например, с помощью позитивных, негативных, нейтральных оценок, благоприятных и неблагоприятных мнений, количественных индексов и т.д., в частности, с помощью лексического ресурса SentiWordNet ( http://sentiwordnet.isti.cnr.it ).

Выделяют различные классы Sentiment Analysis, а именно, Dynamics Sentiment Analysis,  Visual Sentiment Analysis, Large-Scale Sentiment Analysis, Deeper Sentiment Analysis, Online Sentiment Analysis, Multilingual Sentiment Analysis (оценочный анализ текстов, написанных на разных языках) и т.д.

Для реализации Sentiment Analysis в системах Opinion Mining используется, множество методов. Методы Natural Language Processing (NLP) - Latent Semantic Analysis (LSA), в частности, Probabilistic Latent Semantic Analysis (PLSA), Deep language analysis, Semantic Orientation Method, Semantic Structure Networks, «bag of words» и т.д. Методы Computational Linguistics («вычислительной» лингвистики) - частности, Pointwise Mutual Information method, Morphological analysis, Lexical relations analysis, системы автоматического машинного перевода для Multilingual Sentiment Analysis и т.д. Методы Text Mining - анализ соответствий, ассоциаций и т.д. Методы Automatic Text Analysis - Automatic Semiotic Analysis, Semantic Spaces Analysis и т.д. Методы математической статистики - Pattern analysis в Сorpus-based approaches и Dictionary-based approaches (словари синонимов и антонимов), Hidden Markov Models, Bootstrapping Method, Gloss Classification method и т.д. Методы Artificial Intelligence - Text Understanding, Soft Computing («мягкие» вычисления), Affective Computing (эмоциональные «вычисления»), Meaning Based Computing (MBC), «нейронные» сети класса Support Vector Machines (SVM), Heuristic Rule-Based Reasoning и т.д. С математическими формулами некоторых приведенных методов Language Technology в Opinion Mining, заинтересованный читатель может ознакомиться в работе Feiyu Xu, Xiwen Cheng «Opinion Mining» ( http://www.coli.uni-saarland.de/courses/LT1/2007/slides/Opinion-mining.pdf ). Отметим, что методы Opinion Mining разрабатываются как отдельными исследователями, так и аналитическими компаниями,  кафедрами Университетов и т.д., а затем, как правило, патентуются ( http://www.faqs.org/patents/app/20090048823 ).

Компьютерные системы. Перечисленные выше методы реализованы в многочисленных компьютерных Opinion Mining Systems, например, Text Mining for Clementine 12.0 SPSS ( http://www.spss.com ), IO Opinion Mining ( http://www.interone.de/en/company/io-opinion-mining.html ), Sentiment ( http://www.infonic.com/product_sentiment.php ), RapidMiner ( http://rapid-i.com/content/blogcategory/38/69 ), Lexalytics ( http://www.lexalytics.com ), Umbria ( http://www.jdpowerwebintelligence.com ) и т.д., которые работают как автономно, так и в интеграции с компьютерными системами Text Mining, Web Mining и, в целом, с системами Knowledge Discovery and Data Mining  (KDD) [18]. Например, компьютерная автоматическая система Real-time Sentiment News Analytics, компании RavenPack ( http://www.ravenpack.com ) - одного из мировых лидеров в области разработки данных систем, интегрирована в компьютерную систему Dow Jones News Analytics ( http://www.djnewsanalytics.com ), которая используется трейдерами - людьми и торговыми роботами на крупнейшей бирже мира NYSE.

Для системной реализации Opinion Mining используются аналитические платформы, включающие в себя Meaning Analytics Warehouse, Sentiment Analysis и другие взаимосвязанные аналитические модули. Примерами таких аналитических платформ являются IDOL ( http://www.autonomy.com ), Rosette Linguistics Platform ( http://www.basistech.com/products ), предназначенная для Multilingual Text Analytics и т.д. С перечнем и описанием множества компьютерных систем для Sentiment Analysis and Language Processing, заинтересованный читатель может ознакомиться на сайте ( http://lordpimpington.com/codespeaks/drupal-5.1/?q=node/5 ). Yahoo! Research ( http://sandbox.yahoo.net/isearch/index.html ) разработала сервис Ideological Search (идеологический поиск) информации в Интернете, исходя из заданных пользователем своих политических предпочтений (демократ или республиканец).

Примеры использования Opinion Mining. В качестве иллюстрации на рис. 1 представлен результат проведенного автором онлайн автоматического оценивания (позитивно, нейтрально, негативно) сообщений о Социологии,  реализованного в системе Twittratr ( http://twitrratr.com ). Напомним, что система Twittratr основана на семантическом анализе, семантической Базе позитивных, негативных и нейтральных слов, в качестве Базы тестовых сообщений используется сервис Twitter ( http://twitter.com ) - социальная сеть, представляющая собой систему микроблогов, позволяющая пользователям создавать короткие текстовые заметки.  На май 2008 г. в Twitter было зарегистрировано 1 млн. пользователей ( http://ru.wikipedia.org/wiki/Twitter ).

 

Рис.1

Результат автоматического оценивания термина «Социология» в системе Twittratr ( http://twitrratr.com )

 

 

 

            В этой связи напомним, что Twitter имеет собственную интегрированную систему Realtime Sentiment Analysis слов и фраз, результаты работы которой, в качестве иллюстрации, представлены на рис. 2.

Рис.2

Realtime Sentiment Analysis Twitter

( http://twitter.com )

 

           

            В качестве иллюстрации на рис. 3 представлены результаты International Visual Sentiment Analysis сообщений СМИ различных стран мира о В.Путине, а на рис. 4 динамика оценки В.Путина в международных СМИ, выполненных автором с помощью онлайн-компьютерной системы Textmap ( http://www.textmap.com ).

Рис.3

International Visual Sentiment Analysis сообщений СМИ о В.Путине

( http://www.textmap.com )

 

 

Рис.4

Dynamics Sentiment Analysis сообщений мировых СМИ о В.Путине

( http://www.textmap.com )

 

 

 

Компании. Существует множество Интернет-компаний, которые специализируются на разработке и коммерческом использовании Opinion Mining, в частности, Online Sentiment Analysis оценочных трендов персон, новостей, продуктов, организаций и т.д., которые имеют собственные онлайн - аналитические порталы для проведения анализа пользователями. Например, Nielsen Online BuzzMetrics (http://www.nielsen-online.com ), Scout Labs ( http://www.scoutlabs.com ), iStrategyLabs ( http://www.istrategylabs.com ), Trackur ( http://www.trackur.com ) и т.д.

 

Заключение

Opinion Mining - это широкое направление исследований и разработок, которое активно используется в практических приложениях.  Российский социолог должен знать и уметь пользоваться компьютерными системами Opinion Mining, уметь разрабатывать новые, более совершенные компьютационные теории, модели, методы Opinion Mining, уметь разрабатывать и программировать данные компьютерные системы. В этом случае, российские социологи будут безусловно востребованы на рынке труда и конкурентоспособны в информационном обществе, например, могут создать собственный Интернет-бизнес в области Online Opinion Mining. 

 

Приглашаем обсудить статью на форуме.

 

СПИСОК ЛИТЕРАТУРЫ

  1. Pang B., Lee L. Opinion Mining and Sentiment Analysis. N.Y.:Now Publishers Inc., www
  2. Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge.: Cambridge University Press, 2006.
  3. Hay D. A Survival Guide to Social Media and Web 2.0 Optimization: Strategies, Tactics and Tools for Succeeding in the Social Web. N.Y.: Synergy Books, 2009.
  4. Давыдов А.А. Конкурентные преимущества системной социологии. (Электронное издание) М.: ИСАН, www (https://www.isras.ru/publ.html?id=855 ) , ( http://www.ecsocman.edu.ru/db/msg/324618.html )
  5. Давыдов А.А. Системный подход в социологии: законы социальных систем. М.: Эдиториал УРСС, 2004.
  6. Чураков А.Н. Компьютерный контент-анализ М.: Институт социологии РАН, 1996.
  7. Давыдов А.А. Системная социология. М.: Эдиториал УРСС, 2006.
  8. Stein D., Wright S. Subjectivity and Subjectivisation: Linguistic Perspectives. Cambridge.: Cambridge University Press, 2005.
  9. Strauss C., Quinn N. A Cognitive Theory of Cultural Meaning. Cambridge.: Cambridge University Press, www
  10. TenHouten W. A General Theory of Emotions and Social Life.  N.Y.: Routledge, www
  11. Niedenthal P., Krauth-Gruber S., Ric F. Psychology of Emotions: Interpersonal, Experiential and Cognitive Approaches. N.Y.: Psychology Press, 2006.
  12. Jackson P., Moulinier I. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam.: John Benjamins Pub. 2007.
  13. Delmonte R. Computational Linguistic Text Processing: Logical Form, Semantic Interpretation, Discourse Relations and Question Answering. N.Y.: Nova Science Publishers Inc., 2007.
  14. Hudlicka Е. Affective Computing: Theory, Methods and Applications. N.Y.: Chapman & Hall/CRC, 2009.
  15. Tao J., Tan T. Affective Information Processing. Berlin.: Springer, www
  16. Mehler A., Kohler R. Aspects of Automatic Text Analysis. Berlin.: Springer, 2006.
  17. Jones T. Artificial Intelligence: A Systems Approach. Hingham.: Jones & Bartlett Publishers, 2007.
  18. Давыдов А.А. Knowledge Discovery and Data Mining в системной социологии. М.: ИС РАН, 2009. ( https://www.isras.ru/Davydov_Knowledge.html )