Г.В. Каныгин. Ответ А. Давыдову

Г.В. Каныгин. Ответ А. Давыдову

Геннадий Викторович Каныгин, к.э.н., зав. сектором теории и методологии Социологического института РАН

 

Ответ А.Давыдову

 

Да, заметка замечательная, но…, заметка пугает социолога, у него ошибка: качественные методы – это что-то мягкое и пушистое, где нет цифр, а тут суперкомпьютинг и прочее.

Однако «все познается в сравнении», пакеты анализа качественных данных (АКД) удивительны тем, что они, с одной стороны, вроде бы не предлагают ничего нового по сравнению с традиционными системами управления базами данных (СУБД) – Access, Paradox и т.д. Так, все форматы данных, представленные в пакетах АКД (текст, указатель и т.д.), присутствуют и в СУБД. С другой, - пакеты АКД, судя по литературе и их ценам, заявляемым разработчиками, востребованы в прикладных исследованиях.

Конечно, я говорю, прежде всего, о «классических» пакетах, которые построены на основе функций кодирования и реконструирования данных (coding&retrieval functions, cм. U. Kelle http://www.socresonline.org.uk/2/2/1.html). Эти пакеты воспроизводят, на первый взгляд, бесхитростную инструментальную идею кодирования, известную со времен «карандаша и бумаги» (см. сайт http://onlineqda.hud.ac.uk). Их классическими представителями являются MaxQDA, NVivo, Atlas.ti, AnSWR и др. По поводу «классических представлений» стоит оговориться, что кодирование – это инструмент фрагментирования потока данных. Поэтому данные могут быть любыми, но такими, которые, одной стороны, допускают фрагментирование, с другой, - вряд ли осмысленно фрагментировать, например, числовые данные. Просто потому, что фрагментирование на таких данных уже проведено в виде их форматов и соответствующих операций (сложение, сравнение и т.д.).

Отсюда, во-первых, анализ качественных данных – это совершенно не то же, что контент-анализ. И ключевой пункт в применении пакетов – это понимание собственных функций аналитика по структурированию данных. Не будет преувеличением сказать, что, в отличие от статистического пакета, где есть автоматическое вычисление, например, факторов по набору данных, «качественный пакет» сам ничего не считает. Точнее: он, прежде всего, предоставляет пользователю компьютерные инструменты авторской структуризации, а потом уже дает возможность кое-что посчитать на полученных результатах кодирования. Поэтому необходимо точно отдавать себе отчет, в чем состоят особенности качественных данных, которые специфицированы, вообще говоря, по-разному в зависимости от пакета. Во-вторых, широко распространена методическая идея сравнения пакетов, в том числе на основе типов данных, в анализе которых они ассистируют. Среди массы публикаций, см., например, Tesch, 1990 и Lewins&Silver, 2007, их сравнение показывает путь, проделанный на рубеже двух столетий.

К сегодняшнему дню основные марки в этой области «обросли» историей. Например, NUD*IST - это первая версия пакета анализа нечисловой информации, которую написали в QSR на Lisp'е. Потом они написали NVivo 2, добавив возможность создания "живых кодов", т.е. указывающих на фрагмент текста вне зависимости от его изменения после введения кода, но, не реализовав всей функциональности NUD*IST. Теперь они объединили возможности и того, и другого, использовав вместо устаревшего Lisp'а, по-видимому, C++, но снова получилось два пакета: NVivo 7 и XSight.

Дело в том, что, став относительно недавно официальным партнером Microsoft, коллеги из QSR использовали при работе со своими базами данных Microsoft SQL Server, получилось чрезвычайно громоздко: это NVivo 7. Они выкинули сервер, получилось компактно и вполне в духе анализа качественных данных: это XSight.

Разумеется, по мере появления очередных версий как указанных, так и других пакетов идея кодирования обрастала разными «наворотами» - вычисляемые коды, их взвешивание, матрицы связей между кодами и многое другое. Именно разнообразные прибамбасы по сравнению с исходной идеей кодирования потока данных во многих случаях давали их авторам моральное право разрабатывать очередной, но свой пакет. И они его создавали. Замечу, что сначала (лет десять назад) я смотрел все пакеты, которые относились к CAQDAS, потом понял, что они во многом представляют собой упражнения в программировании на заданную тему.

Правда, существует еще одна важная причина, по которой в области анализа качественных данных постоянно появляются профессиональные разработки (скажем, QDA Miner стартовал отчетливо позже, чем QSR продукты). Вряд ли эта причина понятна пользователю пакетов. Никакой пакет не покрывает с помощью своих инструментов всех задач предметной области, в данном случае кодирование всегда будет дополняться многими другими информационными ресурсами – поиском, администрированием, командной работой и т.д. и т.п. В этой ситуации пакет АКД неминуемо превращается в некий Scientific Office социолога, взращенный вокруг кодирования как Microsoft или Corel Office вокруг текста.

Таким образом оказывается, что собственная специфика пакета, т.е. все те же coding&retrieval functions, как-то теряется во множестве его общенаучных инструментов. Но это означает, что многие пакеты представляют собой результат перепрограммирования большого числа инструментальных средств, которые уже существуют, но должны быть соединены с аппаратом кодирования под одной программной оболочкой. В частности, NUD*IST и Qualrus (и далеко не только они) имеют собственные командные языки. С одной стороны, это хорошо, т.к. позволяет заметно расширить функциональность пакетов, но с другой, - означает большой объем дополнительной работы по программированию. Причем заранее известно, что «качественные» разработчики проиграют конкуренцию с «программистскими монстрами», создавшими, скажем, Delphi или C Builder.

Однако несмотря на эту заведомую проигранную «общенаучную» позицию пакеты развиваются из-за структурной специфики своей предметной области, т.е. все того же аппарата функций кодирования. И наличие своего пакета означает очень привлекательную возможность его адаптации под собственное понимание этой самой специфики. Другим словами, реальную возможность инновационного пути развития в области конструктивной качественной методологии.

Вместе с тем, если заниматься текстовой обработкой не от случая к случаю, в зависимости от очередного гранта или надежды на него, то следует отдавать себе отчет в необходимости наработки собственного аналитического аппарата, который невозможно создать за месяц или год. Это тема требует постоянных усилий, причем сегодня уже совершенно очевидно для гуманитарных коллег из «несоциологии», например, лингвистики, что накапливать такой аналитический аппарат с помощью текстовых редакторов – это носить воду лаптем. Следствием этого является хорошо известная проблема совместного использования социологических данных. Практически невозможно использовать данные из разных опросов, т.к. их согласованное понимание – это проблема понимания текста анкеты, по которой эти данные собраны.

Текст – это поток символов, с помощью которого шифруется естественный язык. Используя текст для целей теоретизирования аналитик силится рассмотреть сокровенное знание другого аналитика, но при этом постоянно подменяет собственные понятия с помощью все того же текста и т.п. И все это чудодействие с текстом вершится в условиях огромных объемов информации, которая появляется в любом проекте. Поэтому полезно еще раз обратить внимание на смежные гуманитарные области, скажем, лингвистику (см., например, Фрумкина, 2006). Естественный язык не изучается с помощью естественного же языка. Чтобы убедиться в этом, достаточно взглянуть на программу любой конференции по языкознанию.

Учитывая неизбежные дополнения инструментов кодирования, возможно, что все же лучше взять что-то не столь настроенное на функции кодирования как пакет АКД, а что-нибудь более «общенаучное», скажем, Paradox, особенно, в составе Corel Office, получается дешево (т.к. нелицензионно в отличие от пакета АКД) и на порядок мощнее и изворотливее. Хотя, конечно, приходится дольше разбираться, некоторые типовые задачи, скажем, то же кодирование фрагментов приходится обдумывать заново. Но зато многочисленные стандартные приемы, нашедшие широкое применение при анализе информации уже реализованы в СУБД (поиски, запросы, отчеты, графика, дескриптивные статистики, администрирование и многое другое, включая мощный язык программирования). И тем самым решается задача инструментальной (аналитико-информационной) поддержки собственного концептуального аппарата.

Правда, на этом пути, придется, конечно, подумать о кадрах, развитии всего начинания и т.д. Но, повторюсь, собственный аналитический аппарат этого стоит, разумеется, если заниматься им профессионально.

Наиболее радикальное усовершенствование пакетов АКД - это вообще уйти от «бесхитростной идеи» кодирования и концептуализировать свидетельства информанта или собственные мысли аналитика с помощью других структур. Так, Decision Explorer http://www.banxia.com/dexplore/pdf/DEIntro1.pdf сразу строился на основе замены кодирования на «картографирование идей» (“Your can use it [Decision Explorer] to map your own thoughts…”).

Но как только такой уход осуществляется, возникает проблема обоснования: почему именно в том виде, например, network или cognitive map, который предлагается взамен традиционных техник кодирования. Дело в том, что эти техники обосновывать не надо, т.к. они суть «естественная качественная рутина», которую применяли на практике издавна, когда, к своей радости, не встречали цифр в нарративе информанта. Конечно, существует литература, в которой анализируются методологические особенности coding&retrieval functions, например, выше указанный U. Kelle.

Но эта литература напоминает мне классические советские обоснования достоинств «Капитала»: разъясняется, почему Маркс сказал то, что он сказал, но не говорится, почему он не сказал иначе. Обоснование coding&retrieval functions, как положено, лежит в области их практического применения: они чрезвычайно просты, их выполнение не требует от пользователя специальных знаний, компьютерно реализуемы, значит, становятся операбельными большие объемы информации и т.п.

Но смею повторить за MacMillan & McLachlan <http://www.socresonline.org.uk/4/2/macmillan_mclachlan.html>, что главный недостаток пакетов АКД в том, что, с одной стороны, они явно претендуют на то, чтобы служить научным аппаратом аналитика. Это так называемые CAQDAS третьего поколения или theory-building software. С другой, - аналитик не видит за ними того, что он мог бы назвать научным аппаратом: слишком невыразительны отношения между кодами (аналогами научных понятий в составе инструментов АКД).

Уже давно устоялось мнение, что CAQDAS – это средство управления нечисловым данными, построенное на инструментальном, но недостаточно структурированном (по сравнению, например, с объектно-ориентированным программированием) аппарате, которым как раз оказываются coding&retrieval functions.

Интересно, что применение пакетов АКД показывает, что выражение «слабоструктурированная информация» является неким эвфемизмом. Нечисловая информация не может быть a priori неструктурированной, слабо или сильно структурированной и т.п. A priori она лишь допускает операции, отличные от каких-то других операций, например, конкатенацию (склеивание), а не сложение. Нечисловую информацию полезно представлять в виде потока, например, текста или видео, но поверхностно думать, что поток не имеет собственной структуры или считать эту структуру «слабой». Информация оказывается слабо или сильно структурированной в зависимости от действий аналитика, который эту информацию фрагментирует и переупорядочивает с помощью кодирования.

По сути, это одна из основных идей grounded theory, в которой данные формируются не до исследования, т.е. аналитических действий, а по их результатам. Отметим, что эти действия, в свою очередь, находятся в зависимости от собираемых данных. Тем самым если аналитик посчитал, что социальная информация является «слабо структурированной», то он просто не доработал в своих усилиях по ее структуризации…

В этой связи мне представляется, что чрезвычайно важно для конструктивного развития качественной методологии не столько описывать социологам спектр существующих ныне компьютерных возможностей (см. А. Давыдов «Конкурентные преимущества системной социологии http://www.ecsocman.edu.ru/db/msg/324618.html, https://www.isras.ru/publ.html?id=855 ), сколько разъяснять исходные представления. Иначе всегда будет так, как отметила Ю. Толстова «Работы этого исследователя [А. Давыдова] получают неоднозначную оценку в социологическом сообществе». Конечно, неоднозначную, т.к. социолог говорит о «понимающей социологии», но не понимает, что «две большие разницы» существуют не только в Одессе, но и в том, например, что есть информация и источник информации.

Нужно объяснять, скажем, чем информация отличается от суждения информанта? В чем разница между текстовым редактором и пакетом анализа текстовых данных? В чем состоят гипотезы многообразных методов анализа неколичественной информации? Действительно, почему возникает CAQDAS, если уже есть контент-анализ? И многое-многое другое, иногда показывая картинки в назидательных целях: человек, понявший, что такое информация, сумеет создать инновационный отчет с использованием Web-технологий.

Возвращаясь к coding&retrieval functions – у них есть почти очевидное преимущество перед, например, современным языком представлений знаний в варианте спецификации Ontology Web Language http://sherdim.rsu.ru/pts/semantic_web/REC-owl-features-20040210_ru.html Они «просты до фундаментальности». Формально это выражается, скажем, в том, что они не требуют компиляции. Однако, опасаюсь, что социолог не сразу поймет, почему это важно, когда хочется создать вычислительную поддержку для социологического исследования.

Переходя к предложениям, которые в заключении заметки. Несмотря на монолитное единство цели («так, чтобы показывал»), существует разрыв между проблематикой, как сделать телевизор, чтобы он показывал, и как его включать, чтобы он показывал. У меня впечатление, что «отцы-основатели» сегодняшнего курса отечественной социологии склонны думать, что следует сначала «научиться включать», а потом будет видно. И они правы, т.к. в телевизоре, действительно, «будет видно» только после того, как его включишь. Конечно, они понимают, чтобы научиться «включать» нужно, чтобы было то, что, собственно, можно «включать». Но среди «отцов-основателей» никто не делал телевизоров, поэтому они думают, что не имеет смысла рассматривать социальный феномен телевизора до того момента, как он появился на прилавке.

Бесспорно, «чтобы быть конкурентоспособными в информационном обществе, основанном на знаниях [12, 35], российские социологи должны предпринимать шаги…» Для меня «специализация по разработке компьютерных систем для анализа социологических данных» – это хорошая идея. Но я бы сказал немного иначе.

Несомненно, полезно, чтобы каждый социолог, т.е. человек, который связывает свою жизнь с научной методологией, прошел курс бесспорной современной научной методологии, т.е. познакомился с идеями и методами современных информационных технологий. Это не может быть осуществлено на каких-то спецкурсах типа сборов в районном военкомате под руководством отставного или действующего профессора. Такого профессора просто нет. Не является удачной альтернативой и ускоренный курс обучения разговорному языку, в котором присутствуют слова «информатика», «база данных» и «компьютерные технологии».

Самым эффективным способом вхождения в искомую спецификацию является создание собственной компьютерной системы в своей предметной области. Бесспорно, что одной из таких областей является анализ нечисловых свидетельств людей. Более того, у меня впечатление, судя, например, по Alexa&Zuell, 2000, что в западной социологии именно так и поступают. Плюс к тому уже существует Интернет, который, бесспорно, даст ответы всем тем, кто захочет задать вопросы.

Не знаю, можно ли считать, что такое развитие означает «специализацию по разработке компьютерных систем для анализа социологических данных». Заведомо известно, что телезрителей на порядки меньше, чем разработчиков телевизионных систем. Зачем учить телезрителя тому, как работает телевизор? Хотя, конечно, нужны специальные педагогические усилия, чтобы научить потенциального аналитика применять в своих выкладках что-либо, отличное от текста в его Notepad’овской версии, в частности, пакет АКД.

Может быть, я слишком строг в понимании слова «специализация», т.к. считаю, что все прошедшие эту процедуру окажутся призванными в ряды разработчиков компьютерных систем. Возможно, что ничего страшного, но сегодняшние социологи – это люди с хорошими вербальными навыками, которые они будут использовать по полной программе при отстаивании своих мнений о том, что, собственно, нужно программировать. До программирования дела не дойдет. Может быть, и не надо. Принесут со склада очередной телевизор, научаться включать.

Стоит ли создавать свой «качественный автопром», в условиях, когда все ездят на иномарках, и ни один мэтр отечественной «неколичественной» социологии даже не упомянул в своих пионерных работах о том, что было создано в конструктивной качественной методологии за последние 30-40 лет?

Конечно, стоит. Иначе просто невозможно осуществить тот самый инновационный путь развития. «Может не быть поэтов, но поэзия будет всегда».

 

СПИСОК ЛИТЕРАТУРЫ

Alexa, M. & Zuell, C. (2000). A review of software for text analysis. Mannheim: ZUMA Nachrichten.

Lewins A. & Silver C. (2007) Using Qualitative Software: A Step-by-Step Guide. Sage publications, London.

Tesch, R. (1990). Qualitative Research: Analysis types and software tools. New York: The Falmer Press.

Фрумкина, Р.М. (2006) Психология и лингвистика как контексты социального познания // Пути России: Проблемы социального познания / Под общ. ред. Д.М. Рогозина. М.: МВШСЭН. С. 128-144.