COMPUTATIONAL

SOCIAL SCIENCE



Современный Казахстан сталкивается с рядом вызовов, решение которых требует использования новых подходов, основанных на данных или evidence-based policy. Благодаря цифровизации последних десятилетий за короткий промежуток времени социологам стали доступны большие объёмы данных об обществе, без проведения специализированных опросов или сбора статистической информации. Социальные сети, цифровые следы, интернет вещей, платформы государства и бизнеса ежедневно создают бесчисленные наборы данных, с помощью которых исследователи могут отвечать на свои вопросы в большем масштабе и с большей точностью. Социология становится вычислительной.


В этом контексте одним из авангардных направлений в современных социальных исследованиях является использование вычислительных социальных наук (Computational Social Science).

Что такое Computational Social Science
CSS – это междисциплинарная область, которая развивает теории человеческого поведения путем применения вычислительных методов к большим массивам данных из социальных сетей, Интернета или других оцифрованных архивов (например, административных записей).

Каковы рамки, через которые мы можем утверждать, что какая-либо научная работа относится к вычислительной социологии?

Мы понимаем CSS не как теоретическую рамку, а как большой методологический подход к работе с данными социальной природы. Таким образом, работа на любую социологическую тему, выполненная в рамках ряда методов, может быть причислена к CSS.

МЕТОДЫ CSS

Social Network Analysis

SNA (social network analysis или социально-сетевой анализ) — это метод, основанный на математической теории графов и направленный на изучение структуры взаимодействий между объектами в рамках определенной сети. Сеть состоит из узлов (отдельные субъекты сети) и ребер (отношения между узлами). Инструменты SNA используются для анализа моделей взаимоотношений между людьми в группах. Визуализация сети позволяет увидеть структуру взаимоотношений, выявить неочевидные связи и их характер, а также сформировавшиеся группы узлов – кластера.


Для понимания SNA необходимо дать определение объекту исследования в этом направлении – «сети». Сеть – это набор отношений между объектами/агентами/вершинами и связей/ребрами между ними. Мы можем представить социальные сети таким образом – как набор пользователей (узлов) и их подписок друг на друга (ребра). После этого, можно исследовать кто в сети наиболее популярный и почему, а также задавать ряд других вопросов. В виде сети можно представить множество других явлений: отношения в школьном классе (кто с кем дружит), карьерные траектории работников в компании (кто имеет наибольший авторитет и получает повышение), литературного рынка (в каких издательствах публикуются разные авторы) и проч.


К примеру, Andrew Beveridge и Jie Shan использовали метод социально-сетевого анализа для исследования взаимоотношений между героями из серии фэнтэзи романов «Песнь льда и огня» авторства Дж. Мартина. Авторы применили алгоритмы теории графов для создания сети на основе третьей книги серии (Буря мечей), так как именно в этой части персонажи разделились по разным социальным кругам.


С помощью метода была выделена структура из 107 узлов (персонажи) и 353 взвешенных рёбер, где веса соответствовали числу совместных упоминаний персонажей в пределах 15 слов. Было выделено семь сообществ (кластеров), что помогло выявить скрытую политическую карту внутри повествования без углубления в сюжет книги.


На рисунке представлена визуализация социальной сети персонажей. Цвет узлов означает их принадлежность к одному из кластеров, а размер узла пропорционален важности персонажа с точки зрения структуры сети. В свою очередь размер шрифта – это показатель того, как часто тот или иной персонаж являлся посредником между другими.


  • Рисунок из статьи Andrew Beveridge и Jie Shan (2016). Социальная сеть, построенная на основе взаимоотношений персонажей книги «Буря мечей»
Natural Language Processing
NLP (natural language processing или компьютерный анализ естественного языка) – это группа методов, позволяющих анализировать любые виды текстов с помощью компьютерных алгоритмов. NLP также называют компьютерной/вычислительной лингвистикой. Одним из главных преимуществ метода является автоматизация процесса обработки текстовых данных, а также возможность работы с большими объемами текстов, которые невозможно прочитать даже за всю человеческую жизнь.

Несмотря на то, что исследователи, скорее всего, каждый день сталкиваются с NLP (на таких методах строится как автокоррекция сообщений в переписке, так и ChatGPT), работы в обозначенной рамке встречаются в социологии не так часто. Обычно NLP используют в исследованиях культуры, политической социологии, исследованиях неравенства и проч.

Например, в работе Kozlowski et al. при помощи анализа текстовых корпусов и технологии word embeddings изучалось, как в массовом дискурсе формируются смысловые ассоциации, связанные с определением социального класса. На основе анализа больших текстовых массивов они выявили, как различные занятия, ценности и социальные практики ассоциируются с представлениями о бедности, богатстве, маскулинности и феминности.

На представленном рисунке авторы наглядно демонстрируют распределение видов спорта, используя оси «бедный-богатый» и «феминный-маскулинный». При помощи осей они показывают, как в текстах связаны те или иные спортивные занятия с социальным статусом и гендерными представлениями. Так, бокс, хоккей и баскетбол ассоциируются с бедностью и маскулинностью, теннис и гольф – с богатством и маскулинностью, а софтбол и волейбол – это «богатые» и «феминные» виды спорта.

  • Рисунок из статьи Kozlowski et al. (2019). Ассоциации по видам спорта с классом представлены по оси Х, с гендером – по оси Y
Causal Inference
Исследование причинно-следственных связей и экспериментальные методы (Causal Inference, CI) — это метод анализа данных, направленный на определение причинно-следственных связей между явлениями. Простыми словами, CI помогает ответить на вопрос: "Повлияло ли одно событие на другое?" Например, увеличивает ли программа профессиональной переподготовки шансы человека на трудоустройство? Или снижает ли введение нового лекарства вероятность госпитализации?

Чтобы ответить на такие вопросы, простого анализа корреляции недостаточно. Несмотря на то, что две переменные могут быть связаны, это не означает, что одна вызывает другую. Данный феномен часто оформляют в фразу «correlation doesn’t imply causation» – корреляция не означает причинность. Почему это так?

Одна из причин в том, что когда мы строим корреляцию между двумя переменными и пытаемся на этом установить причинность (что одна переменная является причиной другой), мы часто упускаем влияние третьей переменной (omitted variable) – то есть то, что мы не учли в расчете, но при этом в реальности оно имеет свой эффект.

Одной из частых демонстраций наличия третьей переменной является пример с мороженым и солнечными ожогами. Если построить корреляцию между количеством потребляемого мороженого и количеством случаев получения солнечных ожогов, то ее коэффициент будет указывать на довольно сильную связь. Однако логически мы не можем сказать о том, что мороженое влияет на ожоги или наоборот. В этом случае мы упускаем третью переменную – сезон года. Именно летнее время с жаркой погодой влияет на то, что люди покупают мороженое, и одновременно с этим является причиной получения ожогов.

Causal inference широко используется в экономике, медицине, социальных науках и бизнес-аналитике для оценки эффективности политик, лекарств, образовательных программ и маркетинговых стратегий.

Одним из примеров является исследование Eric Chyn, в котором автором были рассмотрены долгосрочные последствия принудительного переезда детей из высоко-криминогенных районов в более благополучные в результате сноса государственного жилья в Чикаго. Используя данные о занятости, доходах и образовании, автор сравнил две схожие по характеристикам группы:

– Тех, кто был вынужден переехать (экспериментальная группа);
– Тех, кто остался жить в том же районе (контрольная группа).

Такой квазиэкспериментальный дизайн позволил оценить причинный эффект воздействия, так как переезд, в данном случае, происходил не по инициативе самих жителей, а из-за аварийного состояния зданий. Это снижает вероятность систематических различий между группами и позволяет интерпретировать разницу в уровне жизни как результат переезда.

На рисунке продемонстрированы результаты сравнения двух групп, где группа переехавших была дополнительно разделена по возрасту на момент переезда (7-12 лет и 13-18 лет). График состоит из двух панелей, где левая отображает трудовую занятость, а правая – доход. Согласно исследованию, наблюдается положительный эффект от принудительного переезда, особенно среди группы младшего возраста.

  • Рисунок из статьи Eric Chin (2018). Влияние на занятость и заработок в зависимости от возраста измерения, где ось Х – это возраст, а ось Y – эффект воздействия
Agent Based Modeling
Агентное моделирование (Agent based modeling, ABM) позволяет изучать сложные социальные системы путем компьютерного моделирования. Этот метод предполагает создание динамической среды и помещение в нее агентов.

Агенты – это автономные сущности с заданным набором характеристик, поведение которых (например, общение с другими агентами) определенным образом программируется. Преимущество метода заключается в возможности симуляции, при которой анализ процесса не ограничивается имеющимися данными, а позволяет создать собственные гипотетические сценарии, изучать их динамику и выявлять новые паттерны поведения.

Примером является моделирование городского трафика, где каждый автомобиль – агент с заданными характеристиками, реагирующий на сигналы светофоров и других участников движения. Изменяя параметры, можно оценить влияние новых дорог или схем движения на заторы и безопасность. Еще один пример – моделирование распространения болезней, где агенты (люди) обладают уникальными атрибутами и взаимодействуют в соответствии с правилами, такими как социальное дистанцирование или вакцинация. Это помогает оценивать эффективность мер общественного здравоохранения.

Классическим примером агентного моделирования является работа Schelling (1971), где автор применяет симуляционное моделирование для построения модели расовой сегрегации. Главная идея модели – проверить то, насколько небольшие предпочтения людей жить среди «похожих» на них приводят к сильной сегрегации в городах.

На рисунке представлены результаты моделирования, где агенты, изначально расположенные в хаотичном порядке, перемещаются в другие ячейки, создавая почти идеальное разбиение на районы одного цвета. Это значит, что агенты двигались согласно их предпочтениям жить с кем-то, кто разделяет их черты. Ячейки перемещаются до тех пор, пока каждый из агентов не остается довольным своим местоположением.

  • Рисунок из статьи Luca Mingarelli (2021). Визуализация модели сегрегации Шеллинга, демонстрирующая четыре этапа сегрегации
Machine Learning
Методы машинного обучения (machine learning, ML) — это, говоря простым языком, область знаний о том, как заставить искусственный интеллект (ИИ) думать и обучаться как человек, постоянно улучшая себя на основе данных из реального мира. Используя базы данных в качестве исходных, алгоритмы машинного обучения могут выполнять сложные задачи, в том числе прогнозирование, классификацию и кластеризацию. Одно из достоинств ML заключается в способности работать с большими объемами данных и находить сложные зависимости, которые трудно выявить традиционными статистическими методами.

В настоящее время ML повсеместно применяется в бизнесе и технических науках. В социологии этот метод скорее используется как инструмент для объяснения каких-то закономерностей, которым «обучился» алгоритм. Такой подход называют интерпретируемое машинное обучение (interpretable machine learning, IML или explainable artificial intelligence, XAI).

Например, в работе Вима Бернаско и коллег с помощью анализа данных камер видеонаблюдения изучалось, как в пандемию COVID-19 в 2020-2021 г. жители Амстердама (Нидерланды) соблюдали социальную дистанцию в 1,5 м. Авторы разработали ML алгоритм, который анализировал видео и замерял расстояние между пешеходами и подсчитывал количество нарушений правил социальной дистанции в разные волны карантина.

  • Рисунок из статьи Bernasco et al. (2021) со средним числом нарушений правила социальной дистанции в 1.5 м. на данных изучаемых камер (ось Y) и неделями 2020-2021 гг. (ось Х)
Large Language Models
Языковые модели (Large language models, LLMs) – это тип моделей машинного обучения, которая позволяет компьютерам понимать и генерировать текст. Такие модели обучаются на огромных объемах текста (книгах, статьях, веб-страницах и других источниках) и учатся предсказывать, какие слова или фразы будут дальше в предложении. Одним из самых известных примеров большой языковой модели является ChatGPT, который генерирует ответы, опираясь на контекст запроса.

Когда говорят про LLMs, часто акцент делают на их способности писать тексты. Но это только верхушка айсберга. Они помогают врачам обрабатывать медицинские карты, юристам – готовить документы, журналистам – собирать факты, маркетологам – писать креативы.

Социологи же используют LLMs как «слепок» общества (ведь большие модели обучаются буквально на всех доступных в интернете текстах). Благодаря этому, анализируя LLMs можно пытаться смоделировать результаты опросов общественного мнения, как это делают Argyle et al. (2023).

Другой пример можно привести из исследования Park et al. (2023), где авторы совместили LLM с агентным моделированием. Внутри одной кооперативной игры они создали несколько агентов, которые могли общаться друг с другом через LLM. После чего они наблюдали за взаимодействиями агентов между собой, в результате которых выявили процессы появления социальной иерархии, а также изучили специфику процессов распространения информации в коллективе.

  • Рисунок из статьи Park et al. (2023). Пример игры, в которой происходила симуляция и примеров взаимодействия агентов между собой

Kazkahstan Sociology Lab активно развивается в направлении computational social science, популяризируя эти подходы среди казахстанских исследователей и студентов. В программе нашей Школы – обучающие курсы и модули, мастер-классы, исследовательские проекты, основанные на социологическом подходе к анализу больших данных, социальных сетей и цифровых следов поведения. Мы обсуждаем новые источники открытых данных и моделирование социальных процессов с помощью методов машинного обучения, обработки естественного языка (Natural Language Processing, NLP), социально-сетевого анализа (Social Network Analysis, SNA), экспериментальных методов. Эти методы позволяют глубже понимать социальные процессы в Казахстане и и предлагать более обоснованные решения для лиц принимающих решения и общества в целом.

© 2023 Kazakhstan Sociology Lab
Реквизиты
КОРПОРАТИВНЫЙ ФОНД "ФОНД "EL UMITI"
Юридический адрес:
010000, Республика Казахстан, г.Астана, ул.Бокейхана, 1
Фактический адрес:
010000, Республика Казахстан, г.Астана, Пр.Мангилик ел, 55/13, блок С.2.1.
БИН: 190940020707
Счет: KZ60601A871005960391
Название банка: филиал АО «HalykBank» г. Астана
БИК: HSBKKZKX