COMPUTATIONAL

SOCIAL SCIENCE



Қазіргі Қазақстан evidence-based policy немесе деректерге негізделген жаңа тәсілдерді қолдануды талап ететін бірқатар мәселелермен бетпе-бет келіп отыр. Соңғы онжылдықтардағы жүргізілген цифрландырудың арқасында әлеуметтанушылар ғылыми жұмыс жүргізу кезінде қысқа мерзім ішінде арнайы сауалнама жүргізбей немесе статистикалық ақпарат жинамай-ақ, қоғам туралы көптеген мәліметтерге қол жеткізе бастады. Әлеуметтік желілер, сандық іздер, заттар интернеті, мемлекет пен бизнестің платформалары зерттеушілердің сұрақтарына үлкен ауқымда және дәлірек жауап алатын сансыз деректер жиынтығын жасауда. Әлеуметтану есептеуге айналды.


Осы ретте, қазіргі заманғы әлеуметтік зерттеулердегі озық бағыттардың бірі есептеуші әлеуметтік ғылымдарды пайдалану болып отыр (Computational Social Science).

Computational Social Science дегеніміз не?
CSS – бұл әлеуметтік желілерден, Интернеттен немесе басқа да цифрланған мұрағаттардан (мысалы, әкімшілік жазбалар) деректердің үлкен көлеміне есептеу әдістерін қолдану арқылы адамның мінез-құлық теорияларын дамытатын пәнаралық сала.

Қандай да бір ғылыми жұмысты есептеуші әлеуметтік ғылымға қатысты деп айта алатындай бекітілген шекара бар ма?

Кез келген ғылыми жұмыс есептеу әлеуметтануына қатысты деп айта алатын шеңбер қандай? Біз әдетте CSS-ті теориялық негіз ретінде емес, әлеуметтік сипаттағы деректермен жұмыс істеудің үлкен әдіснамалық тәсілі ретінде қарастырамыз. Демек, бірқатар әдістер аясында орындалған кез келген әлеуметтану тақырыбындағы жұмыс CSS-ке жатқызылуы мүмкін.

CSS ӘДІСТЕРІ

Social Network Analysis

SNA (social network analysisAndrew Beveridge и Jie Shan немесе әлеуметтік желілерді талдау) — бұл графтардың математикалық теориясына негізделген, белгілі бір әлеуметтік желі шеңберінде объектілер арасындағы өзара байланыс құрылымын зерттеуге бағытталған әдіс. Желі түйіндерден (желінің жеке субъектілері) және жиектерден (түйіндер арасындағы қатынастар) тұрады. SNA құралдары топ ішіндегі адамдар арасындағы өзара байланыс үлгілерін талдау үшін пайдаланылады. Желіні визуализациялау қарым – қатынас құрылымын көруге, айқын емес байланыстарды және олардың сипатын, сондай-ақ түйін кластердің қалыптасқан топтарын анықтауға мүмкіндік береді.

SNA ұғымын түсіну үшін осы бағыттағы зерттеу объектісіне, яғни «желіге» анықтама беруіміз қажет. Желі – бұл объектілер/агенттер/шыңдар мен олардың арасындағы байланыстар/жиектер арасындағы қатынастар жиынтығы. Біз оны әлеуметтік желілерді пайдаланушылар (шыңдар) және олардың бір-біріне жазылымдарының (жиелер) жиынтығы ретінде көрсете аламыз. Осыдан кейін желіде кімнің және неге танымал екенін зерттеп, басқа да көптеген сұрақтарды қоюымызға болады. Желі түрінде көптеген басқа құбылыстарды, мәселен, сыныптағы қарым-қатынасты (кім кіммен дос), компаниядағы қызметкерлердің мансаптық траекториясын (кім үлкен беделге ие және жоғарылайды), әдеби нарықты (әртүрлі авторлар қандай баспаларда жарияланады) және т.б. көрсетуге болады.

Мысалы, Andrew Beveridge пен Jie Shan «Мұз бен от жыры» фэнтези романдар сериясындағы кейіпкерлер арасындағы қарым-қатынасты зерттеу үшін әлеуметтік желілерді талдау әдісін қолданған. Авторлар серияның үшінші кітабының (Семсерлер дауылы) негізінде желі құру үшін графтар теориясының алгоритмдерін қолданған, өйткені дәл осы бөлікте кейіпкерлер әртүрлі әлеуметтік топтарға бөлінген болатын.

Әдіс арқылы 107 түйін (кейіпкерлер) мен 353 өлшенген жиектердің құрылымы бөлінді, мұнда салмақтар шамамен 15 Сөз ішіндегі кейіпкерлердің бірлескен сілтемелерінің санына сәйкес келді. Құрылымнан жеті қоғамдастық (кластер) бөлініп алынды, бұл кітаптың сюжетіне тереңдемей-ақ баяндау ішіндегі жасырын саяси картаны анықтауға көмектесті.

Төмендегі суретте кейіпкерлердің әлеуметтік желісінің визуализациясы ұсынылған. Түйіндердің түсі олардың бір кластерге жататынын білдіреді, ал оның өлшемі желі құрылымы тұрғысынан кейіпкердің маңыздылығына пропорционалды. Қаріп өлшемі болса, белгілі бір кейіпкердің басқалар арасында қаншалықты жиі делдал болғанын көрсетеді.


  • Andrew Beveridge бен Jie Shan (2016) мақаласынан алынған сурет. «Семсерлер дауылы» кітабындағы кейіпкерлердің өзара қарым-қатынасы негізінде жасалған әлеуметтік желі
Natural Language Processing
NLP (natural language processing немесе табиғи тілді компьютерлік талдау) – бұл компьютерлік алгоритмдердің көмегімен мәтіндердің кез келген түрін талдауға мүмкіндік беретін әдістер тобы. NLP компьютерлік лингвистика/есептеу лингвистикасы деп те аталады. Әдістің басты артықшылықтарының бірі – мәтіндік деректерді өңдеу процесін автоматтандыру, сондай-ақ тіпті адам өмір бойы оқып біте алмайтын үлкен көлемдегі мәтіндермен жұмыс істеу мүмкіндігі.

Зерттеушілер күн сайын дерлік NLP-мен бетпе-бет келетініне қарамастан (хат алмасудағы автотүзетуде, ChatGPT де осындай әдістерге негізделген), әлеуметтануда бұл шеңбердегі жұмыстар жиі кездесе бермейді. Әдетте NLP мәдениет, саяси әлеуметтану, теңсіздікті зерттеу және т.б. салалардағы зерттеулерде қолданылады.

Мысалы, Kozlowski мен әріптестері жүргізген зерттеу жұмысында мәтіндік корпустарды талдау және word embeddings технологиясы арқылы бұқаралық дискурста әлеуметтік тап анықтамасымен байланысты мағыналық ассоциациялардың қалай қалыптасатыны зерттелді.Үлкен көлемді мәтіндік деректерді талдау нәтижесінде олар әрекеттердің, құндылықтар мен әлеуметтiк тәжірибелердің кедейлiк, байлық, еркектік және феминизм туралы ұғымдармен қалай байланысты екенін анықтады.

Берілген суретте авторлар «кедей-бай» және «әйелдік-еркектік» осьтерін пайдалана отырып, спорт түрлерінің бөлінуін көрнекі түрде көрсетеді. Осы осьтердің көмегімен зерттеушілер мәтіндерде белгілі бір спорттық шаралардың әлеуметтік мәртебе және гендерлік түсініктермен қалай байланысты екенін көрсетеді. Бокс, хоккей және баскетбол кедейшілік пен ер адам ассоциациясымен, теннис пен гольф - байлықпен және ер адамдарға тән, ал софтбол мен волейбол - «бай» және «әйелдік» спорт түрі ретінде қабылданады.

  • Kozlowski et al.(2019) мақаласынан алынған сурет. Спорт түрлері бойынша әлеуметтік таппен байланысты ассоциациялар X осінде, гендермен байланысты ассоциациялар Y осінде көрсетілген.
Causal Inference
Себеп-салдарлық байланыстарды зерттеу (Causal Inference, CI) бұл құбылыстар арасындағы себеп-салдарлық байланыстарды айқындауға бағытталған деректерді талдау әдісі. Қарапайым тілмен айтқанда, CI «Бір оқиға екіншісіне әсер ете ме?» деген сұраққа жауап беруге көмектеседі. Мысалы, кәсіптік қайта даярлау бағдарламасы адамның жұмысқа орналасу мүмкіндігін арттыра ма? Немесе емге жаңа дәрі пайдалану ауруханаға жату ықтималдығын төмендете ме?

Мұндай сұрақтарға жауап беру үшін қарапайым корреляциялық талдау жеткіліксіз. Өйткені екі айнымалы байланысты болуы мүмкін, бірақ бұл біреуі екіншісінің себебі екенін білдірмейді. Бұл құбылыс көбінесе «correlation doesn't imply causation» деген тіркесте ресімделеді – корреляция себепті білдірмейді. Себебі неде?

Себептердің бірі – біз екі айнымалының арасындағы корреляцияны құрастырып, ол арқылы себептерін анықтауға тырыссақ (бір айнымалы екіншісінің себебі), онда біз әдетте үшінші айнымалының әсерін (omitted variable) ескермей қаламыз, яғни есептеуде ескерілмеген нәрсе, бірақ шын мәнінде оның да өз әсері бар.

Үшінші айнымалының бар екендігінің жиі кездесетін мысалдарының бірі – балмұздақ пен күнге күю. Егер тұтынылатын балмұздақ саны мен күнге күю жағдайларының санын есептесек, онда өзара байланыс айтарлықтай күшті болады. Бірақ логикалық тұрғыдан балмұздақ күнге күюге әсер ете ма, жоқ па, оны нақты айта алмаймыз. Бұл жағдайда біз үшінші айнымалыны - жыл мезгілін ескермейміз. Яғни, жазғы ыстық ауа райы адамдардың балмұздақ сатып алуына әсер етіп, күйік алуына себеп болады.

Causal inference саясат, дәрі-дәрмек, білім беру бағдарламалары мен маркетингтік стратегиялардың тиімділігін бағалау үшін экономика, медицина, әлеуметтік ғылымдар және бизнес-аналитикада кеңінен қолданылады.

Оған мысалдардың бірі ретінде Eric Chyn зерттеуін аламыз, онда автор Чикагодағы мемлекеттік тұрғын үйді бұзу нәтижесінде балаларды қылмыс деңгейі жоғарыаудандардан неғұрлым қауіпсіз аудандарға мәжбүрлеп көшірудің ұзақ мерзімді салдарын қараған. Жұмыспен қамту, табыс және білім туралы деректерді пайдалана отырып, автор сипаттамалары бойынша ұқсас екі топты салыстырады:

– Көшуге мәжбүр болғандар (эксперименттік топ);
– Сол ауданда қалғандар (бақылау тобы).

Мұндай квазиэксперименттік дизайн әсер етудің себептік әсерін бағалауға мүмкіндік берді, себебі бұл жағдайда көшу тұрғындардың өз бастамасымен емес, ғимараттардың апаттық жағдайына байланысты болды. Бұл топтар арасындағы жүйелі айырмашылықтардың ықтималдығын төмендетеді және өмір сүру деңгейіндегі айырмашылықты көшудің нәтижесі ретінде түсіндіруге мүмкіндік береді.

Төмендегі суретте көшіп келгендер тобы көшу кезіндегі жасына қарай қосымша бөлінген екі топты салыстыру нәтижелері берілген (7–12 және 13–18). Кесте екі панельден тұрады, оның сол жағы еңбекпен қамтуды, ал оң жағы - кірісті көрсетеді. Нәтижелерге қарасақ, мәжбүрлеп көшудің, әсіресе жасы кіші топтардың арасында оң әсері байқалады.

  • Eric Chin (2018) мақаласынан алынған сурет. Өлшеу жасына байланысты жұмыспен қамтылу мен табысқа әсері, мұнда X осі – жастың, ал Y осі – әсердің шамасы.
Agent Based Modeling
Агенттік модельдеу (Agent based modeling, ABM) компьютерлік модельдеу арқылы күрделі әлеуметтік жүйелерді зерттеуге мүмкіндік береді. Бұл әдіс динамикалық орта құруды және оған агенттерді орналастыруды көздейді.

Агенттер – бұл белгілі бір сипаттамалар жиынтығы бар автономды объектілер, олардың мінез-құлқы (мысалы, басқа агенттермен қарым-қатынасы) белгілі бір жолмен бағдарламаланады. Әдістің артықшылығы - процесті талдау қолда бар деректермен шектеліп қалмай, өзіңіздің гипотетикалық сценарийлеріңізді жасауға, олардың динамикасын зерттеуге және мінез-құлықтың жаңа үлгілерін анықтауға мүмкіндік беретін симуляция жасау мүмкіндігінде.

Мысал ретінде қалалық трафикті модельдеуді келтіруге болады, мұнда әрбір автомобиль – бағдаршамдар мен қозғалыстың басқа қатысушыларының сигналдарына жауап беретін белгілі бір сипаттамалары бар агент. Параметрлерді өзгерту арқылы жаңа жолдардың немесе қозғалыс үлгілерінің кептеліс пен қауіпсіздікке әсерін бағалауға болады. Тағы бір мысал – аурулардың таралуын модельдеу, мұнда агенттер (адамдар) бірегей атрибуттарға ие және әлеуметтік қашықтық немесе вакцинация сияқты ережелерге сәйкес өзара әрекеттеседі. Бұл қоғамдық денсаулық сақтау шараларының тиімділігін бағалауға көмектеседі.

Агенттік модельдеудің классикалық үлгісі ретінде Schelling (1971) зерттеу жұмысын алуға болады, онда автор нәсілдік сегрегация моделін құру үшін симуляциялық модельдеуді қолданады. Schelling моделінің басты идеясы – адамдардың өздеріне ұқсас жандардың арасында тұруға деген кішкентай ықыласы қалаларда күшті сегрегацияға әкелетінін тексеру.

Суретте бастапқыда ретсіз, бытыраңқы тәртіпте орналасқан агенттер басқа ұяшықтарға жылжып, аудандардың бірдей түске мінсіз бөлінуін тудыратын модельдеу нәтижелері берілген. Бұл агенттердің олардың қасиеттерін бөлісетін біреумен бірге өмір сүруге деген ықыласына сай қозғалғанын білдіреді. Ұяшықтар агенттердің әрқайсысы өзінің орналасқан жеріне қанағаттанғанша орын ауыстыра береді.

  • Luca Mingarelli (2021) мақаласынан алынған сурет. Шеллингтің сегрегация моделінің төрт кезеңді көрсететін визуализациясы
Machine Learning
Машиналық оқыту (Machine learning, ML) — қарапайым тілмен айтқанда, нақты әлемдегі деректер негізінде өзіңізді үнемі жетілдіре отырып, жасанды интеллектті (AI) адам сияқты ойлауға және үйренуге қалай мәжбүрлеу керектігі туралы білім саласы. Дерекқорды бастапқы дерек ретінде пайдалана отырып, машиналық оқыту алгоритмдері болжау, жіктеу және кластерлеуді қоса алғанда, күрделі тапсырмаларды орындай алады. ML артықшылықтарының бірі — деректердің үлкен көлемімен жұмыс істеу және дәстүрлі статистикалық әдістермен анықталуы қиын күрделі тәуелділіктерді табу мүмкіндігі.

Қазіргі уақытта ML бизнесте және техникалық ғылымдарда кеңінен қолданылады. Әлеуметтануда бұл әдіс алгоритм «үйренген» қандай да бір заңдылықтарды түсіндіру құралы ретінде қолданылады. Бұл тәсіл интерпретацияланатын машиналық оқыту деп аталады (interpretable machine learning, IML немесе explainable artificial intelligence, XAI).

Мысалы, Бернаско мен оның әріптестерінің ғылыми жұмысында бейнебақылау камераларының деректерін талдау арқылы 2020-2021 жылдардағы COVID-19 пандемиясы кезінде Амстердам (Нидерланды) тұрғындары 1,5 метрлік әлеуметтік қашықтықты қалай сақтағаны зерттелді. Авторлар видеоларды талдап, жаяу жүргіншілер арасындағы қашықтықты өлшейтін және карантиннің әртүрлі толқындарында әлеуметтік арақашықтық ережелерін бұзу санын есептейтін ML алгоритмін әзірлеп шықты.

  • Bernasco et al. (2021) мақаласынан алынған суретте зерттелген камералардың деректері бойынша 1,5 метрлік әлеуметтік арақашықтық ережесін бұзудың орташа саны (Y осі) және 2020-2021 жылдардағы апталар (Х осі) көрсетілген
Large Language Models
Үлкен тілдік модельдер (Large language models, LLMs) – бұл компьютерлерге мәтінді түсінуге және жасауға мүмкіндік беретін машиналық оқыту модельдерінің түрі. Мұндай модельдер үлкен көлемдегі мәтіндер арқылы (кітаптар, мақалалар, веб-беттер және басқа да көздер) оқытылады және сөйлемде келетін келесі сөздер мен тіркестерді болжауды үйренеді. Үлкен тілдік модельдердің ең танымал мысалдарының бірі – ChatGPT, ол сұрау контекстіне сүйене отырып жауап береді.

LLMs туралы әңгіме өрбігенде, көп жағдайда олардың мәтін жазу қабілетіне баса назар аударылады. Бірақ бұл айсбергтің ұшы ғана. Олар дәрігерлерге медициналық карталарды өңдеуге, заңгерлерге құжаттарды дайындауға, журналистерге фактілерді жинауға, маркетологтарға креатив жасауға көмектеседі.

Әлеуметтанушылар LLM-ді қоғамның «көшірмесі» ретінде пайдаланады (өйткені үлкен модельдер интернеттегі барлық дерлік қолжетімді мәтіндерде оқытылады). Осының арқасында LLM-ді талдау арқылы Argyle мен басқалары сияқты қоғамдық пікір сауалнамасының нәтижелерінің үлгісін жасауға тырысуға болады (2023).

Тағы бір мысалды Park және басқаларының (2023) зерттеуінен келтіруге болады, онда авторлар LLM-ді агенттік модельдеумен біріктірді. Бір кооперативтік ойынның ішінде олар LLM арқылы бір-бірімен араласа алатын бірнеше агенттерді құрды. Содан кейін олар агенттердің өзара іс-қимылын бақылап, нәтижесінде әлеуметтік иерархияның пайда болу процестерін анықтады, сондай-ақ ұжымда ақпараттың таралу процестерінің ерекшеліктерін зерттеді.

  • Park et al. (2023) мақаласынан алынған сурет. Симуляция мен агенттер арасында өзара байланыс болған ойынның мысалымақаласынан алынған сурет

Kazakhstan Sociology Lab computational social science бағыты бойынша белсенді дамып келеді және бұл тәсілдерді Қазақстандағы зерттеушілер мен студенттер арасында кеңінен танымал етуді көздейді. Біздің Мектеп бағдарламасына – әлеуметтік тәсілге негізделген үлкен деректерді, әлеуметтік желілерді және цифрлық мінез-құлық іздерін талдау бойынша оқыту курстары мен модульдер, шеберлік сабақтары, зерттеу жобалары кіреді. Біз ашық деректердің жаңа көздерін және әлеуметтік үдерістерді модельдеуді машиналық оқыту, табиғи тілді өңдеу (Natural Language Processing, NLP), әлеуметтік желілерді талдау (Social Network Analysis, SNA), эксперименттік әдістер сияқты құралдар арқылы талқылаймыз. Бұл әдістер Қазақстандағы әлеуметтік үдерістерді тереңірек түсінуге және шешім қабылдаушы тұлғалар мен қоғам үшін неғұрлым дәлелді шешімдер ұсынуға мүмкіндік береді.

© 2023 Kazakhstan Sociology Lab
Пайдалану шарттары
Реквизиттер
КОРПОРАТИВНЫЙ ФОНД "ФОНД "EL UMITI"
Юридический адрес:
010000, Республика Казахстан, г.Астана, ул.Бокейхана, 1
Фактический адрес:
010000, Республика Казахстан, г.Астана, Пр.Мангилик ел, 55/13, блок С.2.1.
БИН: 190940020707
Счет: KZ60601A871005960391
Название банка: филиал АО «HalykBank» г. Астана
БИК: HSBKKZKX