Tyrimas atskleidžia užkrečiamą kalbos epidemiją

2024.05.11 14:13

„Lazdos ir akmenys gali sulaužyti man kaulus“, – sakoma sena posakis. – Bet žodžiai manęs niekada nepakenks. Pasakykite tai Eugenijai Rho, Informatikos katedros docentei, ir ji parodys jums daug duomenų, įrodančių priešingai.

Jos draugija + AI ir kalbų laboratorija tai parodė

Dabar Rho tyrimų grupė Inžinerijos koledže kreipėsi į kitą klausimą: kokį poveikį socialinės žiniasklaidos retorika turėjo COVID-19 užsikrėtimui ir mirčių skaičiui Jungtinėse Valstijose ir ko iš to gali pasimokyti politikos formuotojai ir visuomenės sveikatos pareigūnai?

„Daugelis tyrimų tiesiog aprašo, kas vyksta internete. Dažnai jie neparodo tiesioginio ryšio su elgesiu neprisijungus”, – sakė Rho. „Tačiau yra apčiuopiamas būdas susieti elgesį internete su sprendimų priėmimu neprisijungus.”

Priežastis ir pasekmė

COVID-19 pandemijos metu socialinė žiniasklaida tapo masine susibūrimo vieta prieš visuomenės sveikatos gaires, tokias kaip kaukių dėvėjimas, socialinis atsiribojimas ir vakcinos. Didėjanti dezinformacija paskatino platų prevencinių priemonių nepaisymą ir lėmė labai išaugusį infekcijų skaičių, perpildytas ligonines, sveikatos priežiūros darbuotojų trūkumą, išvengiamų mirčių ir ekonominių nuostolių.

Remiantis 2022 m. Yale Journal of Biology and Medicine paskelbtu tyrimu, per vieną mėnesį nuo 2021 m. lapkričio iki gruodžio mėnesio buvo pranešta apie daugiau nei 692 000 išvengiamų neskiepytų pacientų hospitalizacijų. Vien tos hospitalizacijos kainavo stulbinančius 13,8 mlrd.

Tyrime Rho komanda, įskaitant Ph.D. studentas Xiaohanas Dingas sukūrė techniką, kuri išmokė pokalbių robotą GPT-4 analizuoti įrašus keliose uždraustuose subreddit diskusijų grupėse, kurios priešinosi COVID-19 prevencijos priemonėms. Komanda sutelkė dėmesį į „Reddit“, nes jos duomenys buvo prieinami, sakė Rho. Daugelis kitų socialinės žiniasklaidos platformų uždraudė išorės tyrėjams naudoti savo duomenis. Tyrimas paskelbtas arXiv išankstinio spausdinimo serveris.

Rho darbas yra pagrįstas socialinių mokslų sistema, vadinama Fuzzy Trace Theory, kurios pradininkė Valerie Reyna, Kornelio universiteto psichologijos profesorė ir šio Virginia Tech projekto bendradarbė.

Reyna parodė, kad žmonės geriau išmoksta ir prisimena informaciją, kai ji išreiškiama priežasties ir pasekmės ryšiu, o ne tik kaip pagrindinė informacija. Tai galioja net jei informacija netiksli arba numanomas ryšys silpnas. Reyna šią priežasties ir pasekmės konstrukciją vadina „esme“.

Tyrėjai stengėsi atsakyti į keturis pagrindinius klausimus, susijusius su socialinės žiniasklaidos esmėmis:

Kaip galime efektyviai numatyti socialinių tinklų diskurso esmes nacionaliniu mastu?
Kokie esminiai dalykai apibūdina tai, kaip ir kodėl žmonės prieštarauja COVID-19 visuomenės sveikatos praktikai ir kaip šios esmės keičiasi laikui bėgant svarbiausių įvykių metu?
Ar esminiai modeliai reikšmingai numato vartotojų įsitraukimo internete modelius uždraustuose antriniuose įrašuose, kurie prieštarauja COVID-19 sveikatos praktikai?
Ar pagrindiniai modeliai reikšmingai numato nacionalinių sveikatos rezultatų tendencijas?

Trūksta grandis

Rho komanda naudojo raginimo metodus didelių kalbų modeliuose (LLM) – dirbtinio intelekto (DI) programos tipą – kartu su išplėstine statistika, kad galėtų ieškoti ir sekti šias esmes draudžiamose subreddit grupėse. Tada modelis palygino juos su COVID-19 etapais, tokiais kaip infekcijų rodikliai, hospitalizavimas, mirtys ir susiję viešosios politikos pranešimai.

Rezultatai rodo, kad iš tiesų socialinių tinklų įrašai, kuriuose priežastis, pvz., „Aš pasiskiepijau COVID“, buvo susieta su efektu, pvz., „Nuo to laiko jaučiausi kaip mirtis“, greitai pasirodė žmonių įsitikinimuose ir paveikė. neprisijungus priimtus sveikatos sprendimus. Tiesą sakant, bendrą ir naujų kasdienių COVID-19 atvejų JAV galima gerokai nuspėti pagal uždraustų subredditų grupių esmę.

Tai pirmasis dirbtinio intelekto tyrimas, kurio metu socialinės žiniasklaidos kalbiniai modeliai empiriškai susiejami su realiomis visuomenės sveikatos tendencijomis, pabrėžiant šių didelių kalbų modelių potencialą nustatyti svarbiausius internetinių diskusijų modelius ir parodyti efektyvesnes visuomenės sveikatos komunikacijos strategijas.

„Šis tyrimas išsprendžia bauginančią problemą: kaip susieti pažintinius prasmės blokus, kuriuos žmonės iš tikrųjų naudoja, su informacijos srautu socialinėje žiniasklaidoje ir su sveikatos rezultatų pasauliu“, – sakė Reyna. „Ši greita LLM sistema, identifikuojanti esmę dideliu mastu, turi daug galimų programų, kurios gali skatinti geresnę sveikatą ir gerovę.

Dideli duomenys, didelis poveikis

Rho sakė, kad tikisi, kad šis tyrimas paskatins kitus mokslininkus pritaikyti šiuos metodus svarbiems klausimams. Tuo tikslu šiame projekte naudojamas kodas bus laisvai prieinamas, kai leidinys bus paskelbtas Skaičiavimo mašinų asociacijos konferencijos apie žmogiškuosius veiksnius kompiuterinėse sistemose medžiaga. Straipsnyje taip pat palyginamos įvairių būdų, kaip mokslininkai gali analizuoti didelius duomenų rinkinius ir gauti reikšmingas išvadas mažesnėmis sąnaudomis, kaina. Grupė pristato savo išvadas gegužės 11–16 dienomis Honolulu, Havajuose.

Už akademinės bendruomenės ribų Rho sakė tikintis, kad šis darbas paskatins socialinės žiniasklaidos platformas ir kitas suinteresuotąsias šalis rasti alternatyvų panaikinti arba uždrausti grupes, kuriose diskutuojama prieštaringai vertinamomis temomis.

„Tiesiog visiškai uždraudus žmones internetinėse bendruomenėse, ypač tose erdvėse, kur jie jau keičiasi ir mokosi informacija apie sveikatą, gali kilti pavojus, kad jie labiau įsigilins į sąmokslo teorijas ir bus priversti naudotis platformomis, kuriose turinys visiškai nereguliuojamas“, – sakė Rho. „Tikiuosi, kad šis tyrimas gali informuoti, kaip socialinės žiniasklaidos įmonės dirba kartu su visuomenės sveikatos pareigūnais ir organizacijomis, kad geriau įsitrauktų ir suprastų, kas vyksta visuomenės galvoje visuomenės sveikatos krizių metu.