Beveik visi pirmaujantys didelių kalbų modeliai arba „pokalbių robotai“ rodo lengvo pažinimo sutrikimo požymius atliekant testus, plačiai naudojamus ankstyviems demencijos požymiams nustatyti, teigiama Kalėdiniame žurnalo numeryje. BMJ.
Rezultatai taip pat rodo, kad „senesnės“ pokalbių robotų versijos, kaip ir vyresni pacientai, dažniausiai atlieka blogesnius testus. Autoriai teigia, kad šios išvados „ginčija prielaidą, kad dirbtinis intelektas netrukus pakeis žmonių gydytojus“.
Didžiulė pažanga dirbtinio intelekto srityje sukėlė susijaudinusių ir baimingų spėlionių, ar pokalbių robotai gali pranokti žmonių gydytojus, antplūdį.
Keletas tyrimų parodė, kad dideli kalbos modeliai (LLM) puikiai tinka įvairioms medicininės diagnostikos užduotims, tačiau jų jautrumas žmogaus sutrikimams, tokiems kaip pažinimo nuosmukis, dar nebuvo ištirtas.
Norėdami užpildyti šią žinių spragą, mokslininkai įvertino pirmaujančių viešai prieinamų LLM pažintinius gebėjimus – ChatGPT 4 ir 4o (sukūrė OpenAI), Claude 3.5 „Sonnet“ (sukūrė Anthropic) ir Gemini 1 ir 1.5 (sukūrė: Abėcėlė) – naudojant Monrealio kognityvinio vertinimo (MoCA) testą.
MoCA testas plačiai naudojamas pažinimo sutrikimams ir ankstyviems demencijos požymiams nustatyti, dažniausiai vyresnio amžiaus žmonėms. Atliekant daugybę trumpų užduočių ir klausimų, įvertinami gebėjimai, įskaitant dėmesį, atmintį, kalbą, vizualinius ir erdvinius įgūdžius ir vykdomąsias funkcijas. Didžiausias balas yra 30 balų, o 26 ar daugiau balų paprastai laikomas normaliu.
Instrukcijos, pateiktos LLM kiekvienai užduočiai atlikti, buvo tokios pačios kaip ir pacientams, skirtoms žmonėms. Vertinant balus buvo laikomasi oficialių rekomendacijų, jį įvertino praktikuojantis neurologas.
ChatGPT 4o pasiekė aukščiausią MoCA testo balą (26 iš 30), po jo sekė ChatGPT 4 ir Claude (25 iš 30), o Gemini 1.0 surinko žemiausią balą (16 iš 30).
Visi pokalbių robotai parodė prastą vizualinių erdvinių įgūdžių ir vykdomųjų užduočių, tokių kaip pėdsakų sudarymo užduotis (sujungiant skaičius ir raides didėjančia tvarka) ir laikrodžio piešimo testą (laikrodžio ciferblato, rodančio konkretų laiką, piešimas). Dvynių modeliams nepavyko atlikti atidėto prisiminimo užduotį (prisiminant penkių žodžių seką).
Daugumą kitų užduočių, įskaitant įvardijimą, dėmesį, kalbą ir abstrakciją, visi pokalbių robotai atliko gerai.
Tačiau tolesniuose vizualiniuose erdviniuose bandymuose pokalbių robotai negalėjo parodyti empatijos ar tiksliai interpretuoti sudėtingų vaizdinių scenų. Tik „ChatGPT 4o“ pavyko atlikti nesuderinamąjį „Stroop“ testo etapą, kuriame naudojami spalvų pavadinimų ir šriftų spalvų deriniai, siekiant įvertinti, kaip trukdžiai veikia reakcijos laiką.
Tai yra stebėjimo išvados ir autoriai pripažįsta esminius žmogaus smegenų ir didelių kalbos modelių skirtumus.
Tačiau jie nurodo, kad vienodas visų didelių kalbos modelių nesėkmės atliekant užduotis, kurioms reikia vizualinės abstrakcijos ir vykdomosios funkcijos, išryškina reikšmingą silpnumo sritį, kuri gali trukdyti juos naudoti klinikinėje aplinkoje.
Taigi jie daro išvadą: „Ne tik tikėtina, kad neurologai artimiausiu metu bus pakeisti dideliais kalbos modeliais, bet mūsų išvados rodo, kad netrukus jie gali gydyti naujus virtualius pacientus – dirbtinio intelekto modelius, turinčius pažinimo sutrikimų“.