„Georgia Tech“ mokslininkai teigia, kad angliškai nekalbantys asmenys neturėtų pasikliauti tokiais pokalbių robotais kaip „ChatGPT“, kad galėtų teikti vertingų sveikatos patarimų.
Tyrėjų komanda iš Georgia Tech Kompiuterijos koledžo sukūrė sistemą, skirtą didelių kalbų modelių (LLM) galimybėms įvertinti. Ph.D. studentai Mohit Chandra ir Yiqiao (Ahren) Jin yra vienas iš svarbiausių referato „Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Health care Queries“ autoriai. Straipsnis paskelbtas arXiv išankstinio spausdinimo serveris.
Jų darbo išvados atskleidžia atotrūkį tarp LLM ir jų gebėjimo atsakyti į su sveikata susijusius klausimus. Chandra ir Jin atkreipia dėmesį į LLM apribojimus vartotojams ir kūrėjams, bet taip pat pabrėžia jų potencialą.
Jų XLingEval sistema įspėja nekalbančius angliškai, kad jie nenaudotų pokalbių robotų kaip alternatyvų gydytojų patarimams. Tačiau modelius galima patobulinti papildant duomenų fondą daugiakalbe šaltinio medžiaga, pvz., siūlomu XLingHealth etalonu.
„Vartotojams mūsų tyrimas patvirtina tai, kas jau teigiama „ChatGPT“ svetainėje: pokalbių robotai daro daug klaidų, todėl neturėtume jais pasikliauti priimant svarbius sprendimus ar informacijos, kuriai reikalingas didelis tikslumas“, – sakė Jin.
„Kadangi mes pastebėjome šį kalbų skirtumą, LLM kūrėjai turėtų sutelkti dėmesį į tikslumo, teisingumo, nuoseklumo ir patikimumo gerinimą kitomis kalbomis“, – sakė Jin.
Naudodami XLingEval, mokslininkai nustatė, kad pokalbių robotai yra mažiau tikslūs ispanų, kinų ir hindi kalbomis, palyginti su anglų kalbomis. Sutelkdami dėmesį į teisingumą, nuoseklumą ir patikrinamumą, jie atrado:
- Teisingumas sumažėjo 18 %, kai tie patys klausimai buvo užduodami ispanų, kinų ir hindi kalbomis.
- Atsakymai ne anglų kalba buvo 29 % mažiau nuoseklūs nei jų anglų kalbos atsakymai.
- Atsakymai ne anglų kalba buvo 13 % mažiau patikrinami.
„XLingHealth“ yra klausimų ir atsakymų poros, kurias gali remtis pokalbių robotai. Grupė tikisi, kad tai padės patobulinti LLM.
„HealthQA“ duomenų rinkinyje naudojami specializuoti sveikatos priežiūros straipsniai iš populiarios sveikatos priežiūros svetainės „Patient“. Jame yra 1 134 su sveikata susijusių klausimų ir atsakymų poros kaip originalių straipsnių ištraukos. „LiveQA“ yra antrasis duomenų rinkinys, kuriame yra 246 klausimų ir atsakymų poros, sudarytos iš dažnai užduodamų klausimų (DUK) platformų, susijusių su JAV nacionaliniais sveikatos institutais (NIH).
Klausimams, susijusiems su narkotikais, grupė sukūrė MedicationQA komponentą. Šiame duomenų rinkinyje yra 690 klausimų, gautų iš anoniminių vartotojų užklausų, pateiktų MedlinePlus. Atsakymai gauti iš medicininių nuorodų, tokių kaip MedlinePlus ir DailyMed.
Savo bandymuose mokslininkai uždavė daugiau nei 2000 su medicina susijusių klausimų ChatGPT-3.5 ir MedAlpaca. MedAlpaca yra sveikatos priežiūros klausimų ir atsakymų pokalbių robotas, apmokytas medicinos literatūroje. Tačiau daugiau nei 67 % jos atsakymų į klausimus ne anglų kalba buvo nereikšmingi arba prieštaringi.
„Mes matome daug prastesnį MedAlpaca našumą nei ChatGPT“, – sakė Chandra. „Dauguma MedAlpaca duomenų yra anglų kalba, todėl jai buvo sunku atsakyti į užklausas ne anglų kalbomis. GPT taip pat sunkiai veikė, tačiau ji veikė daug geriau nei „MedAlpaca”, nes turėjo tam tikrų mokymo duomenų kitomis kalbomis.”
Ph.D. studentas Gauravas Verma ir doktorantas Yibo Hu buvo šio straipsnio bendraautorius.
Jin ir Verma mokosi pas Srijaną Kumarą, Skaičiavimo mokslo ir inžinerijos mokyklos docentą, o Hu yra Kumaro laboratorijos postdoc. Chandrai patarė Interaktyviosios kompiuterijos mokyklos docentas Munmunas De Choudhury.
Grupė pristatė savo pranešimą žiniatinklio konferencijoje, kuri vyks gegužės 13–17 dienomis Singapūre. Kasmetinėje konferencijoje pagrindinis dėmesys skiriamas interneto ateities krypčiai. Grupės pristatymas yra vienas kitą papildantis atitikmuo, atsižvelgiant į konferencijos vietą.
Anglų ir kinų kalbos yra labiausiai paplitusios Singapūre. Grupė išbandė ispanų, kinų ir hindi kalbas, nes jomis kalbama pasaulyje labiausiai po anglų kalbos. Asmeninis smalsumas ir kilmė prisidėjo prie tyrimo įkvėpimo.
„2022 m. „ChatGPT“ buvo labai populiarus, ypač mums, informatikos studentams, kurie nuolat tyrinėja naujas technologijas“, – sakė Jin. „Angliškai nekalbantys asmenys, tokie kaip Mohitas ir aš, anksti pastebėjo, kad pokalbių robotai mūsų gimtąja kalba neveikia.