AI gydytojas nėra pasirengęs dabar tavęs pamatyti: testai dėl streso rodo trūkumus

AI gydytojas nėra pasirengęs dabar tavęs pamatyti: testai dėl streso rodo trūkumus

Gyvensena mityba, dietos, judėjimas

Tvirtas neaiškumų, pagrįstų įrodymų pagrįstų pagrįstų samprotavimų, ir suderinimas su realiu klinikiniu poreikiu yra būtinos sąlygos pasitikėti bet kokia sveikatos priežiūros aplinka.

„Microsoft Research“, „Health & Life Sciences“ praneša, kad aukščiausio lygio multimodalinės medicininės AI sistemos rodo trapią elgesį atliekant testus dėl streso, įskaitant teisingus spėliones be vaizdų, atsakymų apverskite po nedidelių greitų pataisų ir pagamintų samprotavimų, kurie pripažįsta pasirengimo suvokimą.

AI pagrįsti medicininiai vertinimai susiduria su patikimumo ir galimybių spraga, pagrįsta etalonais, kurie apdovanoja modelio atitikimą, palyginti su medicininiu supratimu. Nors tikimasi suteikti didesnę prieigą ir sumažinti priežiūros išlaidas, diagnostinių vertinimų tikslumas yra labai svarbus norint tai padaryti.

Ankstesni įvertinimai leido modeliams susieti kartu atsirandančius simptomus su diagnozėmis, neišvadinant vaizdinių ar klinikinių įrodymų. Sistemos, kurios atrodo kompetentingos, gali sugesti, kai susiduria su neapibrėžtumu, neišsamiais duomenimis ar įvesties struktūros poslinkiais. Kiekvienas naujas etalono ciklas sukuria aukštesnius balus, tačiau tie balai gali paslėpti trapius, kurie būtų nepriimtini klinikinėje aplinkoje.

Tyrimo metu „Parengties iliuzija: testavimas dėl streso didelių pasienio modelių ant multimodalinių medicinos etalonų“, paskelbtas prieš spausdinimo serverį ArxivTyrėjai sukūrė streso testų rinkinį, kad būtų galima atskleisti trumpųjų klavišų mokymąsi ir įvertinti patikimumą, pagrįstumą ištikimybe ir priklausomybe nuo modalumo įvairiuose plačiai naudojamuose medicinos etalose.

Šeši pavyzdiniai modeliai buvo įvertinti per šešis multimodalinius medicinos etalonus, o analizė apima filtruojamą Jama Daiktai (1,141), filtruojami Nejm Daiktai (743), klinikų kurta Nejm pogrupis, reikalaujantis vizualinio įvesties (175 elementų), ir iš vaizdinės-pakavimo, rinkinio, iš kurio nupieštas Nejm atvejai (40 elementų).

Modelio vertinimas apėmė šimtus etaloninių elementų, nupieštų iš diagnostikos ir samprotavimų duomenų rinkinių pakopiniame streso bandymo protokole, kuris ištirė jautrumą modalumui, nuorodų priklausomybei ir samprotavimui ištikimybei. Vaizdo įėjimai buvo pašalinti iš daugiamodalinių klausimų, kad būtų galima įvertinti tik teksto tikslumą, palyginti su vaizdu+tekstu.

Klinikų kurtas Nejm Pogrupis, reikalaujantis vizualinio įvesties įjungtų modalumo būtinybės testų, palyginus našumą su 20% atsitiktine pradine padėtimi, kai vaizdai buvo sulaikyti.

Formato manipuliacijos sutrikdo paviršiaus ženklus. Atsakymų parinktys buvo atsitiktinai pertvarkytos nepakeisdami turinio. Distractors buvo palaipsniui keičiamas nesvarbiu pasirinkimu iš to paties duomenų rinkinio, kurio variantas pakeitė vieną parinktį su ženklu „nežinomu“. Vaizdiniai pakeitimo bandymai pakeitė originalius vaizdus su distraktoriaus suderintomis alternatyvomis, išsaugodami klausimo tekstą ir parinktis.

Vaizdo teksto etalonuose, vaizdinio įvesties pašalinimas žymiai tikslumo kritimai Nejm su mažesnėmis pamainomis Jama. Ant NejmGPT-5 pajudėjo 80,89% iki 67,56%, „Gemini-2,5 Pro 79,95%“ iki 65,01%, Openai-O3 80,89% iki 67,03%, Openai-O4-Mini 75,91% iki 66,49%, o GPT-4O 66,90%-37,28%.

GPT-4o buvo vieniša išimtis, kuri pagerėjo regėjimo pakeitimui (36,67%→ 41,67%). Ant Jama Lyginamojo duomenų rinkinys, pamainos buvo kuklios, įskaitant GPT-5 86,59% iki 82,91%, o „Openai-O3“-84,75%-82,65%.

Elementams, kuriuos klinikų gydytojai buvo pažymėti kaip reikalaujantys vizualinio įvesties, tik teksto našumas daugumai modelių išliko didesnis nei 20% atsitiktinis pagrindas. Nejm 175 elementų pogrupis davė GPT-5 esant 37,7%, „Gemini-2,5 Pro“-37,1%, o „Openai-O3“-37,7%, o GPT-4o-3,4%dėl dažno atsisakymo be vaizdo.

Formato pasipiktinimuose atsitiktinis atsakymo parinkčių pertvarkymas sumažino tik teksto tikslumą, paliekant „Image+Text“ stabilų ar šiek tiek aukštesnį. „GPT-5“ perėjo nuo 37,71% iki 32,00% tik tekste ir 66,28% iki 70,85% vaizde+tekste. „Openai-O3“ pakeitė 37,71% iki 31,42% tik tekste ir 61,71% iki 64,00% „Image+Text“.

Pakeitus distraktorių, tik teksto tikslumas sumažėjo link atsitiktinumo, nes buvo pakeista daugiau variantų, o vaizdas+teksto tikslumas pakilo. GPT-5 sumažėjo 37,71% iki 20,00%, kai 4R buvo tik tekste, ir pakilo 66,28% iki 90,86% vaizde+tekste. Vienas „nežinomas“ atitraukėjas padidino tik teksto tikslumą keliems modeliams, įskaitant GPT-5 37,71% iki 42,86%.

Visuose kontraktiniuose vaizdiniuose pakaitaluose, kurie suderino vaizdus su atitraukimo atsakymais, tikslumas žlugo. GPT-5 sumažėjo 83,33% iki 51,67%, „Gemini-2,5 Pro 80,83%“-47,50%, o „Openai-O3 76,67%“-52,50%.

Aptarta grandinė paprastai sumažėja VQA-RAD ir Nejm Su mažu O4-Mini pelnu. Auditai užfiksuoti teisingi atsakymai, suporuoti su neteisinga logika, haliucinuotos vaizdinės detalės ir laipsniškos vaizdo aprašymai, kuriems nebuvo vadovaujamasi galutiniais sprendimais.

Autoriai atsargiai, kad medicininio etalono balai tiesiogiai neatspindi klinikinio pasirengimo, ir kad aukštų lyderių lentelės rezultatai gali užmaskuoti trapų elgesį, nuorodų naudojimą ir pagamintus samprotavimus.

Jie rekomenduoja, kad medicininis AI vertinimas apima sisteminį testavimą stresu, etaloninius dokumentus, išsamius samprotavimus ir regos poreikius, ir ataskaitų apie tvirtumo metriką kartu su tikslumu. Jie teigia, kad tik atlikdami tokią praktiką, gali progresuoti multimodalinės sveikatos AI, suderinta su klinikiniu pasitikėjimu ir saugumu.

Parašė mūsų autorius Justinas Jacksonas, redagavo Sadie Harley, ir faktas patikrintas ir apžvelgtas Roberto Egano-šis straipsnis yra kruopštaus žmogaus darbo rezultatas. Mes pasikliaujame tokiais skaitytojais kaip jūs, kad išlaikytume nepriklausomą mokslo žurnalistiką. Jei ši ataskaita yra svarbi jums, apsvarstykite paaukojimą (ypač kas mėnesį). Gausite be skelbimų sąskaita kaip padėka.