Automatinis kalbos atpažinimas išmoksta suprasti žmones, sergančius Parkinsono liga, klausydamas jų

2024.09.28 1:23

Kai Markas Hasegawa-Johnsonas tyrinėjo duomenis iš savo naujausio projekto, jis buvo maloniai nustebintas atradęs „Eggs Florentine“ receptą. Jis sakė, kad atsijojęs šimtus valandų įrašytos kalbos, atras vieną ar du lobius.

Hasegawa-Johnson vadovauja Kalbėjimo prieinamumo projektui, Ilinojaus universiteto Urbana-Champaign iniciatyvai, kuria siekiama, kad balso atpažinimo įrenginiai būtų naudingesni žmonėms, turintiems kalbos negalią.

Pirmajame paskelbtame projekto tyrime tyrėjai paprašė automatinio kalbos atpažintojo klausytis 151 valandos trukmės (beveik šešias su puse dienos) žmonių, turinčių kalbos negalią, susijusių su Parkinsono liga, įrašų. Jų modelis perrašė naują panašių įrašų duomenų rinkinį 30% tiksliau nei kontrolinis modelis, kuris neklausė Parkinsono liga sergančių žmonių.

Šis tyrimas rodomas Kalbos, kalbos ir klausos tyrimų žurnalas. Tyrime naudojami kalbos įrašai yra laisvai prieinami mokslininkams, ne pelno siekiančioms organizacijoms ir įmonėms, norinčioms patobulinti savo balso atpažinimo įrenginius.

„Mūsų rezultatai rodo, kad didelė netipinės kalbos duomenų bazė gali žymiai pagerinti kalbėjimo technologijas žmonėms su negalia“, – sakė Hasegawa-Johnson, Ilinojaus elektros ir kompiuterių inžinerijos profesorius ir universiteto Beckmano pažangaus mokslo ir technologijų instituto tyrėjas. kur yra projektas. „Nekantrauju pamatyti, kaip kitos organizacijos naudos šiuos duomenis, kad balso atpažinimo įrenginiai būtų įtraukesni.

Mašinos, tokios kaip išmanieji telefonai ir virtualūs asistentai, naudoja automatinį kalbos atpažinimą, kad įgarsintų garsų prasmę, todėl žmonės gali sudaryti grojaraščio eilę, diktuoti žinutes laisvų rankų įranga, sklandžiai dalyvauti virtualiuose susitikimuose ir aiškiai bendrauti su draugais ir šeimos nariais.

Balso atpažinimo technologija netinka visiems; ypač tiems, kurie serga neuromotoriniais sutrikimais, pvz., Parkinsono liga, galinčia sukelti įvairius įtemptus, neaiškus ar nekoordinuotus kalbos modelius, bendrai vadinamus dizartrija.

„Deja, tai reiškia, kad daugeliui žmonių, kuriems labiausiai reikia balsu valdomų įrenginių, gali būti sunkiausia juos tinkamai naudoti“, – sakė Hasegawa-Johnson.

„Iš esamų tyrimų žinome, kad jei išmokysite ASR pagal kieno nors balsą, jis pradės jį suprasti tiksliau. Mes paklausėme: ar galite išmokyti automatinį kalbos atpažintuvą suprasti žmones, sergančius Parkinsono ligos dizartrija, pateikdami jį nedidelei žmonių grupei. žmonių, turinčių panašius kalbos modelius?

Hasegawa-Johnson ir jo kolegos įdarbino apie 250 suaugusiųjų, sergančių įvairaus laipsnio dizartrija, susijusia su Parkinsono liga. Prieš prisijungdami prie tyrimo, būsimi dalyviai susitiko su kalbos patologu, kuris įvertino jų tinkamumą.

„Daugelis žmonių, kurie ilgą laiką kovojo su bendravimo sutrikimu, ypač progresuojančiu, gali pasitraukti nuo kasdienio bendravimo“, – sakė grupės kalbos patologas Clarionas Mendesas. „Jie vis rečiau gali dalytis savo unikaliomis mintimis, poreikiais ir idėjomis, manydami, kad jų bendravimas yra per daug paveiktas, kad galėtų įsitraukti į prasmingus pokalbius.

„Mes ieškome būtent tokių žmonių“, – sakė ji.

Atrinkti dalyviai balso įrašams pateikti naudojo asmeninius kompiuterius ir išmaniuosius telefonus. Dirbdami savo tempu ir pasirenkant slaugytojo pagalbą, jie kartojo nusidėvėjusias balso komandas, pvz., „Nustatyti žadintuvą“, deklamavo romanų ištraukas ir reiškė nuomonę apie atvirus raginimus, pvz., „Paaiškinkite pusryčių ruošimo keturiems žmonėms žingsnius. “.

Atsakydamas į pastarąjį, vienas dalyvis išvardijo žingsnius, kaip gaminti Florentine kiaušinius – holandietišką padažą ir viską, o kitas pragmatiškai patarė užsisakyti išsinešimui.

„Girdėjome iš daugelio dalyvių, kurie sakė, kad dalyvavimo procesas buvo ne tik malonus, bet ir suteikė jiems pasitikėjimo vėl bendrauti su savo šeimomis“, – sakė Mendes. „Šis projektas daugeliui mūsų dalyvių ir jų artimųjų suteikė vilties, jaudulio ir energijos – unikalių žmogiškų savybių.

Ji sakė, kad komanda konsultavosi su Parkinsono ligos ekspertais ir bendruomenės nariais, kad sukurtų turinį, susijusį su dalyvių gyvenimu. Raginimai buvo konkretūs ir spontaniški: pavyzdžiui, kalbos algoritmo mokymas atpažinti vaistų pavadinimus gali padėti galutiniam vartotojui susisiekti su savo vaistine, o atsitiktiniai pokalbių pradininkai imituoja kasdienių pokalbių ritmą.

„Sakome dalyviams: žinome, kad įdėdami visas pastangas galite padaryti savo kalbą aiškesnę, bet tikriausiai pavargote nuo to, kad turite stengtis, kad save suprastumėte kitų labui. Stenkitės atsipalaiduoti ir bendrauti taip, lyg jūs šnekučiuosi su savo šeima ant sofos“, – sakė Mendesas.

Norėdami įvertinti, kaip kalbos algoritmas klausėsi ir išmoko, tyrėjai suskirstė pavyzdžius į tris rinkinius. Pirmasis 190 dalyvių rinkinys arba 151 įrašyta valanda apmokė modelį. Pagerėjus jo veikimui, mokslininkai patvirtino, kad modelis nuoširdžiai mokėsi (o ne tik įsiminė dalyvių atsakymus), įtraukdamas jį į antrąjį, mažesnį įrašų rinkinį. Kai modelis pasiekė aukščiausią našumą antrajame rinkinyje, mokslininkai užginčijo jį su bandymų rinkiniu.

Tyrimo grupės nariai rankiniu būdu perrašė vidutiniškai 400 įrašų vienam dalyviui, kad patikrintų modelio darbą.

Jie nustatė, kad išklausius treniruočių rinkinį, ASR sistema perrašė įrašus iš testo rinkinio su 23,69% žodžių klaidų lygiu. Palyginimui, sistema, parengta pagal žmonių, nesergančių Parkinsono liga, kalbos pavyzdžius, perrašė testų rinkinį su 36,3% žodžių klaidų lygiu, ty maždaug 30% mažiau tiksli.

Klaidų dažnis taip pat sumažėjo beveik visiems testo rinkinyje dalyvavusiems asmenims. Netgi kalbėtojai, kuriems būdinga ne tokia tipiška parkinsonizmo kalba, pvz., neįprastai greita kalba ar mikčiojimas, patyrė nedidelį patobulinimą.

„Man buvo malonu matyti tokią dramatišką naudą“, – sakė Hasegawa-Johnson.

Jis pridūrė, kad jo entuziazmą sustiprina dalyvių atsiliepimai:

„Kalbėjausi su dalyviu, kuris domėjosi šios technologijos ateitimi“, – sakė jis. „Tai nuostabus dalykas šiame projekte: matyti, kaip žmonės gali jaudintis dėl galimybės, kad jų išmanieji garsiakalbiai ir mobilieji telefonai juos supras. Tai iš tikrųjų ir siekiame.”