ERAF projekts Nr. 1.1.1.1/18/A/153 Latviešu valodas runas atpazīšana un sintēze medicīnas lietojumiem
2022. gada janvāris–marts
• Nozīmīgākās aktivitātes šajā pārskata periodā ir saistītas ar projektā izstrādātās RUTA:MED platformas demonstrēšanu un testēšanu dažādās RAKUS nodaļās. Turklāt RUTA:MED tiek testēta un pilnveidota ne vien vizuālās diagnostikas diktātu transkribēšanai, bet arī cita veida izmeklējumu aprakstu sagatavošanai, piemēram, histopatoloģijā un gastroenteroloģijā. Izstrādātā platforma ir demonstrēta un piedāvāta izmēģināšanai arī vairākām citām ārstniecības iestādēm, kā arī prezentēta Latvijas Radiologu asociācijas sēdēs vairāk nekā 200 dalībniekiem. Ņemot vērā atsauksmes un ārstniecības iestāžu faktiskās darbplūsmas, turpināta RUTA:MED pilnveide un pielāgošana, lai to varētu elastīgi integrēt ārstniecības iestāžu esošajās IT infrastruktūrās.
• Paralēli noticis intensīvs darbs pie zinātnisko publikāciju sagatavošanas. Viens raksts par izveidotā medicīnas runas korpusa iekļaušanu nacionālajā, standartizētajā latviešu valodas korpusu platformā Korpuss.lv ir pieņemts publicēšanai un prezentēšanai vienā no vadošajām valodas resursu un tehnoloģiju konferencēm “Language Resources and Evaluation Conference” (LREC 2022). Otrs raksts, kas demonstrē RUTA:MED platformu, ir iesniegts izvērtēšanai starptautiskās konferences “Natural Language & Information Systems” (NLDB 2022) programmkomitejai.
Informācija sagatavota: 29.03.2022.
2021. gada oktobris–decembris
- Pabeigta ortogrāfiski transkribētā radioloģijas izmeklējumu diktātu korpusa izveide: vairāk nekā 34 stundas audioierakstu sastatīti ar manuāli sagatavotām, precīzām diktātu ortogrāfiskajām transkripcijām un izrunas marķējumu. Katram diktātam pievienoti arī metadati: modalitāte un nozare.
- Pabeigta mašīnlasāmās izrunas vārdnīcas izveide. Tās apjoms: vairāk nekā 105 tūkst. vārdformu, t.sk. abreviatūras, latīņu termini, zāļu nosaukumi u.c. Katrai vārdformai pievienota izruna starptautiskajā IPA formātā.
- Izstrādāta platformas RUTA:MED būtiski pilnveidota versija: pilnveidotas runas transkribēšanas un transkripciju pēcapstrādes komponentes, uzlabota integrētā redaktora funkcionalitāte un stabilitāte, izstrādāts darbplūsmas nodrošinājums visam diktāta dzīves ciklam: diktēšana, pēcrediģēšana, diktāta nodošana rediģēšanai diktofonu centram vai rezidentam, rezultāta nodošana atpakaļ ārstam, galīgā apraksta verificēšana.
- Aktīvi norit RUTA:MED prototipa testēšana un novērtēšana laboratorijas vidē, un testēšanā tiek pakāpeniski iesaistītas dažādas RAKUS struktūrvienības.
Informācija sagatavota 29.12.2021.
2021.gada jūlijs–septembris
- Būtiski pilnveidots medicīnisko diktātu automātiskās transkribēšanas un pēcrediģēšanas platformas prototips, t.sk. runas atpazīšanas sistēmas valodas modelis, diktātu iesūtīšanas vai ierunāšanas modulis, integrētais teksta redaktors. Sākts darbs pie darbplūsmas un datu plūsmas modeļa realizācijas.
- Būtiski pilnveidots transkripciju automātiskās segmentēšanas valodas modelis un izstrādāts interpunkcijas ģenerēšanas valodas modelis. Būtiski pilnveidota transkripciju automātiskās saīsināšanas un teksta formatēšanas instrukciju apstrādes gramatika; integrēta kopējā datu plūsmā.
- Starptautiskās zinātniskās konferences WorldS4 2020 sekcijā “INTELLIGENT SYSTEMS & HEALTH INFORMATICS” prezentēta projektā izstrādātā LU MII un RAKUS koppublikācija “Adapting Automatic Speech Recognition to the Radiology Domain for a Less-Resourced Language: The Case of Latvian”. Sagatavots arī kopīga zinātniskā raksta “Specializēta latviešu valodas runas korpusa un izrunas vārdnīcas izveide vizuālās diagnostikas izmeklējumu lingvistiskai analīzei un sistemātiskai transkribēšanai” melnraksts un iesniegts izvērtēšanai žurnāla “Letonica” speciālizdevuma “Digitālās humanitārās zinātnes Latvijā” redkolēģijai.
Informācija ievietota 29.09.2021.
2021. gada aprīlis–jūnijs
Būtiskākais pārskata periodā paveiktais:
- Izstrādāta diktēšanas platformas prototipa servera puses (back-end) programmatūras bāzes versija. Tā nodrošina diktātu augšupielādi dažādos audio formātos, automātisku konvertēšanu WAV formātā, augšupielādēto diktātu prioritāru rindošanu apstrādei, runas atpazīšanas sistēmas uzturēšanu nepārtrauktā darba režīmā, kā arī diktātu nodošanu runas atpazīšanas sistēmai un automātisko transkripciju atgriešanu lietotāja saskarnei (front-end).
- Izstrādāta jauna, integrēta lietotāju saskarnes versija, kas nodrošina medicīnisko diktātu pēcrediģēšanā nepieciešamo teksta manuālas apstrādes un formatēšanas funkcionalitāti un ērtu navigēšanu, saglabājot teksta un audio sastatījumu segmentu līmenī.
Sagatavota zinātniskā publikācija “Adapting Automatic Speech Recognition to the Radiology Domain for a Less-Resourced Language: The Case of Latvian”, kas pieņemta iekļaušanai starptautiskās zinātniskās konferences WorldS4 2020 sekcijā “INTELLIGENT SYSTEMS & HEALTH INFORMATICS” un tiks publicēta Scopus indeksētajā Springer rakstu krājumu sērijā “Lecture Notes in Networks and Systems”.
Informācija ievietota 29.06.2021.
2021. gada janvāris–marts
Pārskata periodā paveiktais:
- Būtiski papildināta radioloģijas izmeklējumu un epikrīžu aprakstos sastopamo terminu, saīsinājumu un simbolu izrunas vārdnīca. Pilnveidotas un precizētas ortogrāfiski atšifrētā runas korpusa transkripcijas.
- Pilnveidota un precizēta vēsturisko izmeklējumu aprakstu izvēršanas likumu kopa un atbilstošais programmatūras pirmkods: izveidots divu līmeņu galīgo stāvokļu pārveidotājs, kas nodrošina kontekstuālu locījumu saskaņošanu, izvēršot skaitļus, datumus, speciālos simbolus u.c. tekstvienības. Atbilstoši sagatavota jauna versija izvērsto vēsturisko izmeklējumu tekstu korpusam. Rezultātā ir uzlaboti korpusa interpolācijas rādītāji un ir iegūts precīzāks valodas modelis – ir samazināts indikatīvais kļūdu īpatsvars izmeklējumu diktātu automātiskajās transkripcijās.
- Veikta diktēšanas platformas prototipu P1, P2 un P3 bāzes pirmkoda pilnīga refaktorizācija, kas turpmāk nodrošinās šo prototipu elastīgāku un produktīvāku attīstīšanu un pielāgošanu.
- Sākts darbs pie sistēmas lietojamības un darba produktivitātes novērtēšanas: sagatavota sākotnēja testa vide un veikti sākotnējie lietotāju mērījumi, iegūstot datus par darba produktivitāti bāzes scenārijā – testa transkripciju manuālā sagatavošanā.
Informācija ievietota 26.03.2021.
Latvijas Universitātes Matemātikas un informātikas institūts sadarbībā ar Rīgas Austrumu klīnisko universitātes slimnīcu ir uzsācis ERAF finansēta pētniecības projekta “Latviešu valodas runas atpazīšana un sintēze medicīnas lietojumiem” (1.1.1.1/18/A/153) īstenošanu.
Projekta mērķis:
- Sagatavot latviešu valodas resursus, kas nepieciešami runas atpazīšanas un sintēzes tehnoloģiju pielāgošanai radioloģijā un citās medicīnas jomās.
- Izstrādāt nepieciešamās programmatūras komponentes, novērtēt tās radioloģijas un citu medicīnas lietojumu vajadzībām.
- Nodemonstrēt jaunās tehnoloģijas potenciālu, izstrādājot un aprobējot inovatīvas, automatizētas medicīnisko aprakstu diktēšanas platformas prototipus.
Projektā plānotas trīs galvenās darbības. Pirmā saistīta ar nepieciešamo pamatresursu – tekstu korpusa, izrunas vārdnīcas un runas korpusa – izveidi. Otrajā darbībā tiks izstrādāti valodas un akustiskie modeļi, kā arī programmatūras komponentes automātiskai runas atpazīšanai un sintēzei latviešu valodā. Trešajā darbībā, izmantojot iepriekšējo darbību rezultātus, tiks izstrādāti diktēšanas platformas laboratoriski prototipi.
Projekta īstenošanas laiks: 01.04.2019. – 31.03.2022.
Projekta kopējās izmaksas: 654 878.70 EUR, t.sk. ERAF finansējums 374 855.36 EUR.
Projekts tiek īstenots darbības programmas “Izaugsme un nodarbinātība” 1.1.1. specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” 2. kārtas ietvaros.
Informācija ievietota 24.06.2019.
2020. gada oktobris–decembris
Pārskata periodā paveiktais:
- Turpināta nozarspecifiskās izrunas vārdnīcas un ortogrāfiski transkribētā runas korpusa papildināšana un pilnveide. Runas korpuss aptver dažāda veida izmeklējumus (rentgens, ultrasonogrāfija, datortomogrāfija u.c.) dažādās izmeklējumu apakšjomās, kā arī ietver epikrīžu diktātus un to transkripcijas.
Korpuss reprezentē arī runātāju dažādību: tas aptver vairāk nekā 70 ārstus, kas pārstāv dažādas apakšnozares, vecuma grupas, akcentus u.tml. - Turpināts pilnveidot vēsturisko izmeklējumu aprakstu izvēršanas likumus un programmatūru, kas nepieciešams uzlabota nozaspecifiskā valodas modeļa iegūšanai. Uzsākts darbs šī programmrīka paplašināšanā pretējā virziena uzdevuma veikšanai: automātiski transkribēto diktātu savēršanai kompaktā, saistītā tekstā.
- Turpināts darbs pie runas sintēzes sistēmas uzlabotas versijas izstrādes, izmantojot nākamās paaudzes neironu tīklu tehnoloģiju.
- Izstrādāta pilnveidota testa versija diktēšanas platformas prototipam P1. Šī prototipa mērķis ir būtiski uzlabot diktafonu centra operatoru darba produktivitāti, samazinot laiku, kas nepieciešams diktēto audioierakstu transkribēšanai. P1 nodrošina pusautomātisku transkribēšanu, t.i., automātiski transkribēto aprakstu manuālu caurskatīšanu un rediģēšanu. P1 nodrošina transkripciju un audioierakstu sastatījumu, kas būtiski atvieglo rediģēšanas uzdevumu.
- Uz P1 bāzes sākts darbs pie metodikas izstrādes strukturētai un konsekventai izmeklējumu aprakstu diktēšanai un transkribēšanai.
Informācija ievietota 28.12.2020.
2020. gada jūlijs–septembris
Pārskata periodā paveiktais:
- Pabeigta anonimizēta vēsturisko izmeklējumu aprakstu teksta korpusa izveide (135 milj. vārdlietojumu). Pabeigta anonimizētas vēsturisko izmeklējumu audio ierakstu (diktātu) kolekcijas izveide (380 stundas). Sagatavota izrunas vārdnīcas starpversija (145 tūkst. vārdformu). Sagatavota ortogrāfiski transkribēta un marķēta runas atpazīšanas korpusa starpversija (30 stundas). Sagatavota ortogrāfiski transkribēta runas sintēzes korpusa starpversija (30 stundas).
- Sagatavots runas atpazīšanas sistēmas sākotnējais valodas modelis un akustiskais modelis. Sagatavota teksta priekšapstrādes (tokenizācijas un izvēršanas) programmatūras sākotnējā versija. Sagatavota runas sintēzes sistēmas sākotnējā versija.
- Sagatavots izmeklējumu aprakstu diktēšanas platformas un simulētas lietotāju saskarnes sākotnējais prototips.
- 9. starptautiskajā zinātniskajā konferencē “Human Language technologies – the Baltic Perspective” nolasīts referāts “Creation of Language Resources for the Development of a Medical Speech Recognition System for Latvian”.
Informācija ievietota 28.09.2020.
2020. gada aprīlis–jūnijs
Pārskata periodā paveiktais:
- Turpināts darbs pie izmeklējumu aprakstu korpusa izveides un izrunas vārdnīcas papildināšanas. Pilnveidota teksta izguves un anonimizācijas programmatūra jauna veida izmeklējumu aprakstu un epikrīžu veidlapu apstrādei. Izrunas vārdnīcā medicīnas terminiem norādītas locīšanas paradigmas, lai šos terminus izmeklējumu tekstos un diktātos varētu atpazīt dažādās formās, kā arī lai iegūtu normalizētu valodas modeli. Turpināti pētījumi nozarei specializēta valodas modeļa izstrādē, balsoties uz teksta korpusa datiem.
- Nozīmīgs darbs ieguldīts ortogrāfiski transkribēta runas korpusa izveidē. Korpusa apjoms šobrīd ir ~15h (no plānotajām 30h), ko veido metodiski atlasīta, reprezentatīva diktātu kopa. Runas korpusā audioieraksti (izmeklējumu diktāti) tiek sastatīti ar precīzām šo ierakstu transkripcijām. Transkripcijās tiek marķētas arī strukturālās formatēšanas komandas u.c. informācija. Runas kopuss nepieciešams gan runas atpazīšanas sistēmas akustiskā modeļa pielāgošanai nozares valodas īpatnībām, gan starprezultātu testēšanai, gan kā papildu dati aprakstu izvēršanas un savēršanas likumu izstrādē. Veikta akustiskās vides analīze runas korpusā, kā arī runas iezīmju analīze (akcenti, citu valodu ietekme).
- Turpināta metodikas un likumu pilnveide tekstu korpusā balstītai apzīmējumu, saīsinājumu un skaitļu automātiskai, kontekstuālai izvēršanai esošajos izmeklējumu aprakstos un teksta savēršanai automātiski transkribētajos izmeklējumu diktātos.
- Simulētas lietotāju saskarnes sākotnējās, eksperimentālās versijas izstrāde diktēšanas platformas prototipam.
- Sagatavots zinātniskā raksta “Creation of Language Resources for the Development of a Medical Speech Recognition System for Latvian” paplašināts kopsavilkums, kas pieņemts publicēšanai (iesniedzot galaversiju pilnā apjomā) starptautiskās konferences Baltic HLT 2020 rakstu krājumā.
Informācija ievietota 27.06.2020.
2020. gada janvāris–marts
Pārskata periodā paveiktais:
- Uzsākta paralēla tekstu korpusa izveide datos balstītai gramatikas un leksikas likumu izstrādei un testēšanai skaitļu, saīsinājumu, abreviatūru u.tml. automātiskai izvēršanai un savēršanai izmeklējumu aprakstos. Anonimizēto izmeklējumu aprakstu izvēršana nepieciešama medicīnas valodas modeļa izveidei, lai pielāgotu runas atpazīšanas sistēmu. Savukārt teksta savēršana nepieciešama automātiski transkribēto izmeklējumu diktātu pēcapstrādei: runas atpazīšanas sistēma diktātus vispirms transkribē pilnos vārdos (tā, kā apraksti tiek izrunāti), bet rezultātā ir nepieciešams iegūt savērstu tekstu (tā, kā apraksti tiek pierakstīti).
- Izmantojot anonimizētus izmeklējumu diktātu audioierakstu fragmentus, uzsākta medicīnas valodas runas korpusa izveide. Runas korpusā audioierakstu fragmenti tiek sastatīti (ik pa dažu sekunžu segmentiem) ar precīzām šo ierakstu ortogrāfiskajām transkripcijām. Runas korpuss nepieciešams gan runas atpazīšanas sistēmas akustiskā modeļa pielāgošanai medicīnas valodas un ārstu izrunas īpatnībām, gan starprezultātu testēšanai, gan kā papildu dati aprakstu izvēršanas un savēršanas likumu izstrādē.
- Atlasot īpaši kvalitatīvus audioierakstus un sastatos tos ar manuāli pārbaudītām teksta transkripcijām, izveidots runas sintēzes pilotkorpuss. Uz tā pamata tiks attīstītas izmeklējumu un epikrīžu aprakstu diktēšanas platformas prototipa runas sintēzes komponentes. Par šo tēmu sagatavota zinātniskās publikācijas “Development and Evaluation of Speech Synthesis Corpora for Latvian” galaversija, kas tiks publicēta starptautiskās konferences LREC 2020 rakstu krājumā.
Informācija sagatavota 27.03.2020.
2019. gada jūlijs – septembris
Pārskata periodā paveiktais:
- Reprezentatīvas izlases datu kopas sagatavošana, aptverot dažāda veida radioloģijas izmeklējumus un epikrīzes. Aprakstiem atbilstošo audio datu sistemātiska uzkrāšana. Paraugdatu manuāla pseidonimizācija un anonimizācija. Programmatūras izstrāde izmeklējumu un epikrīžu aprakstu automātiskai apstrādei un anonimizēšanai. Apstrādes un anonimizēšanas procedūru pielāgošana dažādiem dokumentu formātiem.
- Turpināta literatūras izpēte un eksperimenti automātiski ģenerētas izrunas vārdnīcas izveidē. Uzsākta izrunas vārdnīcas izveides darba vides izstrāde. Metodikas izstrāde vārdnīcas ieejas datu automatizētai izguvei no tekstu korpusiem un no svešvārdu vārdnīcām. Darbs pie izrunas vārdnīcas izveides un saīsinājumu izvēršanas metodikas izstrādes.
- Sākotnējā eksperimentālā valodas modeļa izveide no salīdzinoši nelielās, manuāli atlasītās paraugdatu kopas (izmeklējumu un epikrīžu apraksti). Iegūtā sākotnējā valodas modeļa novērtēšana.
- Metodikas izstrāde tekstu korpusā balstītai specifisko tekstvienību – apzīmējumu un saīsinājumu – automātiskai izvēršanai (valodas modeļa pielāgošanai) un saīsināšanai (automātisko transkripciju noformēšanai). Korpusa šablonu lingvistiska un statistiska analīze.
Informācija ievietota 27.09.2019.
2019. gada oktobris–decembris
Pārskata periodā paveiktais:
- Automātiskās apstrādes problēmgadījumu detektēšana un pusautomātiska analīze izmeklējumu un epikrīžu aprakstos, apzinot dažādus robežgadījumus. Programmatūras pilnveide robežgadījumu apstrādei. Dokumentu arhīva automatizēta apstrāde ar izmeklējumu un epikrīžu aprakstu automātiskai izguvei un anonimizēšanai.
- Iepriekš izgūtajam vairāk nekā 2700 svešvārdu sarakstam (galvenokārt zāļu nosaukumi), no kuriem lielākā daļa nav latviešu valodas vārdu, tiek pievienota izruna. Tiek norādīta gan vārdu standartizruna, gan ārstu saziņā lietotais variants, piem., Diclofenac – [diklofenak] vs. [diklofenaks]. Savukārt vairāk nekā 13 tūkst. vārdformām, kurām nevar automātiski noteikt ortogrāfisko transkripciju (saīsinājumi, latīnismi, drukas kļūdas u.c.), transkripcija tiek piekārtota manuāli.
- Programmatūras moduļu izstrāde tīmekļa tehnoloģijās balstītam runas korpusa izveides rīkam (audio un teksta segmentēšanai un sastatīšanai, teksta izvēršanai), kas nodrošinās iespēju centralizēti sadarboties vairākiem transkribētājiem un sekot līdzi progresam. Diktofonu centra darbinieku intervēšana, apzinot pašreizējās transkribēšanas darba plūsmas tehniskās detaļas un praksi, kas tiks ņemta vērā gan izstrādājot specializēto runas korpusu, gan diktēšanas platformas prototipu.
- Akustiskās vides analīze manuāli sagatavotajos audio paraugos. Vadlīniju izstrāde audio korpusam nepieciešamo datu atlasei. Valodas modeļa pielāgošanas iespēju izpēte, ņemot vērā iegūto apjomīgo, taču samērā trokšņaino medicīnisko tekstu korpusu.
- Metodikas pilnveide tekstu korpusā balstītai apzīmējumu un saīsinājumu automātiskai izvēršanai. Šablonu novērtēšana un jaunu šablonu definēšana, izmantojot no RAKUS dokumentu arhīva atvasināto medicīnisko tekstu korpusu.
- Sagatavota zinātniskā publikācija “Development and Evaluation of Speech Synthesis Corpora for Latvian”.
Informācija ievietota 27.12.2019.