Mondathatárok és rövidítések gép felismerése orvosi szövegekben

OData támogatás
Konzulens:
Dr. Németh Géza
Távközlési és Médiainformatikai Tanszék

A legtöbb kórházban csupán archiválási célból tárolják a klinikai feljegyzéseket. Nyelvtechnológiai eszközök segítségével azonban lehetséges lenne a szövegekben rejlő összefüggések feltárása, s ezáltal egy orvosi-klinikai korpusz létrehozása. A kutatás, amelyhez a dolgozat kapcsolódik, ezt tűzte ki hosszú távú céljául.

A kutatás anyagát képező nyers szöveghalmazt a Semmelweis Egyetem egyik szemészeti klinikájának kórlapjai alkotják. A klinikai dokumentumok feldolgozásának első lépése azok strukturálása és normalizálása volt. A következő lépés az, hogy az előfeldolgozás során kinyert értékes szövegeket kisebb-nagyobb egységekre: mondatokra, illetve szavakra, írásjelekre stb. bontsuk. Ezt a folyamatot tokenizálásnak nevezzük.

Léteznek ugyan magyar nyelvű szövegek feldolgozására alkalmas tokenizálók (Magyarlánc, Huntoken), de ezek csak általános, köznyelvi szövegeken lefuttatva működnek hatékonyan, nem szaknyelvi szövegek feldolgozására tervezték őket.

Célunk egy olyan szabály alapú tokenizáló szoftver megtervezése és megvalósítása, amely képes az előfeldolgozott orvosi dokumentumok szegmentálására. A program nagy hangsúlyt fektet a klinikai szövegekben előforduló rövidítések megfelelő kezelésére. Az orvosi szövegekre ugyanis különösen jellemző – a sok idegen nyelvű kifejezés mellett – a speciális, csak a szaknyelvben használatos rövidítések gyakori előfordulása. A klinikai dokumentumokra általában jellemző következetlenség nemcsak a szövegtagolásban, helyesírásban, hanem a rövidítések használatában is megfigyelhető. A gyakorta használt kifejezések rövidítése személyenként, sőt olykor egy dokumentumon belül is változhat. Nagyon fontos, hogy a szoftverünk képes legyen az azonos jelentésű, különböző alakú rövidítések felismerésére és egységes kezelésére.

A tervezés első lépéseként szabályokat fogalmaztunk meg arra nézve, hogy mikor beszélhetünk mondat-, illetve szóhatárról. A mondathatár-felismeréshez ismernünk kellett a szövegben előforduló rövidítéseket. Ezeket szintén szabályok megfogalmazásával nyertük ki a szövegből. A mondathatárok felismerése és megjelölése után következett a tokenekre bontás, végül az rövidítések egyedi azonosítóval való ellátásával biztosítottuk azok egységes kezelését: az azonos jelentésű, különböző alakú rövidítések ugyanazt az ID-t kapták.

A kifejlesztett szoftver 90%-on felüli pontossággal felismeri a mondathatárokat és a rövidítéseket a bemenetként kapott orvosi szövegekben.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.