Nyelvdetektáló rendszer készítése

OData támogatás
Konzulens:
Ács Judit
Automatizálási és Alkalmazott Informatikai Tanszék

Manapság fontos szerepet tölt be az, hogy az online tartalmak minél több nyelven elérhetõek legyenek, mivel közel 50\%-a nem angol és a felhasználók 75%-a nem angol anyanyelvû. A nyelvdetekció, vagyis egy szöveg nyelvének meghatározása fontos szerepet játszik a soknyelvûséget támogató eljárások hatékonyságában és a gépi fordításban is. A hagyományos, szótár alapú eljárások informális szöveggel és gazdag morfológiájú nyelvekkel igen nehezen birkóznak meg, és egyre inkább elõtérbe kerülnek a statisztikai eljárások, amik a dolgozatban is fontos szerepet játszanak. Ahhoz, hogy egy nyelvet jól tudjunk detektálni, elõször le kell modellezzük.

A nyelvmodellezés arra keresi a választ, hogy az (n-1)-edik szó után mi lesz az n-edik és ez jelentõs szerepet tölt be számos modern alkalmazásban. A beszéd- vagy kézírás felismerésében vagy az augmentatív kommunikációban például fontos szerepe van a soron következõ szó becslésének, míg a helyesírási hibák érzékelésekor a következõ betû jóslásán van a hangsúly. Az augmentatív kommunikációs rendszerek segítséget nyújtanak azoknak az embereknek, akik nehezen vagy egyáltalán nem tudnak beszélni vagy a jelbeszédet sem tudják használni, mint például Stephen Hawking fizikus. Az általa használt kommunikációs rendszer megjósolja a kívánt karaktereket és szavakat, így kevesebb, mint 20%-nyi szöveget kell ténylegesen legépelnie. Mivel egy képernyõre véges szó listázható, emiatt szükség van olyan eljárásokra, amelyek meg tudják becsülni, hogy a már kiválasztott utolsó szó után mi következzen.

A dolgozat a fentebb említett két fõ témával foglalkozik.

Letölthető fájlok

A témához tartozó fájlokat csak bejelentkezett felhasználók tölthetik le.