A beszélt és írott nyelv informatikai feldolgozásában történt előrelépés a Pécsi Tudományegyetemen

2021-08-31 14:00:59 | ipit.hu |

A beszélt és írott magyar szöveg feldolgozását lehetővé tevő - informatikában használatos - nyelvi modellt hoztak létre a Pécsi Tudományegyetemen (PTE) a Microsoft technológiájának segítségével.

Illusztráció - Fotó: Pexels

A Microsoft Magyarország közleményben a fejlesztés indokai között azt írták, hogy mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban, mivel azonban a magyar nyelvet viszonylag kevesen beszélik, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket.

A PTE Alkalmazott Adattudományi és Mesterséges Intelligencia csapata felismerte ezt a problémát, és a nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő természetes nyelvfeldolgozási módszerek kutatásába fogott.

A megoldást egy magyar nyelvű, úgynevezett "BERT" modell létrehozása jelentette. A BERT a Google óriásvállalat egyik nyílt forráskódú technológiája, amely a természetes nyelvfeldolgozását hivatott segíteni. Az új modell - amelyet a PTE munkatársai kevesebb mint 200 munkaóra és 1000 euró befektetéssel hoztak létre - segíti a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A modell működéséhez legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte.

Megjegyezték, hogy a csapat a vállalat által fejlesztett Microsoft Azure mesterséges intelligenciáját és a ONNX Runtime gépi tanulási modellekhez készült, nagy teljesítményű következtető motort használta.

A PTE számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás, amióta a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül partnerkapcsolatot épített ki az intézmény az informatikai vállalattal 2019-ben.

A beszélt és írott nyelv informatikai feldolgozásában történt előrelépés a Pécsi Tudományegyetemen

Előző cikk: ITM - Folytatódik a Magyar Multi Program: százmilliárd forint forrásra pályázhatnak a vállalkozások

Következő cikk: Az ABB elsőként kívánja megszerezni a CharIN CCS tanúsítványt a DC töltőállo-másaihoz

Az ABB az Avantium és a Worley első számú villamos kivitelezőjeként járul hozzá az innovatív bioműanyag projekt megvalósulásához

Az ABB intelligens robotikai automatizálási megoldásai támogatják a Volvo Cars fenntarthatósági céljait

A Nexperia az APEC 2024 rendezvényen bővíti a diszkrét MOSFET-megoldások választékát