Beszélt és írott magyar szöveg feldolgozását segítő modellt fejlesztettek ki Pécsett
2021. August 26. 13:02Egy olyan modellt fejlesztettek ki a Pécsi Tudományegyetemen, amely lehetővé teszi a beszélt és írott magyar szöveg feldolgozását.
Csupán 1000 eurós befektetésből egy olyan modellt fejlesztettek ki a Pécsi Tudományegyetemen, amely képes feldolgozni a beszélt és írott magyar szöveget. Mivel a magyar nyelvet "csak" 15 millióan beszélik a világon, így a nagyobb cégek számára nem vonzó kifejleszteni egy olyan szoftvert a chat és automatizált alkalmazásokhoz, amely a magyar nyelvet ismeri fel.
Ezen indokból látott hozzá a fejlesztéshez a Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia csapata, akik a Microsoft Azure mesterséges intelligencia és az ONNX Runtime technológia felhasználásával kifejlesztette, majd betanította magyar nyelvre a saját modelljét. A BERT-large modellt mindösszesen 200 munkaóra alatt tanították be.
A fejlesztés kivitelezéséhez a Microsoft Azure-t használta az egyetem
A Pécsi Tudományegyetem egyre nagyobb hangsúlyt fektet a felhő alapú oktatásra, illetve a mesterséges intelligenciára. A kidolgozott modell nyílt forráskódú, gépi tanulás keretrendszerben jött létre, amely a számítógépeket segíti abban, hogy megértse a sokféleképpen értelmezhető szövegeket is. A modell a szövegkörnyezetet is képes felismerni és az alapján helyesen értelmezni a szavakat.
A kifejlesztett modell működtetéséhez minimum 3,5 milliárd kifejezést tartalmazó szöveg szükséges. Ezt a mennyiséget az egyetemen a Nyelvtudományi Kutatóközpont segítségével gyűjtötte össze, akik szintén a projekt részesei. A központ a Magyar Nemzeti Szótárból, ingyenesen elérhető filmfelirat adatbázisokból, illetve online médiatárakból gyűjtötte össze a szükséges szómennyiséget.
Az egyetem kifejlesztett modellje óriási lehetőségekkel kecsegtet nem csak az írott és beszélt szöveg értelmezésében, hanem az okos keresés és a dokumentáció területén is.
Forrás: Microsoft
CS.SZ.