A Smodin bejelentette az új, 176 nyelvet támogató nyelvfelismerő API kiadását
Mivel alkalmazásaink fejlesztéséhez szükség volt egy nyelvi detektorra, úgy döntöttünk, hogy megoldást keresünk.
Először azt hittük, hogy könnyű lesz, hiszen a Google olyan könnyűnek mutatja, de mint kiderült, nem volt könnyű feladat, sőt, a nyelvi felismerés mindig is nehéz feladat volt.
Amikor a legjobb lehetőséget kerestük a nyelv szövegből történő előrejelzésére, amely nem igényel nagy gépi tanulási modellt, rájöttünk, hogy a legjobb megoldás egy előre betanított nyelvazonosító modell, amely kevesebb mint 1 MB memóriát igényel, miközben másodpercenként több ezer dokumentumot képes osztályozni.
Sok finomítás és fejlesztés után kifejlesztettünk egy olyan eszközt, amely minden nyelv esetében magabiztosan jó pontossági arányokat tud nyújtani.
Igazán jó pontossági értékeket biztosít, és nem csak ezt, hanem gyors és megbízható sebességet is. Itt van egy pontossági lista országonként.
99%-os pontosság Nyelvek*: (fr), angol (en), német (de), portugál (pt), török (tr), holland (nl), olasz (it), spanyol (es), magyar (hu), eszperantó (eo), lengyel (pl), finn (fi), orosz (ru), macedón (mk), ukrán (uk), litván (lt), vietnami (vi), görög (el), marathi (mr), arab (ar), héber (he), hindi (hi), Ujgur (ug), japán (ja), grúz (ka), bengáli (bn), urdu (ur), thai (th), kínai (zh), örmény (hy), malajálam (ml), koreai (ko), khmer (km), burmai (my), tamil (ta), kannada (kn), telugu (te), panjabi (pa), lao (lo), gujarati (gu), tibeti standard (bo), divehi (dv), szingaléz (si), amharai (am).
90%-os pontosság Nyelvek*: (sv), latin (la), bolgár (bg), cseh (cs), tagalog (tl), indonéz (id), tatár (tt), izlandi (is), fehérorosz (be), baszk (eu), breton (br), kazah (kk), lett (lv), észt (et), ír (ga), csuvas (cv), baskír (ba), oszét (os), tadzsik (tg).
*Az információk a legtöbb vizsgálati adat sorrendjében szerepelnek. Az adatok 30-250 karakter hosszúságú mondatok voltak. A tesztelés csak a legnépszerűbb 100 nyelven történt. A tesztelés közel 99%-os pontosságot mutatott a 300 karakter hosszúságú vagy annál hosszabb mondatok többségénél.
Bár tökéletes eredményt nem lehet elérni, a legjobb pontosság (99%+ sok nyelv esetében, még a kevésbé ismerteknél is) 300 karakter vagy annál több karakter esetén érhető el. A szöveg hosszától függetlenül, minél hosszabb, annál jobb.
Ahogy a Wiki is említi: a nyelvi azonosítás vagy nyelvi kitalálás annak meghatározása, hogy egy adott tartalom milyen természetes nyelven van. A probléma számítógépes megközelítései a szövegkategorizálás speciális esetének tekintik, amelyet különböző statisztikai módszerekkel oldanak meg.
A nyelvfelismerő szolgáltatások többféleképpen használhatók, például az üzleti szövegek, például a chat és az e-mail nyelvének azonosítására.
A szolgáltatás képes azonosítani a szöveg nyelvét és a szöveg azon részeit, ahol a nyelv megváltozott, egészen a szavak szintjéig.
A Surveillance Insights a nyelvfelismerő szolgáltatások segítségével kiemelheti és kommentálhatja a szövegben használt nyelvet, és segíthet a potenciálisan gyanús tevékenységek azonosításában.
Az üzleti szövegek, mint például az e-mail vagy a chat, különböző nyelveken érkezhetnek. A természetes nyelvi feldolgozási csővezeték kulcsfontosságú része annak meghatározása, hogy melyik nyelv az elsődleges nyelv, hogy az egyes szövegeket a kapcsolódó nyelvspecifikus lépéseken keresztül lehessen feldolgozni.
Bizonyos esetekben az emberek megváltoztatják a csevegésben használt nyelvet, hogy elkerüljék a megfigyelést vagy elrejtsék az illegális tevékenységeket. A csevegés nyelvének váltásakor történő meghatározás nagyon hasznos annak megállapításához, hogy gyanús tevékenység történt-e.
ha szeretné használni API-nkat, akkor további információkat kaphat róla és az árazásról IDE kattintva .
Az API szolgáltatás nyújtása mellett úgy döntöttünk, hogy nyílt forráskódúként is kiadjuk.
Ez az első nyílt forráskódú kiadásunk! Nyelvi detektor nyílt forráskódú, elérhető ITT