Taaldetectie API - Schrijfgids

Inhoudsopgave

Smodin kondigt de release aan van zijn nieuwe Language Detection API die 176 talen ondersteunt

Omdat we een taaldetector nodig hadden om onze toepassingen te verbeteren, hebben we besloten om een oplossing te vinden.

In eerste instantie dachten we dat het makkelijk zou zijn omdat google het zo makkelijk laat lijken, maar zoals we ontdekten was het geen gemakkelijke taak, integendeel, taaldetectie is altijd een moeilijke taak geweest.

In de zoektocht naar de beste optie voor het voorspellen van een taal uit tekst waarvoor geen groot machine learning model nodig was, ontdekten we dat de beste oplossing een vooraf getraind taalidentificatiemodel was dat minder dan 1MB geheugen in beslag nam en toch duizenden documenten per seconde kon classificeren.

Na veel aanpassingen en verbeteringen hebben we een tool ontwikkeld die met vertrouwen goede nauwkeurigheidspercentages kan bieden voor elke taal.

Ze bieden echt goede nauwkeurigheidsbeoordelingen, en dat niet alleen, maar ook met een snelle en betrouwbare snelheid. Hier is een nauwkeurigheidslijst per land.

99% nauwkeurige talen*: Frans (fr), Engels (en), Duits (de), Portugees (pt), Turks (tr), Nederlands (nl), Italiaans (it), Spaans (es), Hongaars (hu), Esperanto (eo), Pools (pl), Fins (fi), Russisch (ru), Macedonisch (mk), Oekraïens (uk), Litouws (lt), Vietnamees (vi), Grieks (el), Marathi (mr), Arabisch (ar), Hebreeuws (he), Hindi (hi), Oeigoer (ug), Japans (ja), Georgisch (ka), Bengaals (bn), Urdu (ur), Thai (th), Chinees (zh), Armeens (hy), Malayalam (ml), Koreaans (ko), Khmer (km), Birmaans (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarati (gu), Tibetaans standaard (bo), Divehi (dv), Sinhala (si), Amhaars (am).

90% nauwkeurige talen*: Deens (da), Roemeens (ro), Zweeds (sv), Latijn (la), Bulgaars (bg), Tsjechisch (cs), Tagalog (tl), Indonesisch (id), Tataars (tt), IJslands (is), Wit-Russisch (be), Baskisch (eu), Bretoens (br), Kazachs (kk), Lets (lv), Ests (et), Iers (ga), Tsjoevasj (cv), Basjkir (ba), Ossetisch (os), Tadzjiek (tg).

*Informatie wordt gepresenteerd in volgorde van de meeste testgegevens. De gegevens waren zinnen van 30-250 tekens lang. Er is alleen getest in de 100 populairste talen. Tests toonden een nauwkeurigheid van bijna 99% voor de meerderheid van de zinnen met een lengte van 300 tekens of meer.

Hoewel je geen perfecte resultaten kunt krijgen, wordt de beste nauwkeurigheid (99%+ voor veel talen, zelfs de minder bekende) gezien bij 300 tekens of meer. Ongeacht de lengte van de tekst, hoe langer hoe beter.

Zoals Wiki vermeldt: taalidentificatie of taal raden is het probleem van het bepalen in welke natuurlijke taal bepaalde inhoud zich bevindt. Computationele benaderingen van dit probleem zien het als een speciaal geval van tekstcategorisatie, opgelost met verschillende statistische methoden.

Taaldetectiediensten kunnen op verschillende manieren worden gebruikt, bijvoorbeeld om de taal van zakelijke teksten te identificeren, zoals chats en e-mails.
De dienst kan de taal van de tekst identificeren en de delen van de tekst waar de taal is veranderd, tot op woordniveau.
Met behulp van taaldetectiediensten kan Surveillance Insights het taalgebruik in teksten markeren en annoteren en zo potentieel verdachte activiteiten helpen identificeren.

Zakelijke teksten zoals e-mail of chat kunnen in verschillende talen zijn. Een belangrijk onderdeel van de natuurlijke taalverwerkingspijplijn is het bepalen welke taal de primaire taal is, zodat elke tekst via gerelateerde taalspecifieke stappen kan worden verwerkt.
In sommige gevallen veranderen mensen de taal die ze in chats gebruiken om controle te vermijden of illegale activiteiten te verbergen. Het bepalen van het punt waarop de chattaal wordt gewijzigd is zeer nuttig om te bepalen of er een verdachte activiteit heeft plaatsgevonden.

Als je onze API wilt gebruiken, kun je HIER klikken voor meer informatie en prijzen.

Naast het aanbieden van een API-service, hebben we ook besloten om het vrij te geven als open-source.
Dit is onze eerste open-source release! Taaldetector open-source, HIER beschikbaar