Language Detection API - Przewodnik pisania

Spis treści

Smodin ogłasza wydanie nowego interfejsu API do wykrywania języków obsługującego 176 języków

Ponieważ detektor języka był potrzebny do ulepszenia naszych aplikacji, zdecydowaliśmy się znaleźć rozwiązanie.

Na początku myśleliśmy, że będzie to łatwe, ponieważ Google sprawia, że wygląda to tak łatwo, ale jak się przekonaliśmy, nie było to łatwe zadanie, wręcz przeciwnie, wykrywanie języka zawsze było trudnym zadaniem.

W poszukiwaniu najlepszej opcji przewidywania języka z tekstu, która nie wymagałaby dużego modelu uczenia maszynowego, odkryliśmy, że najlepszym rozwiązaniem był wstępnie wytrenowany model identyfikacji języka, który zajmuje mniej niż 1 MB pamięci, a jednocześnie jest w stanie klasyfikować tysiące dokumentów na sekundę.

Po wielu poprawkach i ulepszeniach opracowaliśmy narzędzie, które może z pewnością zapewnić dobre wskaźniki dokładności dla każdego języka.

Zapewnia naprawdę dobre oceny dokładności, a także szybką i niezawodną prędkość. Oto lista dokładności dla poszczególnych krajów.

99% dokładnych języków*: francuski (fr), angielski (en), niemiecki (de), portugalski (pt), turecki (tr), niderlandzki (nl), włoski (it), hiszpański (es), węgierski (hu), esperanto (eo), polski (pl), fiński (fi), rosyjski (ru), macedoński (mk), ukraiński (uk), litewski (lt), wietnamski (vi), grecki (el), marathi (mr), arabski (ar), hebrajski (he), hindi (hi), ujgurski (ug), japoński (ja), gruziński (ka), bengalski (bn), urdu (ur), tajski (th), chiński (zh), ormiański (hy), malajalam (ml), koreański (ko), khmerski (km), birmański (my), tamilski (ta), kannada (kn), telugu (te), panjabi (pa), laotański (lo), gudżarati (gu), tybetański standardowy (bo), divehi (dv), syngaleski (si), amharski (am).

90% dokładności języków*: duński (da), rumuński (ro), szwedzki (sv), łacina (la), bułgarski (bg), czeski (cs), tagalski (tl), indonezyjski (id), tatarski (tt), islandzki (is), białoruski (be), baskijski (eu), bretoński (br), kazachski (kk), łotewski (lv), estoński (et), irlandzki (ga), czuwaski (cv), baszkirski (ba), osetyjski (os), tadżycki (tg).

*Informacje są prezentowane w kolejności od najbardziej testowych danych. Dane stanowiły zdania o długości 30-250 znaków. Testy przeprowadzono tylko na najpopularniejszych 100 językach. Testy wykazały prawie 99% dokładność dla większości zdań o długości 300 znaków lub większej.

Chociaż nie można uzyskać idealnych wyników, najlepsza dokładność (99% + dla wielu języków, nawet tych mniej znanych) jest widoczna przy 300 znakach lub więcej. Niezależnie od długości tekstu, im dłuższy, tym lepiej.

Jak wspomina Wiki: identyfikacja języka lub zgadywanie języka to problem polegający na określeniu, w jakim języku naturalnym znajduje się dana treść. Podejścia obliczeniowe do tego problemu traktują go jako szczególny przypadek kategoryzacji tekstu, rozwiązywany za pomocą różnych metod statystycznych.

Usługi wykrywania języka mogą być wykorzystywane na różne sposoby, na przykład do identyfikacji języka tekstów biznesowych, takich jak czat i wiadomości e-mail.
Usługa może zidentyfikować język tekstu i części tekstu, w których język się zmienił, aż do poziomu słowa.
Korzystając z usług wykrywania języka, Surveillance Insights może podkreślać i opisywać język używany w tekście oraz pomagać w identyfikacji potencjalnie podejrzanych działań.

Teksty biznesowe, takie jak wiadomości e-mail lub czat, mogą być w różnych językach. Kluczową częścią potoku przetwarzania języka naturalnego jest określenie, który język jest językiem podstawowym, tak aby każdy tekst mógł być przetwarzany za pomocą powiązanych kroków specyficznych dla danego języka.
W niektórych przypadkach ludzie mogą zmieniać język używany w czatach, aby uniknąć monitorowania lub ukrywania nielegalnych działań. Określenie punktu, w którym język czatu jest przełączany, jest bardzo przydatne do ustalenia, czy wystąpiła podejrzana aktywność.

Jeśli chcesz skorzystać z naszego API, możesz uzyskać więcej informacji na jego temat i jego ceny, klikając TUTAJ.

Oprócz dostarczania usługi API, zdecydowaliśmy się również wydać ją jako open-source.
To nasze pierwsze wydanie open source! Detektor języka open source, dostępny TUTAJ