Spracherkennungs-API - Anleitung zum Schreiben

Inhaltsübersicht

Smodin kündigt die Veröffentlichung seiner neuen Spracherkennungs-API an, die 176 Sprachen unterstützt

Da wir zur Verbesserung unserer Anwendungen einen Sprachdetektor benötigten, haben wir beschlossen, eine Lösung zu finden.

Zuerst dachten wir, dass es einfach sein würde, da Google es so einfach aussehen lässt, aber wie wir herausfanden, war es keine einfache Aufgabe, im Gegenteil, die Spracherkennung war schon immer eine schwierige Aufgabe.

Auf der Suche nach der besten Option für die Vorhersage einer Sprache aus einem Text, die kein großes maschinelles Lernmodell erfordert, fanden wir heraus, dass die beste Lösung ein vortrainiertes Spracherkennungsmodell ist, das weniger als 1 MB Speicherplatz benötigt und gleichzeitig in der Lage ist, Tausende von Dokumenten pro Sekunde zu klassifizieren.

Nach vielen Optimierungen und Verbesserungen haben wir ein Tool entwickelt, das für jede Sprache gute Trefferquoten liefern kann.

Sie bieten wirklich gute Genauigkeitsbewertungen, und nicht nur das, sondern auch mit einer schnellen und zuverlässigen Geschwindigkeit. Hier ist eine Liste der Genauigkeit pro Land.

99% Genaue Sprachen*: Französisch (fr), Englisch (en), Deutsch (de), Portugiesisch (pt), Türkisch (tr), Niederländisch (nl), Italienisch (it), Spanisch (es), Ungarisch (hu), Esperanto (eo), Polnisch (pl), Finnisch (fi), Russisch (ru), Mazedonisch (mk), Ukrainisch (uk), Litauisch (lt), Vietnamesisch (vi), Griechisch (el), Marathi (mr), Arabisch (ar), Hebräisch (he), Hindi (hi), Uigurisch (ug), Japanisch (ja), Georgisch (ka), Bengalisch (bn), Urdu (ur), Thai (th), Chinesisch (zh), Armenisch (hy), Malayalam (ml), Koreanisch (ko), Khmer (km), Birmanisch (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Laotisch (lo), Gujarati (gu), Tibetisch Standard (bo), Divehi (dv), Singhalesisch (si), Amharisch (am).

90% Genaue Sprachen*: Dänisch (da), Rumänisch (ro), Schwedisch (sv), Latein (la), Bulgarisch (bg), Tschechisch (cs), Tagalog (tl), Indonesisch (id), Tatarisch (tt), Isländisch (is), Weißrussisch (be), Baskisch (eu), Bretonisch (br), Kasachisch (kk), Lettisch (lv), Estnisch (et), Irisch (ga), Tschuwaschisch (cv), Baschkirisch (ba), Ossetisch (os), Tadschikisch (tg).

*Die Informationen werden in der Reihenfolge der meisten Testdaten dargestellt. Die Daten waren Sätze mit einer Länge von 30-250 Zeichen. Die Tests wurden nur mit den 100 beliebtesten Sprachen durchgeführt. Die Tests ergaben eine Genauigkeit von nahezu 99 % für die Mehrheit der Sätze mit einer Länge von 300 Zeichen oder mehr.

Perfekte Ergebnisse sind zwar nicht möglich, aber die beste Genauigkeit (99 % und mehr für viele Sprachen, auch für die weniger bekannten) wird bei 300 Zeichen oder mehr erreicht. Unabhängig von der Textlänge gilt: je länger, desto besser.

Wie Wiki erwähnt: Sprachidentifikation oder Sprachermittlung ist das Problem der Bestimmung, in welcher natürlichen Sprache ein bestimmter Inhalt vorliegt. Computergestützte Ansätze zu diesem Problem betrachten es als einen Spezialfall der Textkategorisierung, der mit verschiedenen statistischen Methoden gelöst wird.

Spracherkennungsdienste können auf verschiedene Weise eingesetzt werden, z. B. zur Erkennung der Sprache von Geschäftstexten, wie Chats und E-Mails.
Der Dienst kann die Sprache des Textes und die Teile des Textes, in denen sich die Sprache geändert hat, bis hin zur Wortebene identifizieren.
Mit Hilfe von Spracherkennungsdiensten kann Surveillance Insights die im Text verwendete Sprache hervorheben und kommentieren und so dazu beitragen, potenziell verdächtige Aktivitäten zu erkennen.

Geschäftliche Texte wie E-Mails oder Chats können in verschiedenen Sprachen verfasst sein. Ein wichtiger Teil der Pipeline für die Verarbeitung natürlicher Sprache besteht darin, zu bestimmen, welche Sprache die Hauptsprache ist, so dass jeder Text durch entsprechende sprachspezifische Schritte verarbeitet werden kann.
In manchen Fällen ändern Personen die in Chats verwendete Sprache, um der Überwachung zu entgehen oder illegale Aktivitäten zu verbergen. Die Bestimmung des Zeitpunkts, an dem die Chatsprache gewechselt wird, ist sehr nützlich, um festzustellen, ob eine verdächtige Aktivität stattgefunden hat.

Wenn Sie unsere API nutzen möchten, können Sie HIER weitere Informationen über sie und ihre Preise erhalten.

Neben der Bereitstellung eines API-Dienstes haben wir uns auch entschlossen, diesen als Open-Source zu veröffentlichen.
Dies ist unser erstes Open Source Release! Sprachdetektor Open Source, verfügbar HIER