Smodin Mengumumkan rilis API Deteksi Bahasa baru yang mendukung 176 bahasa
Karena detektor bahasa diperlukan untuk meningkatkan aplikasi kami, kami memutuskan untuk mencari solusinya.
Pada awalnya, kami pikir ini akan mudah karena google membuatnya terlihat sangat mudah, tetapi setelah kami temukan, ini bukanlah tugas yang mudah, sebaliknya, pendeteksian bahasa selalu menjadi tugas yang sulit.
Dalam mencari opsi terbaik untuk memprediksi bahasa dari teks yang tidak memerlukan model pembelajaran mesin yang besar, kami menemukan bahwa solusi terbaik adalah model identifikasi bahasa yang sudah dilatih sebelumnya yang hanya membutuhkan memori kurang dari 1MB, namun mampu mengklasifikasikan ribuan dokumen per detik.
Setelah melakukan banyak penyesuaian dan perbaikan, kami telah mengembangkan alat yang dapat memberikan tingkat akurasi yang baik untuk setiap bahasa.
Memberikan peringkat akurasi yang sangat baik, dan tidak hanya itu tetapi juga dengan kecepatan yang cepat dan dapat diandalkan. Berikut ini adalah daftar akurasi per negara.
99% Bahasa yang Akurat*: Prancis (fr), Inggris (en), Jerman (de), Portugis (pt), Turki (tr), Belanda (nl), Italia (it), Spanyol (es), Hongaria (hu), Esperanto (eo), Polandia (pl), Finlandia (fi), Rusia (ru), Makedonia (mk), Ukraina (uk), Lituania (lt), Vietnam (vi), Yunani (el), Marathi (mr), Arab (ar), Ibrani (he), Hindi (hi), Uyghur (ug), Jepang (ja), Georgia (ka), Bengali (bn), Urdu (ur), Thailand (th), Cina (zh), Armenia (hy), Malayalam (ml), Korea (ko), Khmer (km), Burma (my), Tamil (ta), Kannada (kn), Telugu (te), Panjabi (pa), Lao (lo), Gujarat (gu), Standar Tibet (bo), Divehi (dv), Sinhala (si), Amharik (am).
90% Bahasa yang Akurat*: Denmark (da), Rumania (ro), Swedia (sv), Latin (la), Bulgaria (bg), Ceko (cs), Tagalog (tl), Indonesia (id), Tatar (tt), Islandia (is), Belarusia (be), Basque (eu), Breton (br), Kazakh (kk), Latvia (lv), Estonia (et), Irlandia (ga), Chuvash (cv), Bashkir (ba), Ossetia (os), Tajikistan (tg).
*Informasi disajikan berdasarkan urutan data pengujian terbanyak. Data berupa kalimat dengan panjang 30-250 karakter. Pengujian hanya dilakukan pada 100 bahasa terpopuler. Pengujian menunjukkan akurasi mendekati 99% untuk sebagian besar kalimat dengan panjang atau di atas 300 karakter.
Meskipun Anda tidak bisa mendapatkan hasil yang sempurna, akurasi terbaik (99%+ untuk banyak bahasa, bahkan bahasa yang kurang dikenal) terlihat pada 300 karakter atau lebih. Terlepas dari panjang teks, semakin panjang semakin baik.
Seperti yang disebutkan Wiki: identifikasi bahasa atau menebak bahasa adalah masalah menentukan bahasa alami dari suatu konten. Pendekatan komputasi untuk masalah ini memandangnya sebagai kasus khusus kategorisasi teks, yang diselesaikan dengan berbagai metode statistik.
Layanan pendeteksi bahasa dapat digunakan dengan berbagai cara, misalnya, layanan ini dapat digunakan untuk mengidentifikasi bahasa teks bisnis, seperti obrolan dan email.
Layanan ini dapat mengidentifikasi bahasa teks dan bagian teks yang bahasanya telah berubah, hingga ke tingkat kata.
Dengan menggunakan layanan deteksi bahasa, Surveillance Insights dapat menyoroti dan membuat anotasi bahasa yang digunakan dalam teks dan membantu mengidentifikasi aktivitas yang berpotensi mencurigakan.
Teks bisnis seperti email atau obrolan dapat menggunakan berbagai bahasa. Bagian penting dari pipeline pemrosesan bahasa alami adalah menentukan bahasa mana yang menjadi bahasa utama sehingga setiap teks dapat diproses melalui langkah-langkah khusus bahasa terkait.
Dalam beberapa kasus, orang dapat mengubah bahasa yang digunakan dalam obrolan untuk menghindari pemantauan atau menyembunyikan aktivitas ilegal. Menentukan titik di mana bahasa obrolan dialihkan sangat berguna untuk menentukan apakah aktivitas yang mencurigakan telah terjadi.
jika Anda ingin menggunakan API kami, Anda bisa mendapatkan informasi lebih lanjut tentang API dan harganya dengan mengklik DI SINI
Selain menyediakan layanan API, kami juga memutuskan untuk merilisnya sebagai sumber terbuka.
Ini adalah rilis sumber terbuka pertama kami! Detektor bahasa sumber terbuka, tersedia DI SINI