(SeaPRwire) – BOSTON, MA – 23/03/2026 – (SeaPRwire) – Modulate telah memperkenalkan API speech-to-text baru yang bertujuan untuk mengubah cara organisasi memproses dan memahami audio percakapan dalam skala besar. Velma Transcribe yang baru diluncurkan ini diposisikan sebagai solusi transkripsi berkinerja tinggi dan hemat biaya yang dirancang untuk memenuhi permintaan yang terus meningkat akan analisis data suara real-time di berbagai industri, mulai dari layanan pelanggan hingga platform sosial dan aplikasi berbasis AI.
Rilis ini menyoroti pergeseran industri yang lebih luas menuju upaya membuat infrastruktur kecerdasan suara lebih mudah diakses dan layak secara ekonomi. Dengan menurunkan hambatan biaya untuk transkripsi secara signifikan, penawaran terbaru dari Modulate ini memungkinkan organisasi untuk memperluas penggunaan data suara ke berbagai aplikasi yang lebih luas, termasuk agen suara real-time, saluran analisis, dan platform komunikasi global.
Velma Transcribe dibangun di atas Ensemble Listening Model (ELM) milik Modulate, sebuah pendekatan berbasis penelitian yang mengoordinasikan berbagai model transkripsi khusus untuk mengoptimalkan kinerja. Arsitektur berbasis ansambel ini meningkatkan akurasi transkripsi, mengurangi latensi, dan meningkatkan efisiensi biaya dibandingkan dengan sistem model tunggal tradisional. Platform ini telah menunjukkan kinerja yang kuat pada tolok ukur yang diakui secara luas seperti Earnings-22 dan AMI Meeting Corpus, terutama dalam menangani skenario percakapan multi-pembicara yang kompleks.
Para eksekutif perusahaan menekankan bahwa solusi ini melampaui kemampuan transkripsi tradisional. Meskipun banyak sistem hanya berfokus pada pengubahan ucapan menjadi teks, Velma Transcribe mengintegrasikan pemahaman kontekstual yang lebih dalam, mendukung berbagai wawasan percakapan yang lebih luas. Pada saat yang sama, API ini dirancang agar tetap dapat diakses oleh pengembang yang membutuhkan transkrip yang cepat dan andal tanpa overhead analitis tambahan.
Selain kemampuan transkripsinya, platform ini menggabungkan berbagai fitur yang berfokus pada perusahaan, termasuk deteksi emosi di lebih dari 20 kategori, pengenalan aksen yang mencakup lebih dari 20 variasi, dan dukungan multibahasa yang mencakup lebih dari 70 bahasa. Platform ini juga menyertakan fungsionalitas canggih seperti diarisasi pembicara, deteksi dan penyuntingan informasi identitas pribadi (PII), serta dukungan streaming real-time untuk aplikasi langsung.
Salah satu aspek yang paling menonjol dari Velma Transcribe adalah model penetapan harganya. Dengan biaya transkripsi yang dikurangi menjadi sekitar $0,03 per jam audio, platform ini menawarkan pengurangan yang signifikan dibandingkan dengan tarif pasar yang berlaku. Struktur harga ini memungkinkan perusahaan untuk memproses data suara dalam volume besar dengan lebih ekonomis, membuka peluang baru untuk pengambilan keputusan berbasis data dan strategi monetisasi.
Sistem ini dirancang untuk bekerja secara andal di lingkungan percakapan dunia nyata, di mana ucapan yang tumpang tindih, interupsi, beragam aksen, dan kebisingan latar belakang sering kali menjadi tantangan bagi alat transkripsi konvensional. Hasil tolok ukur menunjukkan bahwa Velma Transcribe secara substansial mengurangi tingkat kesalahan dibandingkan dengan beberapa solusi yang sudah mapan, sehingga memperkuat kesesuaiannya untuk penerapan skala perusahaan.
Untuk mendukung aplikasi tingkat produksi, platform ini menyertakan fitur-fitur seperti titik akhir transkripsi batch dan streaming, output terstruktur dengan penanda waktu, latensi sub-detik untuk kasus penggunaan langsung, dan kebijakan nol retensi data yang dirancang untuk meningkatkan privasi dan kepatuhan. Didukung oleh praktik keamanan bersertifikat ISO 27001, kemampuan ini memposisikan solusi tersebut untuk penerapan yang aman di lingkungan yang diatur dan sensitif terhadap data.
Velma Transcribe adalah bagian dari rangkaian model kecerdasan suara Velma 2.0 milik Modulate yang lebih luas, yang bertujuan untuk menyediakan sistem AI dengan “lapisan pendengaran” yang lebih canggih. Pendekatan ini memungkinkan organisasi untuk bergerak melampaui transkripsi sederhana menuju pemahaman percakapan yang lebih dalam, mendukung kasus penggunaan seperti deteksi penipuan, analisis sentimen, pemantauan kepatuhan, dan wawasan operasional real-time.
Solusi ini tersedia segera, dengan harga berbasis penggunaan yang dirancang untuk mengakomodasi penerapan skala kecil maupun beban kerja perusahaan bervolume tinggi.
Tentang Modulate
Modulate adalah perusahaan teknologi kecerdasan suara yang berfokus pada pengembangan model AI dan API yang memungkinkan pemahaman terukur terhadap audio percakapan dunia nyata. Solusinya menggabungkan pengenalan ucapan, analisis akustik, dan pemrosesan kontekstual untuk memberikan kecerdasan suara yang akurat, dapat dijelaskan, dan hemat biaya bagi perusahaan dan pengembang.
Artikel ini disediakan oleh penyedia konten pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberikan jaminan atau pernyataan sehubungan dengan hal tersebut.
Sektor: Top Story, Daily News
SeaPRwire menyediakan distribusi siaran pers real-time untuk perusahaan dan lembaga, menjangkau lebih dari 6.500 toko media, 86.000 editor dan jurnalis, dan 3,5 juta desktop profesional di 90 negara. SeaPRwire mendukung distribusi siaran pers dalam bahasa Inggris, Korea, Jepang, Arab, Cina Sederhana, Cina Tradisional, Vietnam, Thailand, Indonesia, Melayu, Jerman, Rusia, Prancis, Spanyol, Portugis dan bahasa lainnya.