Yapay Zeka Ses-Metin Platformu
Konuşmacı ayrıştırma, duygu analizi ve anahtar kelime çıkarma ile gerçek zamanlı ses transkripsiyonu için ölçeklenebilir bir platform. Toplantı transkripsiyonu, çağrı merkezi analitiği ve içerik erişilebilirliği için kullanılır.
🎯Problem
Kuruluşların eyleme dönüştürülebilir içgörülerle toplantı ve çağrıların doğru, gerçek zamanlı transkripsiyonuna ihtiyacı vardı, ancak mevcut çözümler pahalıydı veya Türkçe için hatalıydı.
💡Çözüm
Konuşmacı tanıma, duygu analizi ve otomatik özetleme için işlem sonrası NLP adımları ile OpenAI Whisper etrafında özel bir ardışık düzen oluşturduk.
🏗️Mimari
WebSocket sunucusu ses akışlarını parçalar halinde alır, işlenmek üzere Redis'te sıraya koyar ve GPU üzerinde Whisper çıkarımı çalıştırır. NLP boru hattı varlıkları, duyguları çıkarır ve özetler üretir. Sonuçlar WebSocket aracılığıyla gerçek zamanlı olarak istemcilere geri aktarılır.
⚠️Zorluklar
Whisper ile gerçek zamanlı işleme, doğruluk ve gecikmeyi dengelemek için dikkatli bir parçalama stratejisi gerektiriyordu. Konuşmacı ayrıştırma karmaşıktı ve özel yerleştirmelerin eğitilmesini gerektiriyordu.
📚Çıkarılan Dersler
GPU kaynak yönetimi maliyet verimliliği için kritik öneme sahiptir. Uygun ses ön işleme (gürültü azaltma, normalleştirme) Whisper doğruluğunu önemli ölçüde artırır.