Projeler'e Dön

Yapay Zeka Ses-Metin Platformu

Konuşmacı ayrıştırma, duygu analizi ve anahtar kelime çıkarma ile gerçek zamanlı ses transkripsiyonu için ölçeklenebilir bir platform. Toplantı transkripsiyonu, çağrı merkezi analitiği ve içerik erişilebilirliği için kullanılır.

PythonFastAPIOpenAI WhisperDockerPostgreSQLWebSocketReact

🎯Problem

Kuruluşların eyleme dönüştürülebilir içgörülerle toplantı ve çağrıların doğru, gerçek zamanlı transkripsiyonuna ihtiyacı vardı, ancak mevcut çözümler pahalıydı veya Türkçe için hatalıydı.

💡Çözüm

Konuşmacı tanıma, duygu analizi ve otomatik özetleme için işlem sonrası NLP adımları ile OpenAI Whisper etrafında özel bir ardışık düzen oluşturduk.

🏗️Mimari

WebSocket sunucusu ses akışlarını parçalar halinde alır, işlenmek üzere Redis'te sıraya koyar ve GPU üzerinde Whisper çıkarımı çalıştırır. NLP boru hattı varlıkları, duyguları çıkarır ve özetler üretir. Sonuçlar WebSocket aracılığıyla gerçek zamanlı olarak istemcilere geri aktarılır.

⚠️Zorluklar

Whisper ile gerçek zamanlı işleme, doğruluk ve gecikmeyi dengelemek için dikkatli bir parçalama stratejisi gerektiriyordu. Konuşmacı ayrıştırma karmaşıktı ve özel yerleştirmelerin eğitilmesini gerektiriyordu.

📚Çıkarılan Dersler

GPU kaynak yönetimi maliyet verimliliği için kritik öneme sahiptir. Uygun ses ön işleme (gürültü azaltma, normalleştirme) Whisper doğruluğunu önemli ölçüde artırır.

Yapay Zeka Ses-Metin Platformu | Barış ÇİLAK