Veri İşleme ve ETL Çerçevesi
Birden fazla kaynaktan (API'ler, veritabanları, dosyalar) gelen büyük ölçekli verileri işlemek, dönüşümler uygulamak, kalite kontrolleri yapmak ve bir veri ambarına yüklemek için Python tabanlı bir ETL çerçevesi.
🎯Problem
Birden fazla eski veri hattı sessizce çöküyor, yöneticilere bayat ve yanlış veriler iletiyordu.
💡Çözüm
Kapsamlı günlük tutma, veri doğrulama ifadeleri ve otomatik uyarılarla birleşik bir ETL çerçevesi kullanarak tüm veri hatlarını yeniden yazdık.
🏗️Mimari
Airflow günlük ETL çalışmalarını yönetir. Python çıkarma modülleri kaynaklardan veri çeker, pandas kayıtları dönüştürür ve doğrular, SQLAlchemy PostgreSQL'e yükler. Veri kalitesi kontrolleri anomali tespiti ile ayrı görevler olarak çalıştırılır.
⚠️Zorluklar
Akıştaki alt sistemleri bozmadan kaynak sistemlerde şema değişimlerini yönetmek, esnek bir şema sicili yaklaşımına ihtiyaç duyuyordu.
📚Çıkarılan Dersler
Ekipler arasındaki veri sözleşmeleri çoğu veri hattı hatasını önler. Veri tazeliğini izlemek, hataları izlemek kadar önemlidir.