OpenAI, yapay zeka tabanlı ses teknolojisinde önemli bir adım atarak, daha doğal ve esnek konuşma üretebilen yeni nesil ses modellerini tanıttı. Bu yeni teknolojiler, yapay zekaların insanlarla daha sezgisel ve akıcı bir iletişim kurmasına olanak tanıyacak.

Yeni GPT-4O-Mini-TTS Modeli Tanıtıldı

OpenAI’nin tanıttığı GPT-4O-Mini-TTS, önceki ses sentezleme modellerine kıyasla çok daha gerçekçi bir konuşma deneyimi sunuyor. Geliştiriciler, bu yeni model sayesinde yapay zekanın konuşma tarzını belirleyebilecek. Örneğin, modelden “Ortaçağ şövalyesi gibi konuş” diye bir komut alındığında, buna uygun bir dil kullanımı ile sesli yanıt alınıyor.

Whisper’ın Yerini Alacak Yeni Modeller

OpenAI, Whisper modelinin yerine geçecek yeni transkripsiyon modelleri olan GPT-4O-Transcribe ve GPT-4O-Mini-Transcribe’ı da duyurdu. Bu modeller, aksanlar ve konuşma biçimlerinde daha iyi anlayış sergileyerek, transkripsiyon doğruluğunu büyük ölçüde artıracak. Whisper’ın geçmişteki hata oranları da önemli ölçüde azaltıldı.

Açık Kaynak Sunulmayacak

Ancak, OpenAI yeni transkripsiyon modellerini açık kaynak olarak yayımlamayacağını duyurdu. Şirket, geçmişte Whisper modelini açık kaynak olarak sunmuştu, ancak yeni modellerin daha karmaşık olması nedeniyle yalnızca belirli kullanım senaryoları için açık kaynak çözümleri sunmayı planlıyor.

Kaynak: https://shiftdelete.net/