Grok yeniden dorukta: Yapay zekaların halüsinasyon oranlarında şaşırtan sonuçlar

OpenAI, ChatGPT-5’in lansmanını geçtiğimiz Perşembe gerçekleştirdi. CEO Sam Altman, yeni modelin bugüne kadarki en güçlü, hızlı ve güvenilir sürüm olduğunu vurgularken, ekip ayrıca yapay zekânın yanlış bilgi üretme, yani “halüsinasyon” oranında azalmayı hedeflediklerini belirtti. Halüsinasyon; yapay zekânın olmayan bilgileri gerçek gibi sunması anlamına geliyor ve bu durum, modelin güvenle kullanılmasını hala kısmen engelliyor. Yapılan son testlerde, Vectara'nın Hughes Halüsinasyon Değerlendirme Modeli'ne göre ChatGPT-5’in halüsinasyon oranı %1,4 oldu. Bu oran, GPT-4o'nun %1,49’luk oranından sadece %0,09 daha düşük. İlginç şekilde, ChatGPT-5, %1,2 oranı ile ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek halüsinasyon üretiyor. O3-mini adlı modelse %0,795 ile en düşük yanlış bilgi üretme oranına sahip. Rakip modellere bakıldığında, Google’ın Gemini-2.5-pro modeli %2,6, Elon Musk’ın şirketi XAI tarafından geliştirilen Grok-4 ise %4,8’lik oranlarla dikkat çekiyor. Özellikle Grok'un “Spicy” modunun deepfake içerikler için kullanılabileceği endişeleri var. XAI, çıplaklık ve cinsel içerikleri engelleyen filtreler olduğunu söylese de, bazı örnekler yeterli olmadığını gösteriyor. ChatGPT-5’in piyasaya çıkmasıyla, OpenAI eski modelleri Plus kullanıcılarının erişiminden kaldırdı. Kullanıcılar bu duruma sosyal medyada tepki gösterdi. Sam Altman ise GPT-4o’nun bazı sevilen özelliklerini hafife aldıklarını kabul ederek, kullanıcı tepkileri üzerine GPT-4o’nun kısıtlı süreyle tekrar erişime açılacağını duyurdu. Bu gelişmeler, yapay zekâ alanındaki rekabetin hızlandığını ve kullanıcı beklentilerinin de giderek daha fazla önem kazandığını gösteriyor.