Haber Detayı
Google Nano Banana Proya rakip olacak
Yapay zeka dünyasında Claude ve Gemini rüzgar gibi eserken, sektörde rekabet kızışıyor.
16 milyar parametreli GLM-Image, endüstri standardı haline gelen Pure Diffusion mimarisini bir kenara bırakıyor.
Bu mimari, görüntüyü adeta karlı bir ekranı netleştirir gibi rastgele piksellerden oluşturuyordu.
Modelde, bir sonraki adımı önceki verilere bakarak mantıksal sırayla tahmin eden Auto-regressive teknolojisi ile Diffusion yeteneklerini harmanlayan hibrit bir yapı tercih edilmiş.
Bu teknik değişim sayesinde, daha önce sadece parayla satılan kapalı modellerin yapabildiği bilgi yoğunluklu infografikler, slaytlar ve teknik şemalar artık açık kaynaklı bir modelle de oluşturulabiliyor.
Nano Banana Pro ile kafa kafaya yarışan GLM-Image, bazı testlerde rakibini geride bırakmayı bile başarmış.GLM-Imagein en güçlü olduğu alan görsellikten ziyade hassasiyet.
CVTG-2k adı verilen ve metinlerin yer aldığı görsellerin doğruluğunu ölçen benchmark sonuçlarında, Z.aiın yapay zekası 0.9116 puan alarak rakiplerine fark attı.
İş dünyasının güvenilir limanı olarak görülen Googleın modeli ise daha düşük puanda kaldı.
Bir pazarlama sunumu hazırladığınızı düşünün; başlık, üç madde ve bir de alt açıklama gerekiyor.
Nano Banana Pro metin sayısı arttıkça tökezleyip halüsinasyon görmeye başlarken, GLM-Image karmaşık senaryolarda bile %90ın üzerinde bir doğruluk oranını koruyabiliyor.
Halüsinasyon yapay zekanın gerçekte olmayan uydurma bilgiler üretmesine deniyor.Ancak madalyonun diğer yüzünde kullanıcı deneyimi var.
Nano Banana Pro internete bağlı olduğu için Bana gökyüzündeki takımyıldızları çiz dediğinizde arama motorunu kullanıp veriyi çekebiliyor.
GLM-Imagede ise her detayı sizin tek tek, tane tane anlatmanız gerekiyor.
Yani armut piş ağzıma düş rahatlığı burada pek yok.
Ayrıca estetik açıdan bakıldığında, Googleın görselleri hâlen canlı ve göze hitap ediyor.GLM-Imagein metinlerdeki başarısının arkasında, problemi çözme şeklindeki radikal değişiklik yatıyor.
Resmi doğrudan pikseller yerine sıkıştırılmış veri üzerinden çizen standart modeller, genel kompozisyonu ve ince detayları aynı anda yapmaya çalışır.
Bu da bazen modelin konudan sapıp ne çizmesi gerektiğini unuttuğu hatasına yol açar.
GLM-Image ise işi iki farklı uzmana bölerek bu sorunu aşıyor.Süreçte ilk olarak dokuz milyar parametrelik Auto-regressive modülü devreye giriyor.
Bu modül piksellerle hiç uğraşmadan, adeta bir mimar gibi mantıksal bir plan yaparak, görseli oluşturan kod parçacıkları diyebileceğimiz Visual Tokens üretiyor.
Bu parçacıklar, metnin nereye geleceğini ve objelerin konumunu belirleyen bir taslak görevi görüyor.
İkinci kısım ise bir ressam edasıyla, mimarın çizdiği iskeleti boyayarak doku, ışık ve stil eklemelerini gerçekleştiriyor.
Bu yöntemle metinlerin doğru yazılması garanti altına alınırken, görselin de gerçekçi görünmesini sağlıyor.GLM-Image, yazılımı kısıtlamasız kullanma izni tanıyan MIT License ve patent haklarını da kapsayan açık yapıdaki Apache 2.0 gibi son derece esnek lisanslara sahip.
Bu durum şirketlerin modeli alıp ticari ürünlerinde özgürce kullanabileceği, değiştirebileceği ve dağıtabileceği anlamına geliyor.
Patent davaları riskini azaltan bu lisanslar, hassas verilerle çalışan kurumlar için adeta biçilmiş kaftan.Her güzelin bir kusuru vardır, bu modelin kusuru da işlem gücü.
Çift beyinli bu yapıyı çalıştırmak bilgisayarları epey terletiyor. 2048×2048 çözünürlüğünde tek bir görsel üretmek, yani modelin veriyi işleyip sonuç çıkardığı Inference süreci, güçlü bir H100 GPU grafik işlemci üzerinde bile yaklaşık dört dakika sürüyor.
Daha basit modeller saniyeler içinde sonuç verirken bu süre uzun gelebilir.
Ancak bir grafik tasarımcının saatlerini harcayacağı bir işi dört dakikada çözüyorsa, bu bekleme süresi göz ardı edilebilir.