Yapay zekâ en zor matematik sınavından nasıl sonuç aldı? “First Proof” sonuçları tartışma yarattı

11 üst düzey matematikçi, yapay zekâya bir haftada çözmesi için 10 özgün lemma verdi. OpenAI dahil birçok ekip denedi. İşte “First Proof” meydan okumasının dikkat çeken ayrıntıları.

Bu çıkarım, büyük dil modellerinin matematiksel araştırma yapma kapasitesini şimdiye dek en kapsamlı şekilde ölçen “First Proof” adlı meydan okumanın ilk sonuçlarına dayanıyor. 11 seçkin matematikçi tarafından 5 Şubat’ta başlatılan testin sonuçları Sevgililer Günü sabahın erken saatlerinde açıklandı.

Yarışmaya dahil edilen 10 matematik probleminin hangilerinin insan yardımı olmadan çözüldüğünü kesin biçimde söylemek için henüz erken.

Ancak net olan bir şey var: Hiçbir büyük dil modeli tüm soruları çözmeyi başaramadı.10 lemma, 1 hafta ve büyük beklentiFirst Proof ekibi, yapay zekâlara matematikte daha büyük sonuçların önünü açan ara teoremler anlamına gelen 10 “lemma” sundu.

Bunlar, çalışan bir matematikçinin günlük pratiğinde karşılaşabileceği, yetenekli bir doktora öğrencisine verilebilecek türden problemlerdi.

Stanford Üniversitesi matematik profesörü ve First Proof ekibi üyesi Mohammed Abouzaid’e göre seçilen problemler yalnızca standart tekniklerin bir araya getirilmesiyle çözülemeyecek, belli ölçüde özgünlük gerektiren sorulardı.Meydan okuma, yapay zekânın sınırlarını ortaya koyarken matematik camiasında büyüyen bir yapay zekâ meraklısı alt kültüre de ışık tuttu.

Matematik odaklı çevrim içi forumlar ve sosyal medya hesapları, hem tanınmış matematikçilerin hem de bağımsız lisans öğrencilerinin sunduğu sözde ispatlarla dolup taştı.

Ayrıca bu süreç, ChatGPT’nin geliştiricisi OpenAI başta olmak üzere yapay zekâ girişimlerinin büyük dil modellerine matematik öğretme konusunu ne kadar ciddiye aldığını da gösterdi.Abouzaid, gördükleri yoğun ilgiden şaşkın olduklarını belirterek, yapay zekâ şirketlerinin bu kadar ciddi şekilde sürece dahil olmasını ve bu kadar emek harcamasını beklemediklerini söyledi.Güvenli ama hatalı ispatlarFirst Proof ekibi cumartesi sabahı 10 problemin çözümünü açıkladı ve büyük dil modellerini bu soruları çözmeye çalışırken edindikleri deneyimleri paylaştı.

Bulgular dikkat çekiciydi: Yapay zekâlar her problem için son derece kendinden emin görünen ispatlar üretebildi.

Fakat bunlardan yalnızca ikisi doğruydu; dokuzuncu ve onuncu problemlere ait çözümler.Dokuzuncu problemle neredeyse birebir aynı bir ispatın daha önce mevcut olduğu ortaya çıktı.

Birinci problem ise “kirlenmiş” durumdaydı; ekibin bir üyesi ve 2014 Fields Madalyası sahibi Martin Hairer’ın internet sitesinde ispat taslağı arşivlenmişti.

Buna rağmen büyük dil modelleri bu taslaktaki boşlukları doldurmayı başaramadı.Abouzaid’e göre yapay zekâların ürettiği doğru ispatların tarzı da şaşırtıcıydı.

Çözümler 19. yüzyıl matematiğini andıran bir üsluba sahipti.

Oysa günümüz matematikçileri 21. yüzyılın matematiğini inşa etmeye çalışıyor.İnsan katkısı nerede başlıyor, yapay zekâ nerede bitiyor?Dışarıdan gelen başvuruların performansı da çok farklı görünmedi.

Bazı çözümlerde değişen derecelerde insan katkısı olduğu izlenimi oluştu.

Kimi gönderimler, matematikçiler tarafından kontrol edilen ve bir haftaya yayılan diyalogların ürünü gibiydi.

Oysa First Proof kuralları, insanlardan matematiksel yönlendirme ya da katkı alınmasını açık biçimde yasaklıyordu.Harvard Üniversitesi’nde Dwight Parker Robinson Matematik Profesörü olan ve First Proof’un kurucularından Lauren Williams, insanların devreye girdiği noktada katkının ne kadarının insana ne kadarının yapay zekâya ait olduğunu değerlendirmenin güçleştiğini ifade etti.OpenAI ise cumartesi günü kendi çalışmalarını yayımladı.

Şirket, en yeni kurum içi modelleriyle ve insan matematikçilerin “uzman geri bildirimi” eşliğinde bir haftalık yoğun çalışma yürüttü.

OpenAI baş bilim insanı Jakub Pachocki, sosyal medyada yaptığı paylaşımda 10 çözümden altısının doğru olma ihtimalinin yüksek olduğunu düşündüklerini belirtti.

Ancak matematikçiler şimdiden bu altı çözümden en az birinde potansiyel boşluklara işaret etti.Genel tabloya bakıldığında, gönderimlerin büyük bölümünün son derece ikna edici görünen fakat hatalı içerikler olduğu anlaşılıyor.

Yarışma tamamlanmadan önce bile ilk bakışta güvenilir görünen bazı çözümler uzmanlar tarafından sorgulanmaya başlanmıştı.Doğruluk yetmiyor, özgünlük daha da zorGönderimlerin uzmanlar tarafından ayrıntılı biçimde incelenmesi günler sürebilir.

Bir ispatın doğru olup olmadığını değerlendirmek başlı başına zorken, gerçekten “özgün” olup olmadığını anlamak daha da güç.

First Proof ekibinde yer almayan Toronto Üniversitesi matematikçisi Daniel Litt’e göre matematikte hiçbir şey tamamen emsalsiz değil.Abouzaid ise süreci bir deney olarak gördüklerini ve temel amaçlarının geri bildirim toplamak olduğunu belirtti.

Ekip, daha sıkı kurallara sahip ikinci bir tur planladıklarını ve 14 Mart’ta daha fazla ayrıntı paylaşacaklarını duyurdu.

Yapay zekânın ilerlemesini yakından takip eden bazı matematikçilere göre sonuçlar beklentilerle uyumlu.

Litt, halka açık modellerden iki ya da üç açıkça doğru çözüm beklediğini, 10 doğru çözümün ise kendisini çok şaşırtacağını ifade etti.Yine de araştırma seviyesindeki problemlere yapay zekâdan birkaç geçerli çözüm gelmiş olması bile birkaç ay öncesine kadar mümkün görünmüyordu.

Fransa’daki Sorbonne Üniversitesi matematikçisi Scott Armstrong, bazı meslektaşlarının şaşkınlık içinde olduğunu belirterek bu araçların matematiği değiştirmeye başladığını ve bunun şu anda gerçekleştiğini söyledi.Ancak yapay zekâ başarılarını yakından izleyen herkes aynı fikirde değil.

Cambridge Üniversitesi lisans öğrencisi Kevin Barreto, modellerin zorlandığını düşündüğünü ifade etti.

Barreto, kısa süre önce Macar matematikçi Paul Erdős tarafından ortaya atılan problemlere atıfla, Erdős problemlerinden birini yapay zekâ yardımıyla çözdüğünü belirtti ve sonuçlar karşısında bir miktar hayal kırıklığı yaşadığını dile getirdi.

#yapay-zeka

Orijinal habere git