Meta Lama 4 Ölçüsünü Manipüle Etme İçin Ateş Altında: İlk Suçları Değil

Meta Lama 4 Ölçüsünü Manipüle Etme İçin Ateş Altında: İlk Suçları Değil

Meta kısa bir süre önce Lama 4 serisi AI modellerini yayınladı ve Chatbot Arena’da (eski adıyla LMSYS) GPT-4O ve Gemini 2.0 Pro’yu aşmak için manşetler yaptı. Şirket, 128 uzmanda devasa bir 400B’den sadece 17 milyar parametreyi etkinleştiren bir MOE modelinin – Chatbot Arena kıyaslamasında 1.417’lik etkileyici bir ELO puanı elde ettiğini iddia etti.

Bu sonuç, AI topluluğunda kaşları kaldırdı, çünkü nispeten daha küçük bir MOE modeli GPT-4.5 ve GROK 3 gibi çok daha büyük LLM’leri geride bıraktı. Küçük bir modelden gelen alışılmadık performans, AI topluluğundaki birçok kişinin modeli bağımsız olarak test etmesine yol açtı. Şaşırtıcı bir şekilde, Lama 4 Maverick’in gerçek dünyadaki performansı, özellikle meta, özellikle de ölçüm iddialarıyla eşleşmedi kodlama görevleri.

Açık 1point3acresKuzey Amerika’daki Çin halkı için popüler bir forum, eski bir meta çalışanı olduğunu iddia eden bir kullanıcı bomba gönderdi. İngilizceye çevrilen Post’a göre RedditMeta liderliğinin, kıyaslama puanını şişirmek ve dahili hedefleri karşılamak için “eğitim sonrası süreçte çeşitli kriterlerin test setlerini” karıştırdığı iddia ediliyor.

Meta çalışanı uygulamayı kabul edilemez buldu ve istifa etmeyi seçti. Eski çalışan ayrıca ekipten adlarını Lama 4 Teknik Raporundan hariç tutmasını istedi. Aslında, kullanıcı Meta’nın AI araştırma başkanı Joelle Pineau’nun son istifasının doğrudan Lama 4 Benchmark Hacking ile bağlantılı olduğunu iddia ediyor.

Artan iddialara yanıt olarak, Meta’nın üretken AI Bölümü başkanı Ahmad Al-Dahle, X’e Gönderin. Lama 4’ün test setlerinde eğitimli olduğu iddiasını sıkıca reddetti. Al-Dahle şöyle yazıyor:

Ayrıca test setleri üzerinde eğitim aldığımız iddialarını duyduk – bu doğru değil ve bunu asla yapamayacağız. En iyi anlayışımız, insanların gördüğü değişken kalitenin uygulamaları dengelemeye ihtiyaç duymasıdır.

Farklı platformlarda tutarsız Lama 4 performansını kabul etti. Ve ayrıca AI topluluğunu uygulamanın “aranması” için birkaç gün vermeye çağırdı.

LMSYS Lama 4 Benchmark Manipülasyon İddialarına Yanıt Veriyor

AI topluluğunun endişelerini takiben, LMSYS – Chatbot Arena Lider tablosunun arkasındaki kuruluş – şeffaflığı artırmak için bir açıklama yaptı. LMSYS, Chatbot Arena’da gönderilen modelin “Llama-4-Maverick-03-26-deneysel” olduğunu açıkladı. İnsan tercihi için optimize edilmiş modelin özel bir varyantıydı.

LMSYS, “stil ve model yanıt tonunun önemli bir faktör olduğunu” kabul etti. Bu, özel Lama 4 Maverick modeline gereksiz bir avantaj sağlamış olabilir. Organizasyon ayrıca bu bilginin Meta ekibi tarafından yeterince netleştirilmediğini itiraf etti. Ayrıca LMSYS, “Meta’nın politikamızı yorumlaması model sağlayıcılardan beklediğimizle eşleşmedi.” Dedi.

Ayrıca okuyun:

2025’te 10 En İyi Büyük Dil Modeli (LLMS)

Adil olmak, meta, yetkilisinde Lama 4 Blog“Deneysel sohbet versiyonu” nun Chatbot Arena’da 1.417 puan aldığını belirtti. Ama daha fazla bir şey açıklamadılar.

Son olarak, şeffaflığı artırmak için LMSYS, Lama 4 Maverick’in sarılma yüz versiyonunu Chatbot Arena’ya ekledi. Bunun yanı sıra, halkın gözden geçirmesi için 2.000’den fazla kafa kafaya savaş sonucu yayınladı. Sonuçlar istemleri, model yanıtlarını ve kullanıcı tercihlerini içerir.

İnceledim Savaş Sonuçlarıve kullanıcıların sürekli olarak Lama 4’ün genellikle yanlış ve aşırı ayrıntılı yanıtlarını tercih ettiğini görmek şaşırtıcı oldu. Bu, Chatbot Arena gibi topluluk güdümlü kriterlere güvenme hakkında daha derin sorular ortaya çıkarır.

Meta oyun ölçütleri ilk kez değil

Bu, Meta’nın veri kontaminasyonu yoluyla ilk kez oyun ölçütleri ile suçlanması, yani eğitim cesedindeki kıyaslama veri kümelerini karıştırmakla suçlanmadı. Bu yıl Şubat ayında, şu anda Google DeepMind’de çalışan eski bir Meta AI araştırmacısı olan Susan Zhang, Meta AI’nın baş bilim adamı Yann Lecun’un yayınına yanıt olarak açıklayıcı bir çalışma paylaştı.

. çalışmak Meta’nın Lama 1 önleyici verilerinde anahtar ölçütlerden elde edilen test örneklerinin% 50’sinden fazlasının mevcut olduğunu bulmuştur. Makale şöyle diyor: “Özellikle, Big Tezgah, Humaneval, Hellaswag, MMLU, Piqa ve Triviaqa her iki şirkette de önemli kontaminasyon seviyeleri gösteriyor” diyor.

Şimdi, Lama 4’teki en son ölçüt hackleme iddialarının ortasında, Zhang alaycı bir şekilde dikkat çeken Bu meta en azından bu “benzersiz yaklaşım” için Lama 1’den “önceki çalışmalarını” belirtmelidir. Jab, ölçüm manipülasyonunun bir kaza olmadığı meta’ya yönlendirilir. Ancak Zuckerberg liderliğindeki şirketin performans metriklerini yapay olarak artırma stratejisi.

Ayrıca bakınız:  Veri Broker Çoğu İnternet kullanıcısında kapsamlı kişisel profilleri talep ediyor