GPT-J Projesi, Yapay Zeka Örnekleri

GPT-J
1 Yıldız 0
Loading...

GPT-J

Açıklama
GPT-J, OpenAI'nin GPT-3'ünün açık kaynaklı alternatifidir. Pile üzerinde eğitilen model, Mesh Transformer JAX ile kullanıma uygundur. Artık... devamını gör
Değerlendirmeler (5.00)
Değerlendirme (0 / 0)

GPT-J GPT-J Hakkında

GPT-J, OpenAI'nin GPT-3'ünün açık kaynaklı alternatifidir. Pile üzerinde eğitilen model, Mesh Transformer JAX ile kullanıma uygundur. Artık Eleuther AI sayesinde herkes GPT-3'ün 6B parametre sürümünü indirebilir ve kullanabilir.

EleutherAI , GPT-Neo'nun yaratıcılarıdır.

GPT-J-6B, çeşitli sıfır vuruşlu aşağı akış görevlerinde 6.7B GPT-3 (veya Curie) ile neredeyse eşit performans gösterir.

Sıfır Atış Değerlendirmeleri

Modeller kabaca performansa göre veya yoksa FLOP'lara göre sıralanır.

Modeli Ağırlıklar Eğitim FLOP'ları LAMBADA PPL ↓ LAMBADA Acc ↑ şarap ↑ Hellaswag ↑ PIQA ↑ Veri Kümesi Boyutu (GB) Şans ✔ 0 ~çok ~0% %50 %25 %25 0 GPT-3-Ada‡ ✘ —– 9.95 %51,6 %52,9 %43,4 %70,5 —– GPT-2-1.5B ✔ —– 10.63 %51,21 %59,4 %50.9 %70,8 40 GPTNeo-1.3B‡ ✔ 3.0e21 7.50 %57,2 %55.0 %48,9 %71,1 825 Megatron-2.5B* ✘ 2.4e21 —– %61,7 —– —– —– 174 GPTNeo-2.7B‡ ✔ 6.8e21 5.63 %62,2 %56,5 %55,8 %73.0 825 GPT-3-1.3B*‡ ✘ 2.4e21 5.44 %63,6 %58,7 %54,7 %75,1 ~800 GPT-3-Babbage‡ ✘ —– 5.58 %62,4 %59.0 %54,5 %75,5 —– Megatron-8.3B* ✘ 7.8e21 —– %66,5 —– —– —– 174 GPT-3-2.7B*‡ ✘ 4.8e21 4.60 %67,1 %62,3 %62,8 %75,6 ~800 Megatron-11B† ✔ 1.0e22 —– —– —– —– —– 161 GPT-J-6B ‡ ✔ 1.5e22 3,99 %69,7 %65,3 %66,1 %76,5 825 GPT-3-6.7B*‡ ✘ 1.2e22 4.00 %70,3 %64,5 %67,4 %78.0 ~800 GPT-3-Curie‡ ✘ —– 4.00 %69,3 %65,6 %68,5 %77,9 —– GPT-3-13B*‡ ✘ 2.3e22 3,56 %72,5 %67,9 %70,9 %78,5 ~800 GPT-3-175B*‡ ✘ 3.1e23 3.00 %76,2 %70,2 %78,9 %81.0 ~800 GPT-3-Davinci‡ ✘ —– 3.0 %75 %72 %78 %80 —–

* ilgili yazarları tarafından bildirilen değerlendirme sayılarını temsil eder, diğer tüm sayılar, serbest bırakılan ağırlıklarla veya API erişimiyle lm-değerlendirme-harness çalıştırılarak sağlanır. Farklı sıfır atış görev çerçevelemesinin yanı sıra ince uygulama farklılıkları nedeniyle bunlar doğrudan karşılaştırılamayabilir. Daha fazla ayrıntı için bu blog gönderisine bakın.

† Megatron-11B modeli, karşılaştırılabilir ölçümler sağlamaz ve yayınlanan ağırlıkları kullanan çeşitli uygulamalar, üretim kalitesini ve değerlendirmeleri yeniden üretmez. (bkz. 1 2 3 ) Dolayısıyla değerlendirme yapılmadı.

‡ Bu modeller, olası test seti kontaminasyonu içeren verilerle eğitilmiştir. OpenAI GPT-3 modelleri, belirli test kümeleri için eğitim verilerini tekilleştirmede başarısız olurken, GPT-Neo modelleri ve bunun gibi, herhangi bir test kümesine göre tekilleştirme yapılmamış The Pile üzerinde eğitilmiştir.

Kaynak: https://github.com/kingoflolz/mesh-transformer-jax/blob/master/README.md

--

Değerlendirme & Yorumlar

Subscribe
Bildir
guest
0 Yorum
Inline Feedbacks
View all comments
Etiketler
0
Would love your thoughts, please comment.x