Switch Transformers by Google Brain Projesi, Yapay Zeka Örnekleri

Switch Transformers by Google Brain

Açıklama

Derin öğrenmede, modeller tipik olarak tüm girdiler için aynı parametreleri yeniden kullanır. Uzman Karışımı (MoE) buna meydan okur ve bunun yerine ge... devamını gör

Kategoriler

GPT-3 Alternatif Büyük Dil Modelleri (LLMS)

Değerlendirmeler (5.00)

Değerlendirme (0 / 0)

Web Sitesi

Web Sayfası

Benzer Projeler

Tüm Projeleri Gör

Switch Transformers by Google Brain Hakkında

Derin öğrenmede, modeller tipik olarak tüm girdiler için aynı parametreleri yeniden kullanır. Uzman Karışımı (MoE) buna meydan okur ve bunun yerine gelen her örnek için farklı parametreler seçer. Sonuç, aşırı sayıda parametreye sahip, ancak sabit bir hesaplama maliyetine sahip, seyrek olarak etkinleştirilen bir modeldir. Bununla birlikte, MoE'nin birkaç dikkate değer başarısına rağmen, karmaşıklık, iletişim maliyetleri ve eğitim istikrarsızlığı yaygın benimsemeyi engelliyor – bunları Switch Transformer ile ele alıyoruz. MoE yönlendirme algoritmasını basitleştiriyoruz ve azaltılmış iletişim ve hesaplama maliyetleriyle sezgisel olarak geliştirilmiş modeller tasarlıyoruz. Önerdiğimiz eğitim teknikleri istikrarsızlıkların giderilmesine yardımcı oluyor ve büyük seyrek modellerin ilk kez daha düşük hassasiyetli (bfloat16) formatlarla eğitilebileceğini gösteriyoruz. Aynı hesaplama kaynaklarıyla eğitim öncesi hızda 7 kata kadar artış elde etmek için T5-Base ve T5-Large tabanlı modeller tasarlıyoruz. Bu iyileştirmeler, 101 dilin tamamında mT5-Base sürümüne göre kazanımları ölçtüğümüz çok dilli ayarlara kadar uzanır. Son olarak, "Colossal Clean Crawled Corpus" üzerinde trilyon parametre modeline kadar ön eğitim vererek dil modellerinin mevcut ölçeğini ilerletiyoruz ve T5-XXL modeline göre 4 kat hızlanma elde ediyoruz.

Makalenin tamamını https://arxiv.org/abs/2101.03961 adresinde okuyun.