MPT-7B Projesi, Yapay Zeka Örnekleri
MPT-7B
MPT-7B Hakkında
MPT-7B, MosaicML Foundation Serisindeki en son giriştir. MPT-7B, 1T metin ve kod belirteçleri üzerinde sıfırdan eğitilmiş bir dönüştürücüdür. Açık kaynaktır, ticari kullanıma uygundur ve LLaMA-7B kalitesine uygundur. MPT-7B, MosaicML platformunda sıfır insan müdahalesi ile 9,5 günde ~200.000 $ maliyetle eğitildi. Bugünden itibaren, kontrol noktalarımızdan birinden başlayarak veya sıfırdan eğitim alarak kendi özel MPT modellerinizi eğitebilir, ince ayar yapabilir ve konuşlandırabilirsiniz. İlham almak için, temel MPT-7B'ye ek olarak ince ayarlı üç model de yayınlıyoruz: MPT-7B-Instruct, MPT-7B-Chat ve sonuncusu 65k bağlam uzunluğu kullanan MPT-7B-StoryWriter-65k+ belirteçler.
Büyük dil modelleri (LLM'ler) dünyayı değiştiriyor, ancak iyi kaynaklara sahip endüstri laboratuvarlarının dışındakiler için bu modelleri eğitmek ve uygulamak son derece zor olabilir. Bu, Meta'dan LLaMA serisi, EleutherAI'den Pythia serisi, StabilityAI'den StableLM serisi ve Berkeley AI Research'ten OpenLLaMA modeli gibi açık kaynaklı LLM'lere odaklanan bir faaliyet telaşına yol açtı.
MosaicML, yukarıdaki modellerin sınırlamalarını gidermek ve nihayet LLaMA-7B ile eşleşen (ve – birçok yönden – aşan) ticari olarak kullanılabilir, açık kaynaklı bir model sağlamak için MPT (MosaicML Pretrained Transformer) adlı yeni bir model serisini piyasaya sürüyor. MPT model serisi:
Ticari kullanım için lisanslanmıştır (LLaMA'dan farklı olarak). Büyük miktarda veri üzerinde eğitildi (LLaMA ve Pythia için 300B, OpenLLaMA için 300B ve StableLM için 800B gibi 1T belirteçleri). ALiBi sayesinde son derece uzun girişleri işlemek için hazırlandı (65 bine kadar giriş üzerinde eğitim aldık ve diğer açık kaynak modellerinde 2k-4k'ye karşı 84k'ye kadar işleyebiliriz). Hızlı eğitim ve çıkarım için optimize edilmiştir (FlashAttention ve FasterTransformer aracılığıyla) Son derece verimli açık kaynaklı eğitim kodu ile donatılmıştır.
Kaynak: https://www.mosaicml.com/blog/mpt-7b