The Pile Projesi, Yapay Zeka Örnekleri
The Pile
The Pile Hakkında
The Pile, EleutherAI tarafından geliştirilen ve bir araya getirilmiş birçok küçük veri kümesinden oluşan 825 GiB, çeşitli, açık kaynaklı bir dil modelleme veri kümesidir. Amaç, The Pile kullanılarak eğitilen modellerin çok daha geniş genelleme yeteneklerine sahip olmasını sağlamak için mümkün olduğu kadar çok modaliteden metin elde etmektir.
Pile neden iyi bir eğitim setidir?
Son zamanlarda yapılan çalışmalar, özellikle büyük modeller için, veri kaynaklarındaki çeşitliliğin, modelin genel etki alanları arası bilgisini ve aşağı yönde genelleme yeteneğini geliştirdiğini göstermiştir. Değerlendirmelerimizde, Pile üzerinde eğitilen modeller yalnızca geleneksel dil modelleme ölçütlerinde orta düzeyde gelişmeler göstermekle kalmıyor, aynı zamanda Pile BPB'de de önemli gelişmeler gösteriyor.
| Bileşen | Ham Boyut |Ağırlık|Dönemler|Etkin Boyut|Ortalama Belge Boyutu| |—————–|———-|——|—–:|—– ——–|——————| | Yığın-CC |227,12 GiB|%18,11| 1,0|227,12 GiB |4,33 KiB | | PubMed Central |90,27 GiB |%14,40| 2,0|180,55 GiB |30,55 KiB | | Kitap3 |100,96 GiB|%12,07| 1,5|151,44 GiB |538,36 KiB | | OpenWebText2 |62,77 GiB |%10,01| 2,0|125,54 GiB |3,85 KiB | | ArXiv |56,21 GiB |%8,96 | 2,0|112,42 GiB |46,61 KiB | | Github |95,16 GiB |%7,59 | 1,0|95,16 GiB |5,25 KiB | | FreeLaw |51,15 GiB |%6,12 | 1,5|76,73 GiB |15,06 KiB | | StackExchange |32,20 GiB |%5,13 | 2,0|64,39 GiB |2,16 KiB | | USPTO Arka Planları |22,90 GiB |%3,65 | 2,0|45,81 GiB |4,08 KiB | | PubMed Özetleri |19,26 GiB |%3,07 | 2,0|38,53 GiB |1,30 KiB | | Gutenberg (PG-19) |10,88 GiB |%2,17 | 2,5|27,19 GiB |398,73 KiB | | OpenSubtitles |12,98 GiB |%1,55 | 1,5|19,47 GiB |30,48 KiB | | Wikipedia (tr) |6,38 GiB |%1,53 | 3,0|19,13 GiB |1,11 KiB | | DM Matematik |7,75 GiB |%1,24 | 2,0|15,49 GiB |8,00 KiB | | Ubuntu IRC |5,52 GiB |%0,88 | 2,0|11,03 GiB |545,48 KiB | | BookCorpus2 |6,30 GiB |%0,75 | 1,5|9,45 GiB |369,87 KiB | | EuroParl |4,59 GiB |%0,73 | 2,0|9,17 GiB |68,87 KiB | | HackerNews |3,90 GiB |%0,62 | 2,0|7,80 GiB |4,92 KiB | | Youtube Altyazıları |3,73 GiB |%0,60 | 2,0|7,47 GiB |22,55 KiB | | PhilPapers |2,38 GiB |%0,38 | 2,0|4,76 GiB |73,37 KiB | | NIH İhracatçısı |1,89 GiB |%0,30 | 2,0|3,79 GiB |2,11 KiB | | Enron E-postaları |0,88 GiB |%0,14 | 2,0|1,76 GiB |1,78 KiB | | Toplam | | | |1254,20 GiB |5,91 KiB |
Kaynak: https://pile.eleuther.ai/