ClipClap Projesi, Yapay Zeka Örnekleri
ClipClap
ClipClap Hakkında
Görüntü alt yazısı oluşturma, genellikle önceden eğitilmiş bir algılama ağının kullanıldığı karmaşık bir görevdir ve nesne notu şeklinde ek denetim gerektirir. Ek bilgi gerektirmeyen (yani sadece resim ve altyazı gerektiren) yeni bir yaklaşım sunuyoruz, bu nedenle herhangi bir veriye uygulanabilir. Ek olarak, modelimizin eğitim süresi benzer yöntemlerden çok daha hızlıdır ve Conceptual Captions veri kümesi 3M'den fazla görüntü içerse bile son teknoloji ile karşılaştırılabilir sonuçlar elde eder.
Çalışmamızda, hali hazırda oldukça fazla sayıda görüntü üzerinde eğitilmiş olan ve bu sayede herhangi bir ek denetim gerektirmeden rastgele görüntüler için semantik kodlamalar üretebilen CLIP modelini kullanıyoruz. Anlamlı cümleler üretmek için, diğer doğal dil görevleri için başarılı olduğu kanıtlanmış, önceden eğitilmiş bir dil modelinde ince ayar yapıyoruz. Temel fikir, ham kodlama üzerinde basit bir eşleme ağı kullanarak CLIP kodlamasını metinsel altyazıların öneki olarak kullanmak ve ardından geçerli bir altyazı oluşturmak için dil modelimize ince ayar yapmaktır. Ek olarak, haritalama ağı için bir transformatör mimarisi kullandığımız ve GPT-2'nin ince ayarını yapmaktan kaçındığımız başka bir varyant sunuyoruz. Yine de hafif modelimiz, nocaps veri kümesi üzerinden son teknoloji ile karşılaştırılabilir bir başarı elde ediyor.
Kaynak: https://github.com/rmokady/CLIP_prefix_caption