LLaVA Projesi, Yapay Zeka Örnekleri
LLaVA
LLaVA Hakkında
LLaVA, çok modlu GPT-4'ün ruhlarını taklit eden etkileyici sohbet yetenekleri elde ederek ve genel amaçlı görsel ve dil anlayışı için bir görsel kodlayıcı ile Vicuna'yı birleştiren ve yeni bir uçtan uca eğitilmiş büyük çok modlu modeli temsil eder ve yeni bir durum belirler. – Science QA'da sanat doğruluğu.
Araştırmacılar, görüntülerin içeriği hakkında bir insan kullanıcı ile bir yapay zeka asistanı arasındaki sanal konuşmaları içeren talimat izleyen veri setini oluşturmak için GPT-4'ü kullandı. Bu veri kümesi, iki temel modelden oluşan LLaVA modelinde ince ayar yapmak için kullanıldı: Görüntü için CLIP ve dil için LLaMA ve ikisini birbirine bağlamak için ek bir ağ katmanı. Ekip ayrıca, LLaVA'nın çıktısını 1 ila 10 arasında bir ölçekte derecelendirmesini isteyerek LLaVA'nın deneylerdeki yanıtlarını değerlendirmek için GPT-4'ü kullandı. LLaVA, ScienceQA eğitim veri setinde daha fazla ince ayar yapıldığında, %92,53'lük bir doğruluk elde etti; kıyaslama rekoru. Araştırmacılara göre,
Talimatları izleyen veri kümeleriyle büyük dil modellerinde (LLM'ler) ince ayar yapma tekniği, ChatGPT'nin gösterdiği gibi performansta artışa yol açtı ve araştırmacıları bu tekniği daha küçük LLM'lerle keşfetmeye sevk etti. InfoQ yakın zamanda, GPT-3'ün 175B'sine kıyasla yalnızca 7B parametrelerine sahip olan ancak birçok görevde GPT-3'ten daha iyi performans gösterebilen LLaMA hakkında rapor verdi. AI asistanlarının geliştirilmesindeki bir sonraki adım, GPT-4 ve Visual ChatGPT'nin piyasaya sürülmesiyle gösterildiği gibi, görüntü verilerini işleme yeteneğinin eklenmesi olmuştur.
Kaynak: https://www.infoq.com/news/2023/05/microsoft-llava-chatbot/