Apple, uzun biçimli videoyu etkili bir şekilde anlamak için tasarlanmış yeni bir video büyük dil modelleri (video-llms) ailesi olan Slowfast-Llava-1.5'i tanıttı. Araştırma makalesinde Apple, mevcut video LLM'lerinin çoğunun, ölçeklendirme yeteneklerini sınırlayan genişletilmiş video içeriğini analiz ederken yüksek hesaplama maliyetleri ve aşırı jeton kullanımı ile mücadele ettiğini açıklıyor. Slowfast-llava-1.5, doğruluğu korurken videoyu temsil etmek için gereken jeton sayısını azaltan jeton etkili bir çerçeve getirerek bunu ele alır.
Jeton verimliliği kritiktir, çünkü bir videodaki her kare, bir LLM işleyebilmeden önce jetonlara dönüştürülmelidir. Uzun biçimli video ile, jeton sayısı hızla yönetilemez hale gelir, maliyetleri artırır ve performansı yavaşlatır. Apple'ın yaklaşımı, video verilerini sıkıştırır, böylece önemli bağlamı kaybetmeden daha az jeton kullanılır. Bunu, “yavaş” bir yolun uzun vadeli kalıpları yakaladığı ve “hızlı” bir yolun kısa vadeli ayrıntılara odaklandığı çift yollu bir mimariyle birleştirerek, model anlama verimlilikle dengelenebilir. Bu, genişletilmiş diziler arasında hem kapsayıcı hikayeleri hem de ince taneli eylemleri izlemesini sağlar.

Sistem de oldukça ölçeklenebilir, yani hesaplama kaynaklarını ezmeden çok daha uzun videoları ve daha büyük veri kümelerini işlemek için genişleyebilir. Giriş uzunluğu arttıkça geleneksel modeller pratik hale gelir, ancak Apple'ın tasarımı kısa klipslerden çok saatlik görüntülere kadar ölçeklemenin mümkün kalmasını sağlar. Bu, Slowfast-Llava-1.5'i, uzun video arşivlerinde video sorusu cevaplama, zamansal akıl yürütme, özetleme ve içerik alımı gibi görevler için uygun hale getirir.
Kıyaslama testlerinde Apple, modelin video-MME ve LongVideobench gibi veri kümelerinde güçlü sonuçlar elde ettiğini ve önceki yaklaşımlara kıyasla hem daha iyi verimlilik hem de anlama gösterdiğini bildirdi. Araştırma ayrıca, doğal dil istemlerini takip etmek için talimat ayarlı 1.5b, 7b ve 13b parametre sürümleri dahil olmak üzere birden fazla model boyutu da sunmaktadır. Bu, sistemin karmaşık video içeriği hakkında ayrıntılı yanıtlar üretmesini sağlar, bu da eğitim video analizi, toplantı özetleme ve altyazılar veya aranabilir transkriptler oluşturan erişilebilirlik araçları için geçerli olmasını sağlar.
Apple, token tasarruflu ve ölçeklenebilir tasarımın sadece araştırma yeniliği değil, pratiklik ile ilgili olduğunu vurgular. Hesaplama gereksinimlerini azaltarak, özelliği genişletirken, model uzun biçimli video anlayışını gerçek dünya ürünlerine entegre etmenin yolunu açar. Video eğlence, eğitim ve profesyonel iletişimde hakim olmaya devam ettikçe, Apple'ın uzun biçimli video LLM'si, gelişmiş multimodal AI'yı hem kullanılabilir hem de erişilebilir hale getirmek için önemli bir adımdır.
Tam kağıda göz atınBurada.
Önerilen Okuma:Tiktok, 60 dakikalık video yüklemeleriyle uzun biçimli içeriği kucaklıyor
