Apple, Antropic ve Nvidia, AI eğitimi için YouTube altyazılarını kullanarak yakalandı

Proof News ve Wired tarafından yapılan yeni bir soruşturma, Apple, Antropic, Nvidia ve Salesforce dahil olmak üzere büyük teknoloji şirketlerinin, AI sistemlerini eğitmek için büyük bir YouTube altyazı veri kümesi kullandığını ortaya koydu.

“YouTube altyazıları” olarak bilinen veri kümesi, MrBeast ve Marques Brownlee (MKBHD) gibi popüler yaratıcılardan ve ABC News, BBC ve The New York Times gibi büyük haber kuruluşlarının içeriği de dahil olmak üzere 48.000'den fazla videodan transkriptler içeriyor. Veri kümesi gerçek video içeriğini içermez, ancak yalnızca bu videolardan çıkarılan altyazılara odaklanır.

Bu vahiy, verilerin izinsiz olarak toplandığı ve YouTube'un hizmet şartlarını ihlal ettiği bildirildiğinden, önemli tartışmalara yol açtı. Tanınmış bir teknoloji gözden geçiren Marques Brownlee, sorunu sosyal medyada vurguladı ve AI eğitimi için kendisinin ve diğer yaratıcıların içeriğinin yetkisiz kullanımı hakkındaki endişelerini dile getirdi. Apple gibi şirketlerin verileri kazıma için doğrudan hatalı olmasa da, yine de bu şüpheli uygulamanın faydalanıcıları olduğunu vurguladı.

Apple, AI'ları için birkaç şirketten veri tedarik etti

Bunlardan biri, benim de dahil olmak üzere YouTube videolarından tonlarca veri/transkript kazdı

Apple teknik olarak burada “hatadan” kaçınıyor çünkü onlar kazıyan değiller

Ama bu uzun zamandır gelişen bir sorun olacakhttps://t.co/u93riaiesly

- Brownlee Brands (@MKBHD)16 Temmuz 2024

Söz konusu veri kümesi, kâr amacı gütmeyen Eleutherai tarafından oluşturulan The Pile adlı daha büyük bir koleksiyonun bir parçasıdır. Kazık, kitaplar, Wikipedia makaleleri ve şimdi YouTube altyazıları gibi çeşitli malzemeler içeren açık kaynaklı bir veri kümesidir. Bu derleme, AI modellerini geliştirmek için birkaç teknoloji devi tarafından kullanılmıştır. Örneğin Apple, yığını, iOS 18 ile piyasaya sürülecek AI destekli özelliklerden oluşan Apple Intelligence'ın tanıtımından hemen önce açıklanan Openelm modelini eğitmek için kullandı.

Bu veri kümesinin kullanımı etik ve yasal soruları gündeme getirmiştir. YouTube'un CEO'su Neal Mohan ve Alfabe CEO'su Sundar Pichai, her ikisi de YouTube içeriğini izinsiz AI eğitimi için kullanmanın platformun hizmet şartlarını ihlal ettiğini belirtti. Bu iddialara rağmen, Apple ve Nvidia gibi şirketler, kazık veri kümesiyle katılımları hakkında kamuya açıklanmamışlardır.

Daha fazla okuma:Antropik Claude 3.7: İlk Hibrit Akıl Yürütme AI Modeli

Ayrıca, bu durum AI endüstrisinde daha geniş bir sorunu vurgulamaktadır: eğitim verilerinin kaynaklarıyla ilgili şeffaflık eksikliği. Şirketler genellikle veri kaynaklarının detaylarını kaplamaların altında tutar ve içeriğin potansiyel yanlış kullanımı ve içerik oluşturucular için etkileri konusunda endişelere yol açar. Bu şeffaflık eksikliği yeni değil. Bu yılın başlarında, Openai'nin CTO'su Mira Murati, YouTube videolarının AI araçlarını eğitmek için kullanılıp kullanılmadığını, bunun yerine halka açık veya lisanslı verilerin kullanımını göstererek doğrudan ele almaktan kaçındı.

Kanıt haber soruşturması, kazık veri kümesinin belirli cinsiyetlere ve dini gruplara karşı önyargılar ve küfür gibi potansiyel olarak sorunlu içerik içerdiğini de vurguladı. Bu sorunlara rağmen, Salesforce gibi şirketler, kamuya açık olduğunu ve akademik ve araştırma amaçlı kullanıldığını iddia ederek veri kümesini kullanımlarını savundu.

(aracılığıylaKablolu)