Apple y NVIDIA usan videos de YouTube para entrenar sus sistemas de inteligencia artificial

Los gigantes de la tecnología generan controversia por el uso de videos de YouTube sin permiso para entrenar IA.

Apple y NVIDIA generan controversia al usar videos de YouTube sin permiso para entrenar IA.
Staff Apple y NVIDIA generan controversia al usar videos de YouTube sin permiso para entrenar IA.

Una reciente investigación ha descubierto que Apple y NVIDIA están utilizando videos de YouTube para entrenar sus sistemas de inteligencia artificial (IA). Según el estudio de Proof News, estas compañías, junto con Anthropic y Salesforce, han empleado subtítulos de videos sin la autorización de los creadores originales.

Este hallazgo pone de manifiesto la creciente dependencia de las empresas tecnológicas en grandes volúmenes de datos de alta calidad para mejorar la capacidad de sus modelos de IA.

Datos de YouTube para el entrenamiento de IA

Las empresas tecnológicas que desarrollan IA enfrentan el desafío crucial de necesitar grandes cantidades de texto de alta calidad para entrenar modelos que imiten el habla y la escritura humana con precisión. La investigación de Proof News determinó que AppleNVIDIA, Anthropic y Salesforce han utilizado subtítulos de videos de YouTube, recopilados por EleutherAI, una organización sin fines de lucro.

EleutherAI recopiló subtítulos de 173,536 videos de más de 48,000 canales de YouTube, formando parte de un conjunto de datos titulado "YouTube Subtitles". Entre los creadores de contenido cuyos videos fueron utilizados se encuentran youtubers famosos como MrBeast, PewDiePie y MKBHD. Este conjunto de datos es parte de "Pile", un set de entrenamiento conformado por 22 conjuntos de datos que también incluye material del Parlamento Europeo, Wikipedia en inglés y más.

Controversia por el uso de subtítulos de YouTube en el entrenamiento de IA

El uso de estos subtítulos ha generado controversia debido a la posible infracción de derechos de autor. A menudo, el contenido utilizado proviene de fuentes accesibles públicamente, pero no siempre con el consentimiento explícito de los creadores originales. Esto plantea preguntas sobre la ética y la legalidad del uso de dichos datos para el entrenamiento de modelos de IA.

AppleNVIDIA, Anthropic y Salesforce han negado haber actuado de manera irregular. No obstante, representantes de NVIDIA no hicieron comentarios al respecto, mientras que Apple, Databricks y Bloomberg tampoco respondieron a las solicitudes de comentarios. Este descubrimiento subraya la necesidad de revisar las prácticas de obtención de datos en la industria de la IA para garantizar que se respeten los derechos de autor y la privacidad de los creadores de contenido.

Declaraciones y reacciones sobre la utilización de videos de YouTube en la inteligencia artificial

YouTube, por su parte, ha declarado que no quiere que OpenAI use sus vídeos para entrenar modelos de inteligencia artificial como Sora. Neal Mohan, CEO de YouTube, destacó la importancia de respetar los términos de servicio de la plataforma, que no permiten la extracción de fragmentos de vídeo o transcripciones sin permiso.

La investigación de Proof News también revela que el conjunto de datos de "YouTube Subtitles" incluye material de canales educativos y de aprendizaje en línea como Khan Academy, MIT y Harvard. Otros datos provienen de medios de comunicación como The Wall Street Journal, NPR y BBC, así como de programas de televisión como The Late Show With Stephen Colbert y Last Week Tonight With John Oliver.