El escándalo de 'The Pile': Apple y empresas de IA acusadas de escanear datos de YouTube sin permiso

Apple y otras grandes empresas de tecnología se encuentran en medio de acusaciones por utilizar datos de YouTube de manera no autorizada para entrenar modelos de inteligencia artificial. Este escándalo involucra el uso de subtítulos de decenas de miles de videos, extraídos de 'The Pile', un extenso conjunto de datos compilado por la organización sin fines de lucro EleutherAI. Inicialmente concebido para democratizar el acceso al entrenamiento de modelos de IA, 'The Pile' ahora es utilizado también por gigantes como Nvidia y Anthropic, además de Apple.

Uso no autorizado de Datos de YouTube por gigantes tecnológicos

El escándalo del uso no autorizado de datos

A pesar de las estrictas políticas de Google que prohíben la recopilación no autorizada de contenido de YouTube, una investigación reciente de Proof News reveló que Apple, Nvidia y Anthropic emplearon subtítulos de más de 170,000 videos para sus proyectos de IA. Aunque estas empresas no eliminaron directamente los videos de la plataforma, sus modelos de IA, incluidos Claude y Apple Intelligence, se beneficiaron de la información recopilada de 'The Pile'.

La creciente demanda de datos esenciales para el desarrollo de modelos de IA avanzados ha llevado a las empresas a explorar diversas fuentes de información. Sin embargo, la falta de disponibilidad y consentimiento para utilizar estos datos plantea serios dilemas éticos y legales. Este debate se intensifica con las múltiples demandas legales en curso contra empresas que utilizan música e imágenes generadas por IA, cuestionando la legitimidad del uso de derechos de autor en los conjuntos de datos de entrenamiento.


Meta, a través de sus plataformas como Facebook, Instagram, Threads y WhatsApp, enfrenta críticas de usuarios preocupados por la privacidad de sus datos. Apple, por otro lado, maneja grandes volúmenes de información de usuarios, aunque sus estrictas políticas de privacidad limitan su utilidad en la fase inicial de entrenamiento de modelos de IA.

La escasez de datos está motivando a las empresas a explorar nuevas fuentes para entrenar modelos avanzados de IA. Sin embargo, algunas fuentes no están dispuestas a compartir datos o desconocen cómo se utilizarán para el entrenamiento de IA.

El Rol de 'The Pile' y la controversia ética

La inclusión de videos de prominentes creadores como BBC, NPR, Wall Street Journal, Mr Beast y Marques Brownlee en 'The Pile' destaca la complejidad del problema. Este conjunto de datos incluye un impresionante total de 48,000 canales y 173,536 videos de YouTube, algunos de los cuales contienen contenido controvertido como teorías de conspiración y parodias que podrían influir en la integridad de los modelos de IA desarrollados.

El uso de datos de entrenamiento de YouTube ha sido motivo de controversia previa, recordando debates anteriores sobre la ética en el uso de datos por parte de gigantes tecnológicos. Figuras clave como Mira Murati de OpenAI y Dave Wiskus de Nebula han expresado su preocupación por el uso no autorizado de datos, especialmente en un momento en que la IA generativa está comenzando a reemplazar a creadores individuales en el ámbito artístico.


En respuesta a las preocupaciones planteadas, Anthropic ha afirmado que 'The Pile' representa solo un pequeño subconjunto de subtítulos de YouTube, y que el uso de estos datos va más allá de los términos de servicio directos de la plataforma. Sin embargo, la cuestión sobre la violación de derechos de autor y términos de servicio de YouTube sigue siendo debatida, dejando incertidumbres legales y éticas sin resolver.

Desafíos éticos en el uso de datos

El futuro de la IA queda en entredicho mientras Google, también bajo escrutinio por violaciones de privacidad pasadas, tras ser descubierto escaneando documentos de usuario en Google Drive con su Gemini AI sin autorización explícita. Esta revelación ha molestado a los creadores, planteando debates sobre la legitimidad de los datos y los derechos de autor en el entrenamiento de modelos. Su principal recurso probablemente depende de si Google decide que ha infringido los términos de YouTube. Aunque afirma haber implementado medidas para evitar abusos, la falta de transparencia en estas acciones genera dudas sobre la protección de los derechos de usuarios y creadores.

El uso no autorizado de datos de YouTube para entrenar modelos de IA destaca los desafíos éticos y legales enfrentados por la industria tecnológica. Con múltiples demandas en curso y sin una resolución clara a la vista, la comunidad espera respuestas sobre cómo garantizar la ética y la legalidad en la innovación tecnológica en los próximos años.

Artículo Anterior Artículo Siguiente