Según se informa, en un intento por contar con datos de alta calidad para entrenar sus modelos de IA, empresas como OpenAI, Google y Meta han utilizado tácticas controversiales. Un informe del New York Times afirma que OpenAI habría transcrito más de un millón de horas de videos de YouTube para procesar datos y entrenar su avanzado modelo de lenguaje, GPT-4.
OpenAI habría desarrollado el modelo de transcripción de audio Whisper para extraer datos de videos de YouTube. Aunque era consciente de que esta acción podría traer problemas, la compañía decidió seguir adelante con ella argumentando que era un uso legítimo. Curiosamente, Google, propietario de YouTube, también ha estado involucrado en prácticas similares con sus modelos de IA, violando así los derechos de autor.
OpenAI aparentemente extrajo datos de videos y podcasts de YouTube para entrenar dos de sus sistemas de inteligencia artificial. Además, según se informa, el presidente de OpenAI, Greg Brockman, también estuvo involucrado en este proceso.
OpenAI extrae datos de YouTube.
Durante una entrevista, el CEO de YouTube, declaró que las políticas de la plataforma «prohíben la descarga de transcripciones o fragmentos de video, lo cual sería una violación clara de nuestros términos de servicio«. Sin embargo, cuando se le preguntó si OpenAI había utilizado datos de YouTube, el ejecutivo ofreció una respuesta vaga, afirmando: «He visto informes que sugieren que podrían haber sido utilizados o no. No tengo información al respecto».
Al parecer, algunas personas en Google también estaban al tanto de la práctica de OpenAI de transcribir datos de YouTube, pero no pudieron tomar medidas ya que Google también recurría a la misma técnica para entrenar su propio modelo de IA. Sin embargo, Google aseguró que solo extraen datos de videos con el consentimiento del creador del video.
Según se informa, en junio de 2023, Google pidió a un equipo que «modificara su política de privacidad» para permitir que Google accediera a Google Docs, reviews de restaurantes en Google Maps y otro material online de acceso público con el propósito de obtener más datos para sus productos de IA.
Fuente: The Verge