El debate sobre cómo se entrenan los modelos de inteligencia artificial sigue sumando capítulos, y esta vez NVIDIA quedó en el centro de la escena judicial. La compañía presentó una moción ante un tribunal federal de California para desestimar una demanda que la acusa de haber utilizado libros protegidos por derechos de autor para entrenar sus modelos de IA.
Lejos de admitir irregularidades, NVIDIA sostiene que no existe ninguna prueba concreta de que haya descargado o usado obras específicas de los demandantes. Según su postura, las acusaciones se apoyan más en suposiciones que en hechos verificables, algo que, para la empresa, no alcanza para sostener una causa de este tipo.
Una demanda que apunta a bibliotecas en la sombra
El caso, conocido como Nazemian v NVIDIA, fue presentado a comienzos de 2024 y se tramita en el Tribunal del Distrito Norte de California, bajo la supervisión del juez Jon Tigar. Los autores demandantes acusan a NVIDIA de entrenar herramientas y modelos de referencia usando libros con copyright obtenidos de bibliotecas no oficiales, entre ellas Anna’s Archive y el conocido conjunto de datos Books3.
En una versión ampliada de la demanda, los acusantes citaron supuestas conversaciones internas dentro de NVIDIA, donde empleados habrían consultado sobre el acceso a Anna’s Archive. Para ellos, esas discusiones serían una señal de uso ilegal de material protegido.
NVIDIA cuestiona la falta de pruebas básicas
En la moción presentada el 29 de enero, NVIDIA fue directa. Afirma que la demanda no cumple con los requisitos mínimos para una acusación de infracción de derechos de autor. Según la empresa, los demandantes no indican qué obras fueron copiadas, cuándo ocurrió esa copia ni en qué modelos concretos estarían incluidas.
Desde la mirada de NVIDIA, hablar de posibles fuentes de datos o evaluar alternativas no equivale a copiar contenido protegido. La compañía remarca que la ley exige hechos concretos que demuestren la reproducción de obras con copyright, algo que, según sostiene, no aparece en la presentación de los autores. Incluso plantea que es igual de plausible que NVIDIA no haya obtenido esos libros en ningún momento.
Críticas al uso de suposiciones legales
Otro punto fuerte de la defensa apunta al uso reiterado de acusaciones basadas en “información y creencia”. NVIDIA considera que este enfoque intenta usar el proceso de descubrimiento como reemplazo de pruebas, algo que la jurisprudencia no permite. En palabras simples, primero hay que demostrar que hubo una infracción, y recién después investigar más a fondo.
La empresa también busca acotar el alcance del caso, cuestionando la inclusión de otros modelos y datasets, como Megatron 345M. Según NVIDIA, los demandantes agrupan múltiples herramientas sin explicar cómo cada una habría sido entrenada con sus obras, y algunas de esas suposiciones incluso contradicen documentación pública de la propia compañía.
La demanda también introduce una teoría de responsabilidad secundaria vinculada al framework NeMo Megatron y a la descarga de grandes datasets públicos como The Pile. Frente a esto, NVIDIA responde que no se señala ningún acto concreto de infracción directa por parte de terceros, algo indispensable para hablar de responsabilidad contributiva o indirecta.
Desde su postura, ofrecer herramientas opcionales no implica violar derechos de autor, si no se demuestra que alguien las usó efectivamente para infringir la ley.
La audiencia para tratar la moción de desestimación está programada para el 2 de abril de 2026. Hasta entonces, el caso sigue abierto y puede sentar un precedente importante sobre cómo se evalúan las acusaciones de copyright en el entrenamiento de IA.







