Meta ha presentado Llama 3, un gran modelo de lenguaje de próxima generación que llama «el LLM de código abierto más capaz hasta el momento» (un descaro?). La compañía ha lanzado dos versiones, Llama 3 8B y Llama 3 70B, respectivamente, con 8 y 70 mil millones de parámetros. Según la empresa, los nuevos modelos de IA son significativamente superiores a los modelos correspondientes de la generación anterior y se encuentran entre los mejores modelos de IA generativa disponibles actualmente.
Para respaldar sus palabras, Meta proporciona los resultados de las populares pruebas MMLU, ARC y DROP. Con Llama 3 8B superando a otros modelos de código abierto, como Mistral 7B de Mistral y Gemma 7B de Google con 7 mil millones de parámetros, en al menos nueve pruebas, como, MMLU, ARC, DROP, GPQA (biología, física y química), HumanEval (código prueba de generación), GSM-8K (problemas de matemáticas), MATH (otra prueba de matemáticas), AGIEval (batería de pruebas de resolución de problemas) y BIG-Bench Hard (prueba de razonamiento de sentido común).
Meta cree que tiene la mejor IA
Mistral 7B y Gemma 7B no es el más modernos de los lenguajes, pero tampoco es para tanto, ya que Llama 3 8B no muestra una superioridad significativa. Sin embargo, Meta está mucho más orgulloso de su modelo más avanzado, el Llama 3 70B, que lo ubica junto a otros modelos más poderosos de IA generativa, incluido el Gemini 1.5 Pro, el lenguaje más avanzado de Google. El Llama 3 70B supera a Gemini 1.5 Pro en las pruebas MMLU, HumanEval y GSM-8K, pero está por detrás del Claude 3 Opus de Anthropic, superando sólo al modelo más débil de la serie, el Sonnet, en cinco pruebas, MMLU, GPQA, HumanEval, GSM-8K y MATEMÁTICAS. Meta también desarrolló su propio conjunto de pruebas, desde escritura y codificación hasta resumen e inferencia, en las que Llama 3 70B venció a Mistral Medium, GPT-3.5 de OpenAI y Claude Sonnet de Anthropic.
Llama 3 8B y Llama 3 70B
Según Meta, los nuevos modelos son más manejables, menos propensos a negarse a responder preguntas y, en general, producen información más precisa, incluso en algunos campos científicos, lo que probablemente se justifique por la enorme cantidad de datos utilizados para entrenarlos, 15 billones de tokens y 750 mil millones de palabras, siete veces más que en el caso de Llama 2.
¿De dónde vienen tantos datos? Meta se limitó a a decir que fueron tomados de “fuentes disponibles públicamente”. Sin embargo, el conjunto de datos de entrenamiento de Llama 3 contenía cuatro veces más código que el utilizado para Llama 2, y el 5% del conjunto consistía en datos en 30 idiomas distintos del inglés para mejorar el trabajo con ellos. Además, se utilizaron datos sintéticos, es decir, obtenidos de otros modelos de IA.
“Nuestros modelos de IA actuales solo están configurados para responder en inglés, pero los estamos entrenando usando datos en otros idiomas para que la IA pueda reconocer diferentes patrones de mejor forma”, comentó Meta.
La IA de código abierto más capaz
Meta ha integrado varios protocolos de seguridad en su nueva generación de modelos patentados de IA, como Llama Guard y CybersecEval, para combatir el uso indebido de la IA. La compañía también lanzó una herramienta especial, Code Shield, para analizar la seguridad del código de modelos abiertos de IA generativa, lo que permite detectar posibles vulnerabilidades. Esperemos que sea más seguro que el anterior sistema de seguridad con Llama 2 que no protegieron a los usuarios de respuestas falsas y de la emisión de información médica y financiera personal.
Meta entrena el modelo Llama 3 con 400 mil millones de parámetros, la IA podrá hablar diferentes idiomas y aceptar más datos entrantes, incluido el trabajo con imágenes. “Nos esforzamos por hacer de Llama 3 un modelo multilingüe y multimodal que pueda tener en cuenta más contexto. También estamos tratando de mejorar el rendimiento y ampliar las capacidades del modelo de lenguaje en el razonamiento y la escritura de código”, dijo Meta.