Los nuevos benchmarks de Llama.cpp acaban de dejarlo claro, y la GeForce RTX 5090 es, hoy por hoy, la GPU más rápida para ejecutar modelos de lenguaje grandes (LLM). En las pruebas del modelo gpt-oss-20b, la bestia de NVIDIA alcanzó 282 tokens por segundo (tok/s), superando ampliamente a la Mac M3 Ultra (116 tok/s) y a la AMD Radeon 7900 XTX (102 tok/s).
Potencia bruta para inteligencia artificial
El secreto de este rendimiento está en los núcleos Tensor, integrados directamente en la RTX 5090 y diseñados para acelerar tareas de inteligencia artificial. Gracias a ellos, la tarjeta logra máximo rendimiento al correr modelos como gpt-oss-20b de forma local, sin depender de la nube.
La métrica tok/s (tokens por segundo) mide cuántos fragmentos de texto un modelo puede leer o generar en cada paso. Cuanto más alta sea la cifra, más rápido procesa y responde el modelo.
¿Qué es Llama.cpp?
Llama.cpp es un framework open source que permite correr modelos LLM con un rendimiento excelente, especialmente en GPU RTX. El proyecto se ha optimizado en colaboración con NVIDIA, lo que le permite aprovechar al máximo la aceleración por hardware.
Para quienes quieren usar IA local sin complicaciones, una buena alternativa es LM Studio, una aplicación creada sobre Llama.cpp que ofrece compatibilidad con RAG y una interfaz simple. De esta forma, los usuarios pueden probar modelos avanzados sin tocar una sola línea de código, algo clave para quienes recién se inician en IA generativa.
Modelos locales y privacidad
Cada vez más desarrolladores y creadores buscan correr sus modelos de forma local, evitando depender de servidores externos. En este panorama, los modelos gpt-oss de OpenAI están ganando terreno por su rendimiento sólido y bajo consumo de memoria.
El modelo gpt-oss-20b puede funcionar incluso en GPU con 16 GB de VRAM, lo que abre la puerta a equipos de consumo. Según las pruebas, las GPU NVIDIA son las más equilibradas para este tipo de cargas, tanto por potencia como por optimización.
Este nuevo modelo open source también incluye razonamiento en cadena de pensamiento, niveles de razonamiento ajustables, contexto extendido y ajustes de eficiencia, lo que permite un rendimiento inteligente y adaptable incluso en hardware modesto.







