OpenAI ha presentado una potente modelo de inteligencia artificial generativa, GPT-4o, que será implementada en sus soluciones para desarrolladores y consumidores en las próximas semanas. La letra «o» en el nombre GPT-4o significa omni (omnisciente).
La directora técnica de OpenAI, Mira Murati, anunció durante la presentación del producto en las oficinas de OpenAI en San Francisco (EE.UU.) que GPT-4o tiene una inteligencia al «nivel de GPT-4», pero con mayores capacidades para trabajar con texto, imágenes y audio. «GPT-4o percibe voz, texto e imágenes visuales», señaló Murati.
«Esto es increíblemente importante, ya que pensamos en el futuro de la interacción entre nosotros y las máquinas», señalo Mira Murati.
Su predecesora, GPT-4 Turbo, se entrenó con una combinación de imágenes y texto. Era capaz de analizar imágenes y texto para realizar tareas como extraer texto de imágenes e incluso describir el contenido de estas. A su vez, en GPT-4o se añadieron capacidades de habla a estas funcionalidades. GPT-4o maneja un rango de contexto de 128 mil tokens.
OpenAI GPT-4o
Se informa que GPT-4o permitirá mejorar significativamente el funcionamiento del chatbot de IA ChatGPT. Este último ya soporta el modo de voz desde hace tiempo, en el que las respuestas del chatbot se transcriben utilizando un modelo de conversión de texto a voz, pero GPT-4o reforzará esta función, permitiendo a los usuarios interactuar con el chatbot más como con un asistente. Por ejemplo, se le podrá hacer una pregunta y detenerlo mientras responde. Según OpenAI, el modelo GPT-4o asegura una respuesta «en tiempo real» y puede incluso captar emociones en la voz del usuario, generando una respuesta de voz «en diferentes estilos emocionales» según la situación.
GPT-4o también mejorará las capacidades visuales de ChatGPT. A partir de una foto o una pantalla de escritorio proporcionada, ChatGPT podrá responder rápidamente a preguntas relacionadas: como «¿Qué está pasando en este código de programación?» hasta «¿Qué marca de camisa lleva puesta esta persona?».
Las capacidades del modelo se seguirán expandiendo. Si actualmente GPT-4o permite, por ejemplo, traducir un menú fotografiado a otro idioma, en el futuro ChatGPT podrá «ver» un partido de futbol en vivo y explicarte las reglas, según comenta Murati.
A partir de hoy, GPT-4o está disponible tanto para usuarios pagos como gratuitos de ChatGPT, pero para los suscriptores de los planes de pago ChatGPT Plus y Team, el límite en la cantidad de mensajes será «5 veces mayor». Al superar el límite, ChatGPT cambiará automáticamente a GPT-3.5 para usuarios gratuitos y a GPT-4 para los de pago.
Los usuarios gratuitos de ChatGPT, al interactuar con GPT-4o, tendrán acceso a algunas funciones que antes estaban disponibles solo para suscriptores de pago. En particular, el chatbot actualizado podrá buscar información no solo en su modelo de IA, sino también en Internet; analizar datos y crear gráficos; trabajar con imágenes y archivos de usuarios; y recordar interacciones previas con el usuario. Además, los usuarios gratuitos tendrán acceso a la GPT Store.







