La versión 1.5 Pro del modelo de lenguaje gigante Gemini de Google acaba de recibir una actualización importante: ¡ahora puede escuchar! Esto significa que Gemini 1.5 Pro puede procesar archivos de audio cargados y extraer información de ellos, como llamadas de ganancias o audio de videos, sin necesidad de un transcript escrito.
Este avance se anunció durante el evento Google Next, donde también se reveló que Gemini 1.5 Pro estará disponible para el público por primera vez a través de Vertex AI, la plataforma de Google para construir aplicaciones de inteligencia artificial. Cabe recordar que la presentación inicial de Gemini 1.5 Pro ocurrió en febrero de este año.
Lo que sorprende es que, a pesar de ser considerado el modelo de peso medio de la familia Gemini, este nuevo Gemini 1.5 Pro supera en rendimiento a su hermano mayor, el poderoso Gemini Ultra. Según Google, Gemini 1.5 Pro puede entender instrucciones complejas y elimina la necesidad de ajustes adicionales en el modelo.
Por ahora, el acceso a Gemini 1.5 Pro se limita a usuarios de Vertex AI. La mayoría de las personas interactúan con los modelos de lenguaje Gemini a través del chatbot. El poderoso Gemini Ultra impulsa el chatbot Gemini Advanced, pero si bien es capaz de entender instrucciones largas, no alcanza la velocidad de Gemini 1.5 Pro.
Las novedades no se detienen en Gemini. Imagen 2, el modelo de generación de imágenes a partir de texto que alimenta las capacidades de creación de imágenes de Gemini, también recibirá nuevas funciones. Estas incluyen "inpainting" y "outpainting", que permiten a los usuarios agregar o eliminar elementos de las imágenes.
Además, Google anunció la disponibilidad general de su función de marca de agua digital SynthID para todas las imágenes creadas a través de los modelos Imagen. SynthID agrega una marca de agua invisible que identifica la procedencia de la imagen cuando se visualiza con una herramienta de detección.
Cabe mencionar que muchas de las nuevas características de Imagen, especialmente inpainting y outpainting, ya están presentes en otros modelos de generación de imágenes por texto, como Stable Cascade de Stability AI y Generative AI by iStock de Getty. Incluso, algunos teléfonos Samsung Galaxy más recientes las ofrecen a sus usuarios.
Por otro lado, Google anunció una función en etapa de prueba que permite fundamentar las respuestas de su IA en búsquedas de Google. Esto garantiza que la información entregada por Gemini esté actualizada. Recordemos que las respuestas de los grandes modelos de lenguaje no siempre son precisas, y en ocasiones esto sucede de forma intencional. Por ejemplo, Google ha configurado a Gemini para evitar responder preguntas relacionadas con las elecciones presidenciales de Estados Unidos de 2024.