Apenas dos meses después del lanzamiento de Gemini, el gran modelo de lenguaje que Google espera lo lleve a la cima de la industria de la inteligencia artificial, la compañía ya está anunciando su sucesor. Google lanza Gemini 1.5 hoy y lo pondrá a disposición de desarrolladores y usuarios empresariales antes de su lanzamiento completo para el consumidor próximamente. La compañía ha dejado en claro que apuesta por Gemini como herramienta comercial, asistente personal y todo lo demás, y está impulsando con fuerza ese plan.
Hay muchas mejoras en Gemini 1.5: Gemini 1.5 Pro, el modelo de uso general en el sistema de Google, aparentemente está a la par con el Gemini Ultra de gama alta que la compañía lanzó recientemente, y superó a Gemini 1.0 Pro en un 87 por ciento. de pruebas de referencia. Se creó utilizando una técnica cada vez más común conocida como “Mezcla de expertos” o MoE, lo que significa que solo ejecuta parte del modelo general cuando envía una consulta, en lugar de procesarlo todo todo el tiempo. (Aquí tienes una buena explicación sobre el tema..) Ese enfoque debería hacer que el modelo sea más rápido de usar y más eficiente para que Google lo ejecute.
Pero hay una cosa nueva en Gemini 1.5 que tiene a toda la empresa, empezando por el CEO Sundar Pichai, especialmente emocionado: Gemini 1.5 tiene una enorme ventana de contexto, lo que significa que puede manejar consultas mucho más grandes y ver mucha más información a la vez. Esa ventana es la friolera de 1 millón de tokens, en comparación con los 128.000 del GPT-4 de OpenAI y los 32.000 del Gemini Pro actual. Los tokens son una métrica difícil de entender (aquí hay un buen desglose), por lo que Pichai lo simplifica: “Son unas 10 u 11 horas de vídeo, decenas de miles de líneas de código”. La ventana contextual significa que puedes preguntarle al robot de IA sobre todo ese contenido a la vez.
(Pichai también dice que los investigadores de Google están probando una ventana de contexto de 10 millones de tokens; es decir, toda la serie de Game of Thrones de repente.)
Mientras me explica esto, Pichai señala casualmente que puedes colocar todo el Señor de los Anillos trilogía en esa ventana contextual. Esto me parece demasiado específico, entonces le pregunto: esto ya pasó, ¿no? Alguien en Google simplemente está comprobando si Géminis detecta algún error de continuidad, tratando de comprender el complicado linaje de la Tierra Media y viendo si tal vez la IA finalmente pueda darle sentido a Tom Bombadil. “Estoy seguro de que ha sucedido”, dice Pichai riendo, “o sucederá, una de las dos”.
Pichai también cree que la ventana de contexto más amplia será de gran utilidad para las empresas. “Esto permite casos de uso en los que se puede agregar mucho contexto e información personal en el momento de la consulta”, afirma. “Piense en ello como si hubiéramos ampliado drásticamente la ventana de consulta”. Se imagina que los cineastas podrían subir su película completa y preguntarle a Gemini qué dirían los críticos; ve empresas que utilizan Gemini para revisar grandes cantidades de registros financieros. “Lo veo como uno de los mayores avances que hemos logrado”, dice.
Por ahora, Gemini 1.5 solo estará disponible para usuarios empresariales y desarrolladores, a través de Vertex AI y AI Studio de Google. Con el tiempo, reemplazará a Gemini 1.0 y a la versión estándar de Gemini Pro, la que está disponible para todos en gemini.google.com y en las aplicaciones de la compañía, será 1.5 Pro con una ventana contextual de 128.000 tokens. Tendrás que pagar más para llegar al millón. Google también está probando los límites éticos y de seguridad del modelo, particularmente en lo que respecta a la nueva ventana de contexto más grande.
Google está en una carrera vertiginosa para construir la mejor herramienta de IA en este momento, mientras empresas de todo el mundo intentan descubrir su propia estrategia de IA y si deben firmar sus acuerdos de desarrollador con OpenAI, Google u otra persona. Esta misma semana, OpenAI anunció “memoria” para ChatGPT y parece estar preparándose para impulsar la búsqueda web. Hasta ahora, Gemini parece impresionante, especialmente para aquellos que ya están en el ecosistema de Google, pero queda mucho trabajo por hacer en todos los lados.
Con el tiempo, me dice Pichai, todos estos 1.0 y 1.5, Pros, Ultras y batallas corporativas realmente no importarán a los usuarios. “La gente simplemente consumirá las experiencias”, afirma. “Es como usar un teléfono inteligente sin prestar siempre atención al procesador que hay debajo”. Pero en este momento, dice, todavía estamos en la fase en la que todos conocen el chip dentro de su teléfono, porque es importante. “La tecnología subyacente está cambiando muy rápido”, afirma. “A la gente sí le importa”.