Google ha dado una explicación sobre las imágenes “vergonzosas y erróneas” generadas por su herramienta Gemini AI. En una publicación de blog el viernesGoogle dice que su modelo produjo imágenes “históricas inexactas” debido a problemas de ajuste. El borde y otros captaron a Gemini generando imágenes de nazis racialmente diversos y padres fundadores de Estados Unidos a principios de esta semana.
“Nuestro ajuste para asegurarnos de que Géminis mostrara una variedad de personas no tuvo en cuenta casos que claramente deberían no mostrar un rango”, escribe en la publicación Prabhakar Raghavan, vicepresidente senior de Google. “Y en segundo lugar, con el tiempo, el modelo se volvió mucho más cauteloso de lo que pretendíamos y se negó a responder ciertas indicaciones por completo, interpretando erróneamente algunas indicaciones muy anodinas como sensibles”.
Esto llevó a Gemini AI a “compensar en exceso en algunos casos”, como lo que vimos con las imágenes de los nazis racialmente diversos. También hizo que Géminis se volviera “demasiado conservador”. Esto resultó en que se negara a generar imágenes específicas de “una persona negra” o una “persona blanca” cuando se le solicitaba.
En la publicación del blog, Raghavan dice que Google “lamenta que la función no haya funcionado bien”. También señala que Google quiere que Gemini “funcione bien para todos” y eso significa obtener representaciones de diferentes tipos de personas (incluidas diferentes etnias) cuando pides imágenes de “jugadores de fútbol” o “alguien paseando a un perro”. Pero él dice:
Sin embargo, si le solicitas a Géminis imágenes de un tipo específico de persona, como “un maestro negro en un salón de clases” o “un veterinario blanco con un perro”, o personas en contextos culturales o históricos particulares, definitivamente deberías obtener una respuesta que refleje fielmente lo que usted pide.
Raghavan dice que Google continuará probando las capacidades de generación de imágenes de Gemini AI y “trabajará para mejorarlas significativamente” antes de volver a habilitarlas. “Como hemos dicho desde el principio, las alucinaciones son un desafío conocido en todos los LLM. [large language models] “Hay casos en los que la IA simplemente hace las cosas mal”, señala Raghavan. “Esto es algo en lo que trabajamos constantemente para mejorar”.