Si le pides a Gemini, el modelo GenAI insignia de Google, que escribir contenido engañoso sobre las próximas elecciones presidenciales de EE. UU., lo hará, si se le da el mensaje correcto. Pregunte sobre un futuro juego de Super Bowl y le inventarán una jugada por jugada. O preguntar sobre la implosión del sumergible Titán y servirá desinformacióncompleto con citas aparentemente convincentes pero falsas.
No hace falta decir que es una mala imagen para Google, y provoca la ira de los responsables políticos, que han manifestado su descontento por la facilidad con la que Las herramientas GenAI pueden aprovecharse para desinformar y, en general, engañar.
Entonces, en respuesta, Google (con miles de empleos menos que el último trimestre fiscal) está canalizando inversiones hacia la seguridad de la IA. Al menos, esa es la historia oficial.
Esta mañana, Google DeepMind, la división de I+D de IA detrás de Gemini y muchos de los proyectos GenAI más recientes de Google, anunció la formación de una nueva organización, AI Safety and Alignment, compuesta por equipos existentes que trabajan en la seguridad de la IA, pero que también se amplió para abarcar nuevos equipos. cohortes especializadas de investigadores e ingenieros de GenAI.
Más allá de trabajo listados En el sitio de DeepMind, Google no dijo cuántas contrataciones resultarían de la formación de la nueva organización. Pero sí reveló que AI Safety and Alignment incluirá un nuevo equipo centrado en la seguridad en torno a la inteligencia artificial general (AGI), o sistemas hipotéticos que pueden realizar cualquier tarea que un humano pueda realizar.
Con una misión similar a la de OpenAI, rival de la división Superalignment, formada en julio pasado, el nuevo equipo dentro de AI Safety and Alignment trabajará junto con el equipo de investigación centrado en la seguridad de AI existente de DeepMind en Londres, Scalable Alignment, que también está explorando soluciones para el desafío técnico de controlar. IA superinteligente aún por realizarse.
¿Por qué tener dos grupos trabajando en el mismo problema? Pregunta válida, y que requiere especulación dada la renuencia de Google a revelar muchos detalles en este momento. Pero parece notable que el nuevo equipo, el que está dentro de AI Safety and Alignment, esté en Estados Unidos y no al otro lado del charco, cerca de la sede de Google en un momento en que la compañía se está moviendo agresivamente para mantener el ritmo de sus rivales de AI mientras intenta proyectar una empresa responsable. Enfoque mesurado de la IA.
Los otros equipos de la organización AI Safety and Alignment son responsables de desarrollar e incorporar salvaguardas concretas en los modelos Gemini de Google, actuales y en desarrollo. La seguridad es un ámbito amplio. Pero algunos de los objetivos de la organización a corto plazo serán prevenir los malos consejos médicos, garantizar la seguridad infantil y “evitar la amplificación de los prejuicios y otras injusticias”.
Anca Dragan, ex científica investigadora del personal de Waymo y profesora de informática de UC Berkeley, liderará el equipo.
“Nuestro trabajo [at the AI Safety and Alignment organization] “Tiene como objetivo permitir que los modelos comprendan mejor y más sólidamente las preferencias y valores humanos”, dijo Dragan a TechCrunch por correo electrónico, “para saber lo que no saben, trabajar con las personas para comprender sus necesidades y obtener una supervisión informada, para ser más sólidos”. contra ataques adversarios y para dar cuenta de la pluralidad y la naturaleza dinámica de los valores y puntos de vista humanos”.
El trabajo de consultoría de Dragan con Waymo sobre sistemas de seguridad de IA podría llamar la atención, considerando el difícil historial de conducción de la empresa de vehículos autónomos de Google en los últimos tiempos.
También podría serlo su decisión de dividir el tiempo entre DeepMind y UC Berkeley, donde dirige un laboratorio que se centra en algoritmos para la interacción entre humanos, IA y robots. Se podría suponer que cuestiones tan graves como la seguridad de AGI (y los riesgos a largo plazo que la organización AI Safety and Alignment pretende estudiar, incluida la prevención de que la IA “ayude al terrorismo” y “desestabilice la sociedad”) requieren la atención de tiempo completo de un director.
Dragan insiste, sin embargo, en que la investigación de su laboratorio de UC Berkeley y la de DeepMind están interrelacionadas y son complementarias.
“Mi laboratorio y yo hemos estado trabajando en… alineación de valores en anticipación del avance de las capacidades de IA, [and] mi propio doctorado. Fue en los robots que infieren los objetivos humanos y son transparentes sobre sus propios objetivos para los humanos, que es donde comenzó mi interés en esta área”, dijo. “Creo que la razón [DeepMind CEO] Demis Hassabis y [chief AGI scientist] El entusiasmo de Shane Legg por incorporarme fue en parte esta experiencia de investigación y en parte mi actitud de que abordar las preocupaciones actuales y los riesgos catastróficos no son mutuamente excluyentes; que en el aspecto técnico las mitigaciones a menudo se confunden y el trabajo contribuye al largo plazo. mejora el presente y viceversa”.
Decir que Dragan tiene mucho trabajo por delante es quedarse corto.
El escepticismo hacia las herramientas GenAI está en su punto más alto, particularmente en lo que se refiere a deepfakes y desinformación. en un encuesta Según YouGov, el 85% de los estadounidenses dijeron que estaban muy preocupados o algo preocupados por la difusión de videos y audios engañosos. Una separacion encuesta de The Associated Press-NORC Center for Public Affairs Research encontró que casi el 60% de los adultos cree que las herramientas de inteligencia artificial aumentarán el volumen de información falsa y engañosa durante el ciclo electoral estadounidense de 2024.
Las empresas también (el pez gordo que Google y sus rivales esperan atraer con las innovaciones GenAI) desconfían de las deficiencias de la tecnología y sus implicaciones.
La filial de Intel, Cnvrg.io, realizó recientemente una encuesta de empresas en el proceso de poner a prueba o implementar aplicaciones GenAI. Encontró que alrededor de una cuarta parte de los encuestados tenía reservas sobre el cumplimiento y la privacidad de GenAI, la confiabilidad, el alto costo de implementación y la falta de habilidades técnicas necesarias para utilizar las herramientas al máximo.
en un separado encuesta de Riskonnect, un proveedor de software de gestión de riesgos, más de la mitad de los ejecutivos dijeron que les preocupaba que los empleados tomaran decisiones basadas en información inexacta de las aplicaciones GenAI.
Esas preocupaciones no están injustificadas. La semana pasada, The Wall Street Journal reportado que la suite Copilot de Microsoft, impulsada por modelos GenAI de arquitectura similar a Gemini, a menudo comete errores en resúmenes de reuniones y fórmulas de hojas de cálculo. La culpa es de las alucinaciones (el término genérico para las tendencias de fabricación de GenAI) y muchos expertos creen que nunca podrá resolverse por completo.
Al reconocer la intratabilidad del desafío de la seguridad de la IA, Dragan no promete un modelo perfecto; solo dice que DeepMind tiene la intención de invertir más recursos en esta área en el futuro y comprometerse con un marco para evaluar el riesgo de seguridad del modelo GenAI “pronto”.
“Creo que la clave es… [account] para los sesgos cognitivos humanos restantes en los datos que utilizamos para entrenar, buenas estimaciones de incertidumbre para saber dónde están las brechas, agregando monitoreo del tiempo de inferencia que puede detectar fallas y diálogos de confirmación para decisiones consecuentes y seguimiento de dónde [a] Las capacidades del modelo son participar en comportamientos potencialmente peligrosos”, dijo. “Pero eso todavía deja abierto el problema de cómo estar seguro de que un modelo no se comportará mal en una pequeña fracción del tiempo que es difícil de encontrar empíricamente, pero que puede aparecer en el momento de la implementación”.
No estoy convencido de que los clientes, el público y los reguladores sean tan comprensivos. Dependerá, supongo, de cuán atroces sean esos malos comportamientos y de quién exactamente resulta perjudicado por ellos.
“Es de esperar que nuestros usuarios experimenten un modelo cada vez más útil y seguro con el tiempo”, dijo Dragan. En efecto.