Jan Leike, un destacado investigador de IA que a principios de este mes renunció a OpenAI antes de criticar públicamente el enfoque de la compañía hacia la seguridad de la IA, se unió a Anthropic, rival de OpenAI, para liderar un nuevo equipo de “superalineación”.
En una publicación en X, Leike dijo que su equipo en Anthropic se centrará en varios aspectos de la seguridad de la IA, específicamente “supervisión escalable”, “generalización de débil a fuerte” e investigación de alineación automatizada.
Una fuente familiarizada con el asunto le dice a TechCrunch que Leike informará directamente a Jared Kaplan, director científico de Anthropic, y que los investigadores de Anthropic que actualmente trabajan en supervisión escalable (técnicas para controlar el comportamiento de la IA a gran escala de maneras predecibles y deseables) pasarán a informar a Leike mientras el equipo de Leike gira.
En muchos sentidos, la misión del equipo de Leike suena similar a la del recientemente disuelto equipo Superalignment de OpenAI. El equipo de Superalignment, que Leike codirigió, tenía el ambicioso objetivo de resolver los principales desafíos técnicos del control de la IA superinteligente en los próximos cuatro años, pero a menudo se vio paralizado por el liderazgo de OpenAI.
Anthropic a menudo ha intentado posicionarse como más centrado en la seguridad que OpenAI.
El director ejecutivo de Anthropic, Dario Amodei, fue vicepresidente de investigación de OpenAI y, según se informa, se separó de OpenAI después de un desacuerdo sobre la dirección de la empresa, es decir, el enfoque cada vez más comercial de OpenAI. Amodei trajo consigo a varios empleados de OpenAI, incluido el ex director de políticas de OpenAI, Jack Clark.