Seguridad IA

OpenAI y Anthropic evaluaron la seguridad de los sistemas de IA del otro

Tecnología

No es ningún secreto que las empresas de IA suelen estar codo a codo, actuando como rivales feroces. Sin embargo, OpenAI y Anthropic hicieron recientemente algo inesperado: ¡se unieron para verificar la seguridad de los sistemas de IA de cada uno! ¡Es como si dos fabricantes de automóviles competidores acordaran probar la seguridad de los vehículos del otro!

Si bien los informes completos son bastante técnicos, vale la pena consultarlos si te gustan los detalles del desarrollo de la IA. En resumen, las revisiones revelaron algunas debilidades en los sistemas de ambas empresas y dieron consejos sobre cómo mejorar las futuras pruebas de seguridad.

Anthropic analizó los modelos de OpenAI en busca de cosas como la "sycophancy" (básicamente, la IA se esfuerza demasiado por complacer), la denuncia de irregularidades, los instintos de autoconservación y si podían usarse con fines perjudiciales. Descubrieron que si bien los modelos más antiguos de OpenAI parecían estar bien, existían preocupaciones sobre el posible uso indebido con los GPT-4o y GPT-4.1 más avanzados.

La perspectiva de OpenAI

Por otro lado, OpenAI probó los modelos de Anthropic en busca de cosas como seguir las instrucciones correctamente, la resistencia al "jailbreaking" (engañar a la IA para que haga cosas que no debería) y las tendencias a alucinar o tramar. Los modelos Claude generalmente obtuvieron buenos resultados al seguir las instrucciones y fueron buenos para negarse a responder cuando no estaban seguros de algo, lo cual es una ventaja.

Esta colaboración es interesante, especialmente considerando que OpenAI supuestamente infringió las reglas de Anthropic al usar Claude durante el desarrollo de nuevos modelos GPT. Supuestamente, esto llevó a Anthropic a bloquear el acceso de OpenAI a sus herramientas a principios de junio.

A medida que la IA se integra cada vez más en nuestras vidas, creo que es genial ver que estas empresas se toman en serio la seguridad. Después de todo, queremos que la IA sea una herramienta útil, no una amenaza potencial.

Fuente: Engadget