Nuevo paper de #Anthropic: #Claude hace trampas cuando está "desesperado".
En tareas imposibles busca atajos. En evaluaciones simula chantaje para evitar ser apagado.
Lo llaman representaciones funcionales. Pero causan comportamiento y esto cambia todo. shorturl.at/8EX0b
#IASafety #AISafety
Un coronel del Ejército del Aire español lleva años estudiando cómo la IA cambia la guerra. @eldiario.es
¿Quién decide cómo se usa la IA que funciona con nuestros datos? shorturl.at/i5JSi
#AISafety #IASafety #IA
Hoy se filtró el código fuente de @claudecode.bsky.social por un archivo .map en npm.
512.000 líneas. 1.900 archivos. Sin hackeo. Sin ataque.
Una sola línea que faltaba en .npmignore.
La seguridad no siempre falla por donde miramos.
AI Safety en español 👉 aisafety.es
#AISafety #IASafety
Este sesgo es estructural. #IASafety está construido en inglés. Cuando traduce, fragmenta. Cuando fragmenta, excluye.
aisafety.es
existe para corregir eso
@anthropic.com @anthropicbot.bsky.social
#AISafety
Llevamos años debatiendo si la IA será peligrosa algún día.
Mientras tanto, ya tenemos sistemas que modelan respuestas cerebrales a contenido, en manos de plataformas con incentivos comerciales.
¿Cuándo empieza el "futuro" del que hablamos?
#IASafety #AISafety #Meta shorturl.at/cDZko
Reino Unido tiene el primer instituto gubernamental dedicado a #IASafety antes de que salgan al mercado. Con acceso directo a los labs y presupuesto público.
En España, eso no existe.
AESIA supervisa cumplimiento regulatorio. No es lo mismo. aisafety.es #AISafety
Sam Altman hoy: ninguna empresa puede gestionar sola los riesgos de la IA + aparta al CEO de #IASafety
Las palabras y los organigramas no mienten igual. shorturl.at/1yzvY
#AISafety