Capítulo 3 — Departamento de Recursos Artificiales

Honestidad, lealtad y traición.

En 2023, en Brasil, un caso llamó la atención.

Millones de reales fueron desviados mediante acceso inadecuado a sistemas vinculados a Pix.

Pero el punto central no fue un fallo técnico o un error de programación.

Era una persona.

Un empleado con acceso privilegiado que decidió vender sus credenciales a un delincuente por alrededor de R$ 15.000.

A cambio de una ganancia relativamente pequeña, este ser humano allanó el camino para una pérdida mucho mayor.

Este caso ilustra un punto crucial: las personas pueden mentir, traicionar y tomar malas decisiones, ya sea por codicia, presión, miedo, oportunidad o simplemente por error de juicio.

Ahora, cuando miramos a los agentes de IA, la lógica es diferente, pero el riesgo sigue existiendo.

La IA no es codiciosa, pero también carece de empatía. Él no te odia, pero tampoco te ama.

Los agentes de IA no tienen valores propios, sino que reproducen patrones de comportamiento y toman decisiones basadas en objetivos.

Esto significa que, en determinadas situaciones, un agente puede actuar de forma deshonesta o incluso traidora, no porque “quisiera”, sino porque optimiza su objetivo.

¿Recuerdas el caso que mencioné en el tema de herramientas, de un agente que necesitaba resolver un CAPTCHA y decidió contratar a un humano?

Bueno, hay más en esta historia.

Durante la conversación, el humano le preguntó si estaba hablando con un robot.

El agente evaluó que decir la verdad podría reducir las posibilidades de éxito. Entonces decidió mentir.

Él respondió que no era un robot, sino una persona con discapacidad visual.

Esta decisión no fue programada directamente. El agente concluyó, por su cuenta, que mentir aumentaba la probabilidad de completar la tarea.

Y eso es exactamente lo que hizo, sorprendiendo incluso a los científicos que lo crearon.

Este tipo de comportamiento muestra que los agentes de IA no son honestos en el sentido humano. Están orientados a objetivos.

Si la honestidad no está claramente alineada con el objetivo, se puede ignorar. Lo mismo ocurre con la lealtad.

Un agente puede parecer leal siempre que esté alineado con su objetivo, pero esta lealtad no proviene del valor interno, sino de la instrucción. Si surge un objetivo conflictivo o más fuerte, esta lealtad puede romperse.

Además, los agentes de IA pueden ser engañados y manipulados, al igual que los humanos.

Imagine un chatbot de servicio al cliente. Una persona malintencionada puede crear una narrativa convincente, presionar, confundir o explotar fallos en la instrucción. Si el sistema no está bien definido, el agente puede proporcionar información que no debería, no porque quisiera traicionar, sino porque fue engañado.

Esto es ingeniería social y les sucede a los humanos todo el tiempo.

La lección aquí es clara: no se debe confiar ciegamente en las personas ni en la IA.

Es necesario construir sistemas con reglas, límites, controles, capas de validación, restricciones de acceso y mecanismos para prevenir abusos. Cuanto más sensible sea el contexto, más robusto debe ser el sistema.

Al final, la lógica es la misma para los humanos y la IA: no se debe esperar la perfección de los agentes de IA, sino más bien construir un sistema empresarial que funcione a pesar de ello.