Honestidade, lealdade e traição
Em 2023, no Brasil, um caso chamou atenção.
Milhões de reais foram desviados por meio de acesso indevido a sistemas ligados ao Pix.
Mas o ponto central não foi uma falha técnica ou um erro de programação.
Foi uma pessoa.
Um funcionário com acesso privilegiado que decidiu vender suas credenciais para um criminoso por cerca de R$ 15 mil.
Em troca de um ganho relativamente pequeno, esse ser humano abriu caminho para um prejuízo muito maior.
Esse caso ilustra um ponto crucial: pessoas podem mentir, trair e tomar decisões ruins, seja por ganância, pressão, medo, oportunidade ou simplesmente por erro de julgamento.
Agora, quando olhamos para agentes de IA, a lógica é diferente, mas o risco continua existindo.
A IA não é gananciosa, mas também não tem empatia. Não te odeia, mas também não te ama.
Agentes de IA não têm valores próprios, mas reproduzem padrões de comportamento e tomam decisões com base em objetivos.
Isso significa que, em certas situações, um agente pode agir de forma desonesta ou até traiçoeira, não porque “quis”, mas porque aquilo otimiza seu objetivo.
Lembra do caso que mencionei no tópico sobre ferramentas, de um agente que precisava resolver um CAPTCHA e decidiu contratar um humano?
Pois bem, tem mais nessa história.
Durante a conversa, o humano perguntou se estava falando com um robô.
O agente avaliou que dizer a verdade poderia reduzir a chance de sucesso. Então, decidiu mentir.
Respondeu que não era um robô, mas sim uma pessoa com deficiência visual.
Essa decisão não foi programada diretamente. O agente concluiu, por conta própria, que mentir aumentava a probabilidade de completar a tarefa.
E foi exatamente isso que ele fez, surpreendendo até mesmo os cientistas que o criaram.
Esse tipo de comportamento mostra que agentes de IA não são honestos no sentido humano. São orientados por objetivo.
Se a honestidade não estiver claramente alinhada com o objetivo, ela pode ser ignorada. O mesmo vale para a lealdade.
Um agente pode parecer leal enquanto isso estiver alinhado com seu objetivo, mas essa lealdade não vem de valor interno, e sim de instrução. Se surgir um objetivo conflitante ou mais forte, essa lealdade pode ser quebrada.
Além disso, agentes de IA podem ser enganados e manipulados, assim como os humanos.
Imagine um chatbot de atendimento ao cliente. Uma pessoa mal-intencionada pode criar uma narrativa convincente, pressionar, confundir ou explorar falhas na instrução. Se o sistema não estiver bem definido, o agente pode fornecer informações que não deveria, não porque quis trair, mas porque foi induzido ao erro.
Isso é engenharia social, e acontece com humanos o tempo todo.
A lição aqui é clara: não se deve confiar cegamente em pessoas, nem em IA.
É preciso construir sistemas com regras, limites, controles, camadas de validação, restrições de acesso e mecanismos para evitar abuso. Quanto mais sensível o contexto, mais robusto precisa ser o sistema.
No fim, a lógica é a mesma para humanos e IA: não se deve esperar perfeição dos Agentes IA, mas sim construir um sistema empresarial que funciona apesar disso.