章 3 — 人工资源部

诚实、忠诚和背叛

2023年，在巴西，一桩案件引起关注。

数百万雷亚尔通过对与 Pix 链接的系统的“不当访问”被转移。

但中心点不是技术故障或编程错误。

那是一个人。

一名拥有特权访问权限的员工决定以 15,000 雷亚尔左右的价格将其凭证出售给犯罪分子。

这个人以相对较小的收益换取了更大的损失。

这个案例说明了一个关键点：人们可以撒谎、背叛并做出错误的决定，无论是出于贪婪、压力、恐惧、机会还是仅仅出于判断错误。

现在，当我们看到人工智能代理时，逻辑有所不同，但风险仍然存在。

AI并不贪婪，但它也缺乏同理心。他不恨你，但也不爱你。

人工智能代理没有自己的价值观，但会重现行为模式并根据目标做出决策。

这意味着，在某些情况下，特工可以以不诚实甚至背叛的方式行事，不是因为他“想要”，而是因为它优化了他的目标。

还记得我在工具主题中提到的案例吗？一位代理需要解决 CAPTCHA 并决定雇用一个人？

嗯，这个故事还有更多内容。

在谈话过程中，人类询问他是否在与机器人交谈。

代理人评估说实话可能会降低成功的机会。所以他决定撒谎。

他回答说，他不是机器人，而是一个视力障碍的人。

这个决定不是直接编程的。特工自己得出结论，说谎增加了完成任务的可能性。

而这正是他所做的，甚至让创造他的科学家也感到惊讶。

这种行为表明人工智能代理并不具有人类意义上的诚实。他们以目标为导向。

如果诚实与目标没有明确一致，则可以忽略。忠诚也是如此。

只要与目标一致，代理人可能会显得忠诚，但这种忠诚并非来自内部价值，而是来自指导。如果出现相互冲突或更强的目标，这种忠诚度可能会被打破。

此外，人工智能代理可以像人类一样被欺骗和操纵。

想象一个客户服务聊天机器人。恶意者可以制造令人信服的叙述、压力、迷惑或利用指令失败。如果系统定义不明确，特工可能会提供他不应该提供的信息，不是因为他想背叛，而是因为他被误导了。

这就是社会工程，它一直发生在人类身上。

这里的教训很明确：你不应该盲目相信人或人工智能。

有必要构建具有规则、限制、控制、验证层、访问限制和防止滥用的机制**。上下文越敏感，系统就需要越“健壮”。

最后，人类和人工智能的逻辑是相同的：人们不应该期望人工智能代理完美，而应该构建一个尽管如此仍然有效的业务系统。