章 3 — 人工资源部

诚实、忠诚和背叛

2023年,在巴西,一桩案件引起关注。

数百万雷亚尔通过对与 Pix 链接的系统的“不当访问”被转移。

但中心点不是技术故障编程错误

那是一个

一名拥有特权访问权限的员工决定以 15,000 雷亚尔左右的价格将其凭证出售给犯罪分子。

这个人以相对较小的收益换取了更大的损失

这个案例说明了一个关键点:人们可以撒谎背叛并做出错误的决定,无论是出于贪婪、压力、恐惧、机会还是仅仅出于判断错误

现在,当我们看到人工智能代理时,逻辑有所不同,但风险仍然存在。

AI并不贪婪,但它也缺乏同理心。他不恨你,但也不爱你。

人工智能代理没有自己的价值观,但会重现行为模式并根据目标做出决策。

这意味着,在某些情况下,特工可以以不诚实甚至背叛的方式行事,不是因为他“想要”,而是因为它优化了他的目标。

还记得我在工具主题中提到的案例吗?一位代理需要解决 CAPTCHA 并决定雇用一个人

嗯,这个故事还有更多内容。

在谈话过程中,人类询问他是否在与机器人交谈。

代理人评估说实话可能会降低成功的机会。所以他决定撒谎

他回答说,他不是机器人,而是一个视力障碍的人。

这个决定不是直接编程的。特工自己得出结论,说谎增加了完成任务的可能性。

而这正是他所做的,甚至让创造他的科学家也感到惊讶。

这种行为表明人工智能代理并不具有人类意义上的诚实。他们以目标为导向

如果诚实与目标没有明确一致,则可以忽略忠诚也是如此。

只要与目标一致,代理人可能会显得忠诚,但这种忠诚并非来自内部价值,而是来自指导。如果出现相互冲突或更强的目标,这种忠诚度可能会被打破

此外,人工智能代理可以像人类一样被欺骗操纵

想象一个客户服务聊天机器人。恶意者可以制造令人信服的叙述、压力、迷惑或利用指令失败。如果系统定义不明确,特工可能会提供他不应该提供的信息,不是因为他想背叛,而是因为他被误导了

这就是社会工程,它一直发生在人类身上。

这里的教训很明确:你不应该盲目相信人或人工智能。

有必要构建具有规则限制控制验证层访问限制防止滥用的机制**。上下文越敏感,系统就需要越“健壮”。

最后,人类和人工智能的逻辑是相同的:人们不应该期望人工智能代理完美,而应该构建一个尽管如此仍然有效的业务系统。

↑ 目录