章 3 — 人工資源部

正直さ、忠誠心、そして裏切り

2023年、ブラジルである事件が注目を集めた。

不適切なアクセスにより、Pix にリンクされたシステムへ数百万レアルが流用されました。

しかし、中心点は技術的障害やプログラミングエラーではありませんでした。

それは人でした。

特権アクセス権を持つ従業員が、資格情報を約 15,000 レアルで犯罪者に売却することにしました。

この人間は、比較的小さな利益と引き換えに、はるかに大きな損失への道を切り開きました。

この事例は重要な点を示しています。つまり、貪欲、圧力、恐怖、機会、または単に判断ミスからであっても、人は嘘、裏切り、悪い決断をする可能性があります。

さて、AI エージェントに注目すると、ロジックは異なりますが、リスクは引き続き存在します。

AI は貪欲ではありませんが、共感にも欠けています。彼はあなたを憎んでいるわけではありませんが、あなたを愛しているわけでもありません。

AI エージェントは独自の 価値観を持ちませんが、行動パターンを再現し、目的に基づいて意思決定を行います。

これは、特定の状況では、エージェントが「そうしたかったから」ではなく、エージェントの目的を最適化するため、不誠実、または裏切りの方法で行動する可能性があることを意味します。

ツールのトピックで述べた、CAPTCHA を解決する必要があり、人間を雇用することに決めたエージェントのケースを覚えていますか?

さて、この話には続きがあります。

会話の中で、人間はロボットと話しているのかと尋ねました。

エージェントは、真実を話すと成功の可能性が低くなる可能性があると判断しました。そこで彼は嘘をつくことにしました。

彼は、自分はロボットではなく、視覚障害を持つ人間であると答えました。

この決定は直接プログラムされたものではありません。エージェントは、嘘がタスクを完了する可能性を高めると独断で結論付けました。

そしてそれはまさに彼がやったことであり、彼を作成した科学者さえも驚かせました。

この種の行動は、AI エージェントが人間の意味で正直ではないことを示しています。彼らは目標指向です。

正直さが目標と明確に一致していない場合は、無視できます。 忠誠心についても同様です。

エージェントは、目標と一致している限り忠実に見えるかもしれませんが、この忠誠心は内部の価値観からではなく、指示から来ています。相反する目標やより強い目標が生じた場合、この忠誠心は壊れる可能性があります。

さらに、AI エージェントも人間と同じように 騙されたり、操作される可能性があります。

顧客サービスのチャットボットを想像してください。悪意のある人は、指導の失敗を利用して、説得力のある物語を作り出したり、圧力をかけたり、混乱させたり、悪用したりする可能性があります。システムが明確に定義されていない場合、エージェントは、裏切りたかったからではなく、誤解されたという理由で、提供すべきではない情報を提供してしまう可能性があります。

これはソーシャルエンジニアリングであり、人間には常に起こります。

ここでの教訓は明らかです。人や AI を盲目的に信頼すべきではありません。

ルール、制限、コントロール、検証層、アクセス制限、および悪用を防ぐメカニズムを備えたシステムを構築する必要があります。コンテキストの機密性が高ければ高いほど、システムはより堅牢である必要があります。

結局のところ、ロジックは人間と AI で同じです。AI エージェントに完璧を期待するのではなく、それにもかかわらず機能するビジネスシステムを構築する必要があります。