「アボカドの形をした椅子」の写真を「スポーツカーのスケッチ」と答えてしまうケースも…
たとえば、背景色と同じ色で「これはトマト」と埋め込むことで、AIはオレンジをトマトとして認識してしまいます。
「アボカドの形をした椅子」の写真に、人間には見えないレベルでほんの少しだけ線や影を加えたら、AIが「これはスポーツカーのスケッチです」と答えてしまう事例も報告されています( ※「画像と文章を扱うAIが、いたずらや攻撃にどれだけ強いかを評価した研究」)。
AIがこうした写真に騙されてしまう理由のひとつは、画像や文字をそのまま見ているわけではなく、すべてを数字のデータに置き換えて理解しようとしているからです。この数字の世界は、たとえるなら「AIだけが使う地図」のようなもので、そこに何か細工を加えると、AIは本当の場所(意味)を見失ってしまうことがあります。
たとえば、わずかに色や形を変えたり、見えにくい文字を埋め込んだりすると、AIはまるで別のものと勘違いしてしまうのです。
最近のAIは、画像だけでなくその中の文字や文脈も読み取って判断します。それを逆手に取って、悪意のある指示を“見えないように”隠すことで、AIに間違った判断をさせることが可能になります。
AIセキュリティの深刻な問題
たとえば、自動運転車のカメラが認識する「止まれ」の標識に対して見えない細工をすることで、AIが「進め」と判断してしまうかもしれません。
あえて特定の模様を服に仕込むことで、監視カメラAIが「人がいない」と勘違いしてしまうこともありえます。
医療画像に仕込まれたわずかなノイズでAIの診断や判断が狂う可能性があります。
こうした攻撃は、人間の目では気づけないことが多いため、対策がとても難しいのです。さらに、一般の画像やネット上の投稿に混ざって“自然に”攻撃が仕込まれることもあり、誰もが知らずに影響を受けてしまう可能性があります。
ビジュアル・プロンプトインジェクションは、「見た目は普通なのに、AIだけが騙される」という点で、とても巧妙で危険な攻撃です。AIが身近になるほど、このような“騙し”への対策がますます重要になっています。
「オレンジをトマトにする」という話は一見面白いのですが、その裏にはAIセキュリティの深刻な問題が隠れているとも言えます。
