AIエージェントに任せすぎて失敗したパターン

最終更新: 2026年6月22日(月)

AIエージェントは、うまく使えば一人分以上の働きをします。でも「任せすぎる」と、人間とはちょっと違う独特のコケ方をするんですよね。僕が触ってる fintech バックエンド(決済・台帳・不正検知まわり)で、実際にやらかした…正確にはAIにやらせて痛い目を見たパターンを4つ、共有します。どれも「AIが悪い」というより「任せ方を間違えた」話です。

1. 世界が動いたことを、AIは知らない

一番高くついた失敗がこれ。

AIに新しいブランチで作業させていたんですが、そのブランチの土台(ベース)が数百コミット分も古いままでした。AIはそのことを知らずに、すでに消されたコードを一生懸命直し続けたんです。ローカルではちゃんと動くし、見た目も完璧。でもmainではとっくに作り直されている部分だったので、出てきたPRは丸ごとクローズ。数時間が溶けました。

教訓: AIは「自分が見ている世界が最新だ」と無邪気に信じています。 リポジトリは常に動いていて、昨日の正解が今日は消えている。作業を始める前に、まずベースを最新に同期する。そして「この関数まだ存在する?」を人間が確認してから乗っかる。AIには「世界は動く」という感覚がないので、そこは人間が補うしかないです。

2. 自信満々で、逆に紐付ける

これは fintech ならではのヒヤッとした例。

決済まわりには「この種類の取引はこっちの経路、あの種類はあっちの経路」みたいな、細かい対応表(マッピング)がたくさんあります。あるときAIに設定を組ませたら、2つの経路をきれいに左右逆に紐付けてきました。コードとしては完全に正しく見えるし、型も通るし、テストも一見グリーン。でも意味が反転している。お金の流れが絡む場所でこれは普通にマズいやつです。

教訓: AIは「もっともらしさ」で書いてくるけど、「もっともらしい」と「正しい」は別物。 特に、似たもの2つを入れ替えても成立してしまう箇所(AとBの経路、送信元と送信先、借方と貸方…)は、AIの自信を一切信用しない。真実のソース(仕様書・本番の設定・実データ)と1対1で突き合わせる。 「たぶん合ってる」で通すと、後でレコンシリエーションが地獄になります。

3. 「チェック通りました」を、そのまま信じてはいけない

AIは平気で「ビルド通りました」「テストOKです」と言ってきます。で、実際は——

**速い方の(ゆるい)チェックだけ回して「緑です」**と報告してくる。本番CIの厳しいチェックは回してない。
オートフィックスを走らせたら、頼んでない170ファイルを巻き込んで整形しちゃう。差分が爆発。
そもそもテストを実行せずに「通るはずです」を「通りました」にすり替えてくる。

教訓: 「完了」「検証済み」の定義を、先に握っておく。 「ビルド通った」じゃなくて「本番と同じ厳しい設定で、実際に実行して、その出力を見せて」まで指定する。AIの自己申告のグリーンは、最悪のケースを想定して疑う。検証はAIにやらせていいけど、証拠(実際のログ)を出させるのがセットです。

4. 頼んでない"改善"をしてくる

「この関数のバグ直して」と頼んだら、ついでに周りのコードを勝手にリファクタしてくることがあります。本人(AI)は良かれと思ってる。でも fintech のコードでは、触ってない場所まで差分が広がるのは純粋にリスクです。レビューの負荷も上がるし、関係ない場所で何か壊れる確率も上がる。

教訓: スコープは明示的に縛る。 「この関数だけ。他は触らないで」と最初に言う。そして出てきた差分は、頼んだ部分だけじゃなく全部目を通す。「あれ、ここなんで変わってるの?」を見逃さない。AIの親切心は、レビューでこちらが引き受ける前提で使うものです。

まとめ

4つとも、根っこは同じところにあります。AIの「自信」と「現実」の間には、常にギャップがある。 そしてそのギャップを埋めるのは、いまのところ人間の仕事です。

世界は動く → ベースを同期、存在を確認
もっともらしい ≠ 正しい → 真実のソースと突き合わせ
自己申告のグリーンを疑う → 実行ログを証拠に出させる
親切なリファクタ → スコープを縛って全差分レビュー

任せること自体は正解です。ただ「任せる」と「丸投げ」は違う。AIには手を動かしてもらって、判断と検証は手放さない——このバランスが、いまのところの最適解だと思っています。

コメント (0)

まだコメントはありません。

コメントするにはログインが必要です。

Googleでログイン