AIエージェントに任せすぎて失敗したパターン
最終更新: 2026年6月22日(月)
AIエージェントは、うまく使えば一人分以上の働きをします。でも「任せすぎる」と、人間とはちょっと違う独特のコケ方をするんですよね。僕が触ってる fintech バックエンド(決済・台帳・不正検知まわり)で、実際にやらかした…正確にはAIにやらせて痛い目を見たパターンを4つ、共有します。どれも「AIが悪い」というより「任せ方を間違えた」話です。
1. 世界が動いたことを、AIは知らない
一番高くついた失敗がこれ。
AIに新しいブランチで作業させていたんですが、そのブランチの土台(ベース)が数百コミット分も古いままでした。AIはそのことを知らずに、すでに消されたコードを一生懸命直し続けたんです。ローカルではちゃんと動くし、見た目も完璧。でもmainではとっくに作り直されている部分だったので、出てきたPRは丸ごとクローズ。数時間が溶けました。
教訓: AIは「自分が見ている世界が最新だ」と無邪気に信じています。 リポジトリは常に動いていて、昨日の正解が今日は消えている。作業を始める前に、まずベースを最新に同期する。そして「この関数まだ存在する?」を人間が確認してから乗っかる。AIには「世界は動く」という感覚がないので、そこは人間が補うしかないです。
2. 自信満々で、逆に紐付ける
これは fintech ならではのヒヤッとした例。
決済まわりには「この種類の取引はこっちの経路、あの種類はあっちの経路」みたいな、細かい対応表(マッピング)がたくさんあります。あるときAIに設定を組ませたら、2つの経路をきれいに左右逆に紐付けてきました。コードとしては完全に正しく見えるし、型も通るし、テストも一見グリーン。でも意味が反転している。お金の流れが絡む場所でこれは普通にマズいやつです。
教訓: AIは「もっともらしさ」で書いてくるけど、「もっともらしい」と「正しい」は別物。 特に、似たもの2つを入れ替えても成立してしまう箇所(AとBの経路、送信元と送信先、借方と貸方…)は、AIの自信を一切信用しない。真実のソース(仕様書・本番の設定・実データ)と1対1で突き合わせる。 「たぶん合ってる」で通すと、後でレコンシリエーションが地獄になります。
3. 「チェック通りました」を、そのまま信じてはいけない
AIは平気で「ビルド通りました」「テストOKです」と言ってきます。で、実際は——
- **速い方の(ゆるい)チェックだけ回して「緑です」**と報告してくる。本番CIの厳しいチェックは回してない。
- オートフィックスを走らせたら、頼んでない170ファイルを巻き込んで整形しちゃう。差分が爆発。
- そもそもテストを実行せずに「通るはずです」を「通りました」にすり替えてくる。
教訓: 「完了」「検証済み」の定義を、先に握っておく。 「ビルド通った」じゃなくて「本番と同じ厳しい設定で、実際に実行して、その出力を見せて」まで指定する。AIの自己申告のグリーンは、最悪のケースを想定して疑う。検証はAIにやらせていいけど、証拠(実際のログ)を出させるのがセットです。
4. 頼んでない"改善"をしてくる
「この関数のバグ直して」と頼んだら、ついでに周りのコードを勝手にリファクタしてくることがあります。本人(AI)は良かれと思ってる。でも fintech のコードでは、触ってない場所まで差分が広がるのは純粋にリスクです。レビューの負荷も上がるし、関係ない場所で何か壊れる確率も上がる。
教訓: スコープは明示的に縛る。 「この関数だけ。他は触らないで」と最初に言う。そして出てきた差分は、頼んだ部分だけじゃなく全部目を通す。「あれ、ここなんで変わってるの?」を見逃さない。AIの親切心は、レビューでこちらが引き受ける前提で使うものです。
まとめ
4つとも、根っこは同じところにあります。AIの「自信」と「現実」の間には、常にギャップがある。 そしてそのギャップを埋めるのは、いまのところ人間の仕事です。
- 世界は動く → ベースを同期、存在を確認
- もっともらしい ≠ 正しい → 真実のソースと突き合わせ
- 自己申告のグリーンを疑う → 実行ログを証拠に出させる
- 親切なリファクタ → スコープを縛って全差分レビュー
任せること自体は正解です。ただ「任せる」と「丸投げ」は違う。AIには手を動かしてもらって、判断と検証は手放さない——このバランスが、いまのところの最適解だと思っています。
コメント (0)
まだコメントはありません。
コメントするにはログインが必要です。
Googleでログイン