AI生成コードは人間の成果物よりもバグやエラーが多い

Image

  • 平均的なAI生成のプルリクエストは10.83件の問題を含み、人間のコードの6.45件と比べて多いと報告書は主張
  • 誤字脱字の面では品質がより良くなり得るため、人間のレビューアの出番が残る
  • Microsoftのコードパッチは増加しているが、全体の出力量もおそらく増えている

CodeRabbitの新たなデータによれば、AI生成コードは実際には人間が生成したコードよりも脆弱性を抱えやすく、一部ツールの信頼性に疑問を投げかけているという。

AIツールで作成されたプルリクエストは平均10.83件の問題を含んでいたのに対し、人間が生成したプルリクエストは平均6.45件で、結果としてレビューが長引き、より多くのバグが最終製品に紛れ込む可能性につながっている。

一般的な問題が1.7倍多いだけでなく、AI生成のプルリクエストは重大な問題が1.4倍、主要な問題が1.7倍多く、単なる些細な不具合にとどまらない。

AI生成コードはあなたが思うほど安全ではない

ロジックおよび正しさのエラー(1.75倍)、コード品質と保守性(1.64倍)、セキュリティ(1.57倍)、パフォーマンス(1.42倍)のいずれも平均を上回るコードエラーが見られ、報告書は、AIが人間のレビューアが修正すべきより深刻なバグを持ち込みやすいと批判している。

AIが特に持ち込みやすい問題には、不適切なパスワード処理、安全でないオブジェクト参照、XSS脆弱性、安全でないデシリアライゼーションなどが含まれる。

「AIコーディングツールは出力を劇的に増やしますが、同時に予測可能で測定可能な弱点も持ち込みます。組織はそれらを積極的に緩和しなければなりません」と、CodeRabbitのAIディレクターであるデビッド・ローカー氏はコメントした。

しかし、必ずしも悪いことばかりではなく、AIはコード生成の初期段階における効率を高めている。この技術はまた、スペルミスを1.76倍少なくし、テスト容易性に関する問題も1.32倍少なくした。

したがって、この調査はAIの欠点をいくつか浮き彫りにしているものの、将来、人間とAIエージェントがどのように相互作用し得るかを示すという重要な目的も果たしている。人間の労働者を置き換えるのではなく、人間の仕事がAIの管理やレビューへとシフトしているのが見て取れる。コンピュータは、そもそも人間の足を引っ張っていた退屈な作業の一部を担っているにすぎない。

Microsoftは2025年に1,139件のCVEを修正したと主張しており、これは記録上2番目に多い年となるが、必ずしも悪いことを意味するわけではない。AIによって、開発者はそもそもより多くのコードを作成しているため、怪しいコードの総割合は、これらの数字が当初示唆するほど悪くない可能性がある。

さらに、OpenAIのGPTファミリーのようなAIモデルは、より正確で欠陥の少ない結果を生み出すために、継続的に改善されているという事実もある。


翻訳元: https://www.techradar.com/pro/security/ai-generated-code-contains-more-bugs-and-errors-than-human-output

ソース: techradar.com