GitHub Copilot CLIが複数モデルレビューに基づく第三者意見機能を取得

コーディングエージェントは順序立てて意思決定を行います：プランが起案され、実装され、その後テストされます。初期段階で導入されたエラーは、後続のステップが同じ誤った前提に基づいて構築されるため、複合的な影響を与えます。自己反映は認識されている軽減技術であり、GitHub Copilotはすでにこれをサポートしていますが、モデルが自身の出力をレビューする場合、それを生成した同じ訓練データと盲点に制約されたままです。

GitHubはこの週、Rubber Duckのリリースで制約に対処しました。これはGitHub Copilot CLIの実験モードで利用可能な複数モデルレビュー機能です。

Rubber Duckの役割

Rubber Duckは、プライマリなCopilotセッションを処理するモデルとは異なるAIファミリーのモデルで実行される専用レビューエージェントです。開発者がモデルピッカーでオーケストレーターとしてClaudeモデルを選択すると、Rubber DuckはGPT-5.4で実行されます。異なるモデルファミリーは異なる訓練バイアスを持つため、相補的なファミリーからのレビューは、プライマリモデルが一貫して見落とすかもしれないエラーを明らかにします。

レビュアーのジョブは限定されています。懸念事項の短いリストを生成します：プライマリエージェントが十分な根拠なしに行った仮定、見落とされたエッジケース、およびコードベースの他の場所の要件と矛盾する実装の詳細です。

SWE-Bench Proのベンチマーク結果

「われわれの評価は、Claude Sonnet + Rubber Duckが単独のSonnetとOpus間のパフォーマンスギャップの74.7%を補い、困難なマルチファイルおよび長時間実行タスクに対処するためのより良い結果を達成することを示している」と、研究者のNick McKennaおよびBartek Perzは説明しました。

利得はより困難な問題でより顕著でした。通常70ステップ以上が必要な3ファイル以上にまたがるタスクでは、Rubber Duckと組み合わせたSonnetはSonnetベースラインより3.8%高いスコアを獲得し、3試験に及ぶ最も困難なサブセットでは4.8%高くなりました。

GitHubはテスト中にRubber Duckが検出した3つのエラーの例を提示しました。OpenLibrary非同期スケジューラーに関連する1つのケースでは、Rubber Duckは、提案されたスケジューラーが開始時に直ちに終了し、ゼロジョブを実行し、スケジュールされたタスクの1つが無限ループであることを特定しました。Solrファセット処理に関連する2番目のケースでは、Rubber Duckは、反復のたびに同じ辞書キーを静かに上書きするループを検出し、4つのファセットカテゴリーのうち3つが検索クエリーから削除されエラーが発生しないことになるループを検出しました。NodeBBのメール確認フローに関連する3番目のケースでは、Rubber Duckは3つのファイルが新しいコードが書き込みを停止したRedisキーから読み取っていることを特定し、これは確認UIとデプロイ時のクリーンアップパスを静かに破壊するはずでした。

レビューエージェントが活性化するとき

Rubber Duckは自動的に、またはオンデマンドでトリガーできます。GitHub Copilotは3つのチェックポイントで自動的に呼び出します：エージェントがプランを起案した後、複雑な実装の後、およびテストを書いた後ですがそれらを実行する前です。エージェントは、ループに陥った場合、反応的にRubber Duckを呼び出すこともできます。開発者はセッション内の任意の時点で批判をリクエストできます。Copilotはフィードバックを確認し、変更内容と理由を表示します。

設計は意図的にRubber Duckが活性化する頻度を制限します。目標は、ルーティンタスクにノイズを追加することなく、最も重要なチェックポイントで高値のシグナルを表面化することです。Rubber Duckは、Copilotの既存のタスクツール、他のサブエージェントに使用されるのと同じインフラストラクチャーを通じて実行されます。

可用性とモデル範囲

Rubber DuckはGitHub Copilot CLIの実験モードで現在利用可能です。開発者は/experimentalスラッシュコマンドを実行してアクセスします。この機能には、モデルピッカーで選択されたClaudeモデルとGPT-5.4へのアクセスが必要です。GitHubはOpus、Sonnet、およびHaikuを含むオーケストレーターロールのすべてのClaudeファミリーモデルに対してRubber Duckを有効にし、将来の構成のための追加モデルファミリーペアリングを探索していると述べています。

Secure by Design: 最初からセキュリティを構築する

翻訳元: https://www.helpnetsecurity.com/2026/04/07/github-copilot-rubber-duck-cross-model-review/

GitHub Copilot CLIが複数モデルレビューに基づく第三者意見機能を取得

Rubber Duckの役割

SWE-Bench Proのベンチマーク結果

レビューエージェントが活性化するとき

可用性とモデル範囲

共有:

関連

関連記事

WordPressに新たな高深刻度脆弱性2件、直ちにパッチ適用を!

Spiralsランサムウェア、24時間足らずで被害者のシステムを完全掌握

詐欺師がFaceTimeを悪用し銀行口座を狙う