Skip to content

Latest commit

 

History

History
55 lines (36 loc) · 3.83 KB

File metadata and controls

55 lines (36 loc) · 3.83 KB

agent-eval-harness

リアルな GitHub Issue で AI コーディングエージェントを比較する、ライブ・オープンソースベンチマーク

English · 中文 · 日本語 · 한국어 · Español · Português

Stars Last Commit


再現手順付きのリアルな GitHub Issue に対してコーディングエージェントを実行する、標準化されたベンチマークスイートです。静的な学術ベンチマークとは違い、毎週更新される公開リーダーボードを出力するので、OpenCode・Codex・Claude Code などのエージェントを現実的なシナリオで比較できます。

このリストは GitHub Actions の cron によって 15 分ごとに自動更新されます。各コミットは上流データソースの実際の変化を反映しています——新しいアイテムの追加、期限切れアイテムの削除——なので、表示されている内容は常に最新です。


15 分ごとに GitHub Action が tracker.py を実行します。このスクリプトは以下を行います:

  1. GitHub Search API から最新の状態を取得する。
  2. data/items.json(前回のスナップショット)と差分を取る。
  3. <!-- TRACKER_TABLE_* --> マーカーの間にある上のテーブルを書き換える。
  4. 変更があれば feat: +N added, -M removed (timestamp) としてコミットする。

外部サービス不要。有料 API 不要。公開データソースと無料の GitHub Action だけで動きます。


📋 Live data

ライブデータは英語版 README をご覧ください


🔗 Related live trackers


📜 License

MIT — see LICENSE.