リアルな GitHub Issue で AI コーディングエージェントを比較する、ライブ・オープンソースベンチマーク
English · 中文 · 日本語 · 한국어 · Español · Português
再現手順付きのリアルな GitHub Issue に対してコーディングエージェントを実行する、標準化されたベンチマークスイートです。静的な学術ベンチマークとは違い、毎週更新される公開リーダーボードを出力するので、OpenCode・Codex・Claude Code などのエージェントを現実的なシナリオで比較できます。
このリストは GitHub Actions の cron によって 15 分ごとに自動更新されます。各コミットは上流データソースの実際の変化を反映しています——新しいアイテムの追加、期限切れアイテムの削除——なので、表示されている内容は常に最新です。
15 分ごとに GitHub Action が tracker.py を実行します。このスクリプトは以下を行います:
GitHub Search APIから最新の状態を取得する。data/items.json(前回のスナップショット)と差分を取る。<!-- TRACKER_TABLE_* -->マーカーの間にある上のテーブルを書き換える。- 変更があれば
feat: +N added, -M removed (timestamp)としてコミットする。
外部サービス不要。有料 API 不要。公開データソースと無料の GitHub Action だけで動きます。
ライブデータは英語版 README をご覧ください
- trending-claude-skills — What's shipping in Claude Skills this week (
topic:claude-skills) - mcp-servers-live — Live index of newest MCP servers (
topic:mcp-server) - cursor-rules-live — Newest Cursor rules and .cursorrules patterns (
topic:cursor-rules) - claude-code-plugin-tracker — Claude Code plugins and hook configs (
topic:claude-code) - llm-agents-radar — Newest LLM agent frameworks (
topic:llm-agent) - rag-radar — Newest RAG implementations and tools (
topic:rag) - llm-eval-tracker — Newest LLM evaluation tools and benchmarks (
topic:llm-eval) - agent-framework-radar — Newest agent frameworks shipping on GitHub (
topic:agent-framework) - vector-db-live — Newest vector DB projects and integrations (
topic:vector-database) - llmops-radar — Newest LLMOps tooling (observability, deployment) (
topic:llmops) - prompt-tools-live — Newest prompt-engineering tools and prompt repos (
topic:prompt-engineering) - skills-tracker — Tracking new GitHub 'skills' repos (
topic:agent-skills) - awesome-agent-skills — Curated auto-updated awesome-list of AI agent skills (
topic:agent-skills)
MIT — see LICENSE.