agent-eval-harness

Benchmark ao vivo e open-source para comparar agentes de codificação IA em issues reais do GitHub

English · 中文 · 日本語 · 한국어 · Español · Português

Um conjunto de benchmarks padronizado que executa agentes de codificação contra issues reais do GitHub com passos de reprodução. Diferente dos benchmarks acadêmicos estáticos, ele gera um leaderboard público atualizado semanalmente, permitindo que devs comparem agentes como OpenCode, Codex e Claude Code em cenários realistas.

Esta lista é atualizada automaticamente a cada 15 minutos por um cron do GitHub Actions. Cada commit reflete uma mudança real na fonte de dados upstream — novos itens adicionados, itens expirados removidos — então você pode confiar que o que está vendo é atual.

A cada 15 minutos, um GitHub Action executa o tracker.py. Esse script:

Busca o estado mais recente da GitHub Search API.
Faz um diff contra data/items.json (o snapshot anterior).
Reescreve a tabela acima entre os marcadores .
Faz commit de feat: +N added, -M removed (timestamp) se algo mudou.

Sem serviços externos. Sem APIs pagas. Só uma fonte de dados pública e um GitHub Action gratuito.

📋 Live data

Os dados ao vivo estão no README em inglês

🔗 Related live trackers

trending-claude-skills — What's shipping in Claude Skills this week (topic:claude-skills)
mcp-servers-live — Live index of newest MCP servers (topic:mcp-server)
cursor-rules-live — Newest Cursor rules and .cursorrules patterns (topic:cursor-rules)
claude-code-plugin-tracker — Claude Code plugins and hook configs (topic:claude-code)
llm-agents-radar — Newest LLM agent frameworks (topic:llm-agent)
rag-radar — Newest RAG implementations and tools (topic:rag)
llm-eval-tracker — Newest LLM evaluation tools and benchmarks (topic:llm-eval)
agent-framework-radar — Newest agent frameworks shipping on GitHub (topic:agent-framework)
vector-db-live — Newest vector DB projects and integrations (topic:vector-database)
llmops-radar — Newest LLMOps tooling (observability, deployment) (topic:llmops)
prompt-tools-live — Newest prompt-engineering tools and prompt repos (topic:prompt-engineering)
skills-tracker — Tracking new GitHub 'skills' repos (topic:agent-skills)
awesome-agent-skills — Curated auto-updated awesome-list of AI agent skills (topic:agent-skills)

📜 License

MIT — see LICENSE.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

agent-eval-harness

📋 Live data

🔗 Related live trackers

📜 License

FilesExpand file tree

README_PT.md

Latest commit

History

README_PT.md

File metadata and controls

agent-eval-harness

📋 Live data

🔗 Related live trackers

📜 License