agent-eval-harness

Benchmark en vivo y open-source para comparar agentes de codificación IA en issues reales de GitHub

English · 中文 · 日本語 · 한국어 · Español · Português

Un conjunto de benchmarks estandarizado que ejecuta agentes de codificación contra issues reales de GitHub con pasos de reproducción. A diferencia de los benchmarks académicos estáticos, genera un leaderboard público actualizado semanalmente, lo que permite a los devs comparar agentes como OpenCode, Codex y Claude Code en escenarios realistas.

Esta lista se actualiza automáticamente cada 15 minutos mediante un cron de GitHub Actions. Cada commit refleja un cambio real en la fuente de datos upstream — ítems nuevos añadidos, ítems expirados eliminados — así que puedes confiar en que lo que ves está al día.

Cada 15 minutos, un GitHub Action ejecuta tracker.py. Ese script:

Obtiene el estado más reciente desde la GitHub Search API.
Hace un diff contra data/items.json (el snapshot anterior).
Reescribe la tabla de arriba entre los marcadores .
Hace commit de feat: +N added, -M removed (timestamp) si hubo cambios.

Sin servicios externos. Sin APIs de pago. Solo una fuente de datos pública y un GitHub Action gratuito.

📋 Live data

Los datos en vivo están en el README en inglés

🔗 Related live trackers

trending-claude-skills — What's shipping in Claude Skills this week (topic:claude-skills)
mcp-servers-live — Live index of newest MCP servers (topic:mcp-server)
cursor-rules-live — Newest Cursor rules and .cursorrules patterns (topic:cursor-rules)
claude-code-plugin-tracker — Claude Code plugins and hook configs (topic:claude-code)
llm-agents-radar — Newest LLM agent frameworks (topic:llm-agent)
rag-radar — Newest RAG implementations and tools (topic:rag)
llm-eval-tracker — Newest LLM evaluation tools and benchmarks (topic:llm-eval)
agent-framework-radar — Newest agent frameworks shipping on GitHub (topic:agent-framework)
vector-db-live — Newest vector DB projects and integrations (topic:vector-database)
llmops-radar — Newest LLMOps tooling (observability, deployment) (topic:llmops)
prompt-tools-live — Newest prompt-engineering tools and prompt repos (topic:prompt-engineering)
skills-tracker — Tracking new GitHub 'skills' repos (topic:agent-skills)
awesome-agent-skills — Curated auto-updated awesome-list of AI agent skills (topic:agent-skills)

📜 License

MIT — see LICENSE.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

agent-eval-harness

📋 Live data

🔗 Related live trackers

📜 License

FilesExpand file tree

README_ES.md

Latest commit

History

README_ES.md

File metadata and controls

agent-eval-harness

📋 Live data

🔗 Related live trackers

📜 License