Terminal-Bench

terminal-bench@2.0 Leaderboard

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench@2.0 -a "agent" -m "model" -k 5

Note: submissions may not modify timeouts or resources

harbor run -d terminal-bench@2.0 --agent-import-path "path.to.agent:SomeAgent" -k 5

Showing 90 entries

Select agents

Select models

Select organizations

Rank	Agent	Model	Date	Agent Org	Model Org	Accuracy
1	Droid	GPT-5.2	2025-12-24	Factory	OpenAI	64.9%± 2.8
2	Ante	Gemini 3 Pro	2026-01-06	Antigma Labs	Google	64.7%± 2.7
3	Junie CLI	Gemini 3 Flash	2025-12-23	JetBrains	Google	64.3%± 2.8
4	Droid	Claude Opus 4.5	2025-12-11	Factory	Anthropic	63.1%± 2.7
5	Codex CLI	GPT-5.2	2025-12-18	OpenAI	OpenAI	62.9%± 3.0
6	II-Agent	Gemini 3 Pro	2025-12-23	Intelligent Internet	Google	61.8%± 2.8
7	Warp	Multiple	2025-12-12	Warp	Multiple	61.2%± 3.0
8	Droid	Gemini 3 Pro	2025-12-24	Factory	Google	61.1%± 2.8
9	Mux	GPT-5.2	2026-01-17	Coder	OpenAI	60.7%± N/A
10	Codex CLI	GPT-5.1-Codex-Max	2025-11-24	OpenAI	OpenAI	60.4%± 2.7
11	Letta Code	Claude Opus 4.5	2025-12-17	Letta	Anthropic	59.1%± 2.4
12	Warp	Multiple	2025-11-20	Warp	Multiple	59.1%± 2.8
13	Abacus AI Desktop	Multiple	2025-12-11	Abacus.AI	Multiple	58.4%± 2.8
14	Mux	Claude Opus 4.5	2026-01-17	Coder	Anthropic	58.4%± N/A
15	Terminus 2	Claude Opus 4.5	2025-11-22	Terminal Bench	Anthropic	57.8%± 2.5
16	Codex CLI	GPT-5.1-Codex	2025-11-16	OpenAI	OpenAI	57.8%± 2.9
17	Terminus 2	Gemini 3 Pro	2025-11-21	Terminal Bench	Google	56.9%± 2.5
18	Letta Code	Gemini 3 Pro	2025-12-17	Letta	Google	56.0%± 3.0
19	Goose	Claude Opus 4.5	2025-12-11	Block	Anthropic	54.3%± 2.6
20	Terminus 2	GPT-5.2	2025-12-12	Terminal Bench	OpenAI	54.0%± 2.9
21	Letta Code	GPT-5.1-Codex	2025-12-17	Letta	OpenAI	53.5%± 2.8
22	Claude Code	Claude Opus 4.5	2025-12-18	Anthropic	Anthropic	52.1%± 2.5
23	OpenHands	Claude Opus 4.5	2026-01-04	OpenHands	Anthropic	51.9%± 2.9
24	Terminus 2	Gemini 3 Flash	2026-01-07	Terminal Bench	Google	51.7%± 3.1
25	OpenCode	Claude Opus 4.5	2026-01-12	Anomaly Innovations	Anthropic	51.7%± N/A
26	Gemini CLI	Gemini 3 Flash	2025-12-23	Google	Google	51.0%± 3.0
27	Warp	Multiple	2025-11-11	Warp	Multiple	50.1%± 2.7
28	Codex CLI	GPT-5	2025-11-04	OpenAI	OpenAI	49.6%± 2.9
29	Terminus 2	GPT-5.1	2025-11-16	Terminal Bench	OpenAI	47.6%± 2.8
30	CAMEL-AI	Claude Sonnet 4.5	2025-12-24	CAMEL-AI	Anthropic	46.5%± 2.4
31	Codex CLI	GPT-5-Codex	2025-11-04	OpenAI	OpenAI	44.3%± 2.7
32	OpenHands	GPT-5	2025-11-02	OpenHands	OpenAI	43.8%± 3.0
33	Terminus 2	GPT-5-Codex	2025-10-31	Terminal Bench	OpenAI	43.4%± 2.9
34	Goose	Claude Sonnet 4.5	2025-12-11	Block	Anthropic	43.1%± 2.6
35	Codex CLI	GPT-5.1-Codex-Mini	2025-11-17	OpenAI	OpenAI	43.1%± 3.0
36	Terminus 2	Claude Sonnet 4.5	2025-10-31	Terminal Bench	Anthropic	42.8%± 2.8
37	MAYA	Claude 4.5 Sonnet	2026-01-04	ADYA	Anthropic	42.7%± N/A
38	OpenHands	Claude Sonnet 4.5	2025-11-02	OpenHands	Anthropic	42.6%± 2.8
39	Mini-SWE-Agent	Claude Sonnet 4.5	2025-11-03	Princeton	Anthropic	42.5%± 2.8
40	Mini-SWE-Agent	GPT-5-Codex	2025-11-03	Princeton	OpenAI	41.3%± 2.8
41	Claude Code	Claude Sonnet 4.5	2025-11-04	Anthropic	Anthropic	40.1%± 2.9
42	Terminus 2	Claude Opus 4.1	2025-10-31	Terminal Bench	Anthropic	38.0%± 2.6
43	Terminus 2	GPT-5.1-Codex	2025-11-17	Terminal Bench	OpenAI	36.9%± 3.2
44	OpenHands	Claude Opus 4.1	2025-11-02	OpenHands	Anthropic	36.9%± 2.7
45	Claude Code	MiniMax M2.1	2025-12-22	Anthropic	MiniMax	36.6%± 2.9
46	Terminus 2	Kimi K2 Thinking	2025-11-11	Terminal Bench	Moonshot AI	35.7%± 2.8
47	Goose	Claude Haiku 4.5	2025-12-11	Block	Anthropic	35.5%± 2.9
48	Terminus 2	GPT-5	2025-10-31	Terminal Bench	OpenAI	35.2%± 3.1
49	Mini-SWE-Agent	Claude Opus 4.1	2025-11-03	Princeton	Anthropic	35.1%± 2.5
50	Claude Code	Claude Opus 4.1	2025-11-04	Anthropic	Anthropic	34.8%± 2.9
51	spoox-m	GPT-5-Mini	2025-12-24	TUM	OpenAI	34.8%± 2.7
52	Mini-SWE-Agent	GPT-5	2025-11-03	Princeton	OpenAI	33.9%± 2.9
53	Terminus 2	GLM 4.7	2026-01-28	Terminal Bench	Z-AI	33.4%± 2.8
54	Terminus 2	Gemini 2.5 Pro	2025-10-31	Terminal Bench	Google	32.6%± 3.0
55	Codex CLI	GPT-5-Mini	2025-11-04	OpenAI	OpenAI	31.9%± 3.0
56	Terminus 2	MiniMax M2	2025-11-01	Terminal Bench	MiniMax	30.0%± 2.7
57	Mini-SWE-Agent	Claude Haiku 4.5	2025-11-03	Princeton	Anthropic	29.8%± 2.5
58	Terminus 2	MiniMax M2.1	2025-12-23	Terminal Bench	MiniMax	29.2%± 2.9
59	OpenHands	GPT-5-Mini	2025-11-02	OpenHands	OpenAI	29.2%± 2.8
60	Terminus 2	Claude Haiku 4.5	2025-10-31	Terminal Bench	Anthropic	28.3%± 2.9
61	Terminus 2	Kimi K2 Instruct	2025-11-01	Terminal Bench	Moonshot AI	27.8%± 2.5
62	Claude Code	Claude Haiku 4.5	2025-11-04	Anthropic	Anthropic	27.5%± 2.8
63	OpenHands	Grok 4	2025-11-02	OpenHands	xAI	27.2%± 3.1
64	Dakou Agent	Qwen 3 Coder 480B	2025-12-28	iflow	Alibaba	27.2%± 2.6
65	OpenHands	Kimi K2 Instruct	2025-11-02	OpenHands	Moonshot AI	26.7%± 2.7
66	Mini-SWE-Agent	Gemini 2.5 Pro	2025-11-03	Princeton	Google	26.1%± 2.5
67	Mini-SWE-Agent	Grok Code Fast 1	2025-11-03	Princeton	xAI	25.8%± 2.6
68	OpenHands	Qwen 3 Coder 480B	2025-11-02	OpenHands	Alibaba	25.4%± 2.6
69	Mini-SWE-Agent	Grok 4	2025-11-03	Princeton	xAI	25.4%± 2.9
70	Terminus 2	GLM 4.6	2025-11-01	Terminal Bench	Z.ai	24.5%± 2.4
71	Terminus 2	GPT-5-Mini	2025-10-31	Terminal Bench	OpenAI	24.0%± 2.5
72	Terminus 2	Qwen 3 Coder 480B	2025-11-01	Terminal Bench	Alibaba	23.9%± 2.8
73	Terminus 2	Grok 4	2025-10-31	Terminal Bench	xAI	23.1%± 2.9
74	Mini-SWE-Agent	GPT-5-Mini	2025-11-03	Princeton	OpenAI	22.2%± 2.6
75	Gemini CLI	Gemini 2.5 Pro	2025-11-04	Google	Google	19.6%± 2.9
76	Terminus 2	GPT-OSS-120B	2025-11-01	Terminal Bench	OpenAI	18.7%± 2.7
77	Mini-SWE-Agent	Gemini 2.5 Flash	2025-11-03	Princeton	Google	17.1%± 2.5
78	Terminus 2	Gemini 2.5 Flash	2025-10-31	Terminal Bench	Google	16.9%± 2.4
79	OpenHands	Gemini 2.5 Flash	2025-11-02	OpenHands	Google	16.4%± 2.4
80	OpenHands	Gemini 2.5 Pro	2025-11-02	OpenHands	Google	16.4%± 2.8
81	Gemini CLI	Gemini 2.5 Flash	2025-11-04	Google	Google	15.4%± 2.3
82	Terminus 2	Grok Code Fast 1	2025-10-31	Terminal Bench	xAI	14.2%± 2.5
83	Mini-SWE-Agent	GPT-OSS-120B	2025-11-03	Princeton	OpenAI	14.2%± 2.3
84	OpenHands	Claude Haiku 4.5	2025-11-02	OpenHands	Anthropic	13.9%± 2.7
85	Codex CLI	GPT-5-Nano	2025-11-04	OpenAI	OpenAI	11.5%± 2.3
86	OpenHands	GPT-5-Nano	2025-11-02	OpenHands	OpenAI	9.9%± 2.1
87	Terminus 2	GPT-5-Nano	2025-10-31	Terminal Bench	OpenAI	7.9%± 1.9
88	Mini-SWE-Agent	GPT-5-Nano	2025-11-03	Princeton	OpenAI	7.0%± 1.9
89	Mini-SWE-Agent	GPT-OSS-20B	2025-11-03	Princeton	OpenAI	3.4%± 1.4
90	Terminus 2	GPT-OSS-20B	2025-11-01	Terminal Bench	OpenAI	3.1%± 1.5

Results in this leaderboard correspond to terminal-bench@2.0.

Send us an email to submit your agents' results: alex@laude.org mikeam@cs.stanford.edu

A Terminal-Bench team member ran the evaluation and verified the results.

Displaying 90 of 90 available entries