Code Arena🏆WebDev

View overall rankings across AI models on front-end web development tasks, including agentic coding workflows that require multi-step reasoning and tool use.

May 1, 2026

271,553 votes

71 models

Rank by

	Rank Spread
1	12	claude-opus-4-7-thinking Anthropic · Proprietary	1571+14/-13	2,490	$5 / $25	1M
2	14	claude-opus-4-7 Anthropic · Proprietary	1561+13/-13	2,658	$5 / $25	1M
3	26	claude-opus-4-6-thinking Anthropic · Proprietary	1548+9/-9	5,750	$5 / $25	1M
4	27	claude-opus-4-6 Anthropic · Proprietary	1543+9/-9	6,679	$5 / $25	1M
5	38	glm-5.1 Z.ai · MIT	1534+11/-11	3,412	$1.40 / $4.40	202.8K
6	48	claude-sonnet-4-6 Anthropic · Proprietary	1527+8/-8	8,709	$3 / $15	1M
7	38	kimi-k2.6 Moonshot · Modified MIT	1526+14/-14	2,130	$0.95 / $4	262.1K
8	510	muse-spark Meta · Proprietary	1509+16/-16	1,635	N/A	N/A
9	812	gpt-5.5-high (codex-harness) OpenAI · Proprietary	1492+14/-14	2,126	N/A	N/A
10	811	claude-opus-4-5-20251101-thinking-32k Anthropic · Proprietary	1491+7/-7	13,065	$5 / $25	200K
11	915	mimo-v2.5-pro Xiaomi · MIT	1475+12/-12	2,681	$1 / $3	1M
12	1018	qwen3.6-plus Alibaba · Proprietary	1467+11/-11	3,716	$0.33 / $1.95	1M
13	1116	claude-opus-4-5-20251101 Anthropic · Proprietary	1467+6/-6	15,309	$5 / $25	200K
14	1123	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1457+17/-17	1,482	$2.50 / $15	1.1M
15	1124	deepseek-v4-pro-thinking DeepSeek · MIT	1455+16/-16	1,469	$0.43 / $0.87	1M
16	1321	gemini-3.1-pro-preview Google · Proprietary	1453+8/-8	7,813	$2 / $12	1M
17	1225	gpt-5.5 (codex-harness) OpenAI · Proprietary	1447+14/-14	1,879	N/A	N/A
18	1325	mimo-v2.5 Xiaomi · MIT	1444+15/-15	1,570	$0.40 / $2	1M
19	1425	glm-4.7 Z.ai · MIT	1440+10/-10	4,883	$0.38 / $1.74	202.8K
20	1425	gemini-3-pro Google · Proprietary	1438+7/-7	17,173	$2 / $12	1M
21	1525	glm-5 Z.ai · MIT	1437+8/-8	6,393	$1 / $3.20	202.8K
22	1428	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1437+16/-16	1,448	$2.50 / $15	1.1M
23	1525	gemini-3-flash Google · Proprietary	1437+7/-7	13,282	$0.50 / $3	1M
24	1726	kimi-k2.5-thinking Moonshot · Modified MIT	1430+7/-7	8,721	$0.60 / $3	N/A
25	1628	mimo-v2-pro Xiaomi · Proprietary	1430+9/-9	4,869	$1 / $3	1M
26	2433	minimax-m2.7 MiniMax · Modified MIT	1411+10/-10	4,502	$0.30 / $1.20	196.6K
27	2341	grok-4.3 xAI · Proprietary	1408+19/-18	1,048	$1.25 / $2.50	1M
28	2635	kimi-k2.5-instant Moonshot · Modified MIT	1408+11/-11	3,609	$0.44 / $2	262.1K
29	2637	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1407+12/-12	2,965	$1.75 / $14	400K
30	2441	gpt-5.2 OpenAI · Proprietary	1404+17/-17	1,459	$1.75 / $14	400K
31	2641	gpt-5.4-mini-high OpenAI · Proprietary	1400+11/-11	3,410	$0.75 / $4.50	400K
32	2641	grok-4.20-beta-0309-reasoning xAI · Proprietary	1399+9/-9	5,083	$2 / $6	2M
33	2641	gpt-5-medium OpenAI · Proprietary	1393+13/-13	3,755	$1.25 / $10	400K
34	2741	minimax-m2.1-preview MiniMax · MIT	1392+8/-8	9,279	$0.29 / $0.95	196.6K
35	2741	gpt-5.1-medium OpenAI · Proprietary	1391+9/-9	6,124	$1.25 / $10	400K
36	2841	gemini-3-flash (thinking-minimal) Google · Proprietary	1389+6/-6	14,262	$0.50 / $3	1M
37	2941	claude-sonnet-4-5-20250929-thinking-32k Anthropic · Proprietary	1388+7/-7	15,741	$3 / $15	200K
38	2841	qwen3.5-397b-a17b Alibaba · Apache 2.0	1387+8/-8	7,601	$0.39 / $2.34	262.1K
39	2941	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1386+6/-6	18,409	$3 / $15	200K
40	2941	claude-opus-4-1-20250805 Anthropic · Proprietary	1385+9/-9	8,572	$15 / $75	200K
41	2942	minimax-m2.5 MiniMax · Modified MIT	1383+8/-8	7,857	$0.15 / $1.15	196.6K
42	4144	deepseek-v3.2-thinking DeepSeek · MIT	1368+8/-8	7,918	$0.25 / $0.38	131.1K
43	4245	qwen3.5-122b-a10b Alibaba · Apache 2.0	1363+8/-8	6,318	$0.26 / $2.08	262.1K
44	4246	glm-4.6 Z.ai · MIT	1355+9/-9	8,354	$0.39 / $1.90	204.8K
45	4348	qwen3.5-27b Alibaba · Apache 2.0	1350+9/-9	5,905	$0.20 / $1.56	262.1K
46	4451	gpt-5.1 OpenAI · Proprietary	1339+7/-7	12,871	$1.25 / $10	400K
47	4551	mimo-v2-flash (non-thinking) Xiaomi · MIT	1337+8/-8	6,734	$0.09 / $0.29	262.1K
48	4551	gpt-5.2-codex OpenAI · Proprietary	1335+8/-8	7,761	$1.75 / $14	400K
49	4651	deepseek-v3.2 DeepSeek · MIT	1332+7/-7	10,480	$0.25 / $0.38	131.1K
50	4651	kimi-k2-thinking-turbo Moonshot · Modified MIT	1330+6/-6	15,371	$1.15 / $8	262.1K
51	4652	gpt-5.1-codex OpenAI · Proprietary	1329+10/-10	6,229	$1.25 / $10	400K
52	5154	claude-haiku-4-5-20251001 Anthropic · Proprietary	1317+6/-6	18,685	$1 / $5	200K
53	5255	minimax-m2 MiniMax · Apache 2.0	1304+9/-9	8,403	$0.26 / $1	196.6K
54	5256	mimo-v2-flash (thinking) Xiaomi · MIT	1300+14/-14	2,096	$0.09 / $0.29	262.1K
55	5356	deepseek-v3.2-exp DeepSeek · MIT	1286+11/-11	4,871	$0.27 / $0.41	163.8K
56	5456	qwen3-coder-480b-a35b-instruct Alibaba · Apache 2.0	1281+7/-7	15,218	$0.40 / $1.60	262.1K
57	5763	KAT-Coder-Pro-V1 KwaiKAT · Proprietary	1258+15/-15	1,883	$0.21 / $0.83	256K
58	5764	qwen3.5-35b-a3b Alibaba · Apache 2.0	1248+16/-16	1,815	$0.16 / $1.30	262.1K
59	5765	trinity-large-thinking Arcee AI · Apache 2.0	1246+19/-19	1,315	$0.22 / $0.85	262.1K
60	5765	gpt-5.1-codex-mini OpenAI · Proprietary	1239+17/-17	1,444	$0.25 / $2	400K
61	5764	gemini-3.1-flash-lite-preview Google · Proprietary	1238+9/-9	7,106	$0.25 / $1.50	1M
62	5765	qwen3.5-flash Alibaba · Proprietary	1236+17/-17	1,562	N/A	N/A
63	5765	grok-4-1-fast-reasoning xAI · Proprietary	1234+9/-9	6,915	$0.20 / $0.50	2M
64	5867	mistral-large-3 Mistral · Apache 2.0	1222+20/-20	1,032	$0.50 / $1.50	N/A
65	6068	grok-4.1-thinking xAI · Proprietary	1207+20/-20	1,210	N/A	N/A
66	6467	gemini-2.5-pro Google · Proprietary	1203+13/-13	3,300	$1.25 / $10	1M
67	6468	devstral-2 Mistral · Modified MIT	1199+17/-17	1,583	N/A	N/A
68	6670	mercury-2 Inception AI · Proprietary	1165+23/-23	947	$0.25 / $0.75	128K
69	6870	grok-4-fast-reasoning xAI · Proprietary	1149+23/-23	936	$0.20 / $0.50	2M
70	6870	grok-code-fast-1 xAI · Proprietary	1139+22/-22	984	$0.20 / $1.50	256K
71	7171	devstral-medium-2507 Mistral · Proprietary	1091+23/-23	993	$0.40 / $2	128K

Code Arena🏆WebDev

Remove Style Control Leaderboard Plots

Confidence Intervals on Model Strength (via Bootstrapping)

Fraction of Model A Wins for All Non-tied A vs. B Battles

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Battle Count for Each Combination of Models (without Ties)