Benchmark Details - Model Trust Scores

Chatbot Arena Coding

Evaluates the model's coding abilities through head-to-head comparisons in the Chatbot Arena platform, where human judges assess code quality, correctness, and implementation approach.

Source:

Model Performance

Claude Opus 4.6 (Thinking)

106.4%

Claude Opus 4.6

105.0%

Gemini 3.1 Pro Preview

104.4%

Grok 4.20

102.6%

Grok 4.20 (Reasoning)

102.6%

Claude Opus 4.5 (Thinking)

101.4%

Claude Sonnet 4.6

100.0%

Claude Opus 4.5

99.4%

Claude Sonnet 4.5 (Thinking)

97.9%

#10

Kimi K2.5

97.1%

#11

Claude 4.1 Opus (Thinking)

96.4%

#12

GPT-5.4

95.4%

#13

Qwen 3 Max Preview

95.1%

#14

Claude 4.1 Opus

95.0%

#15

Gemini 2.5 Pro (Jun 2025)

95.0%

#16

Gemini 2.5 Pro (Thinking)

95.0%

#17

Gemini 2.5 Pro

95.0%

#18

GPT-5.2

95.0%

#19

Claude Sonnet 4.5

94.9%

#20

GLM-5

94.4%

#21

GLM-4.7

94.3%

#22

GPT-5 (Thinking)

94.3%

#23

Grok 4

93.3%

#24

Grok 4 (Thinking)

93.3%

#25

Mistral Large 3

92.9%

#26

Qwen 3 (Thinking)

91.7%

#27

Qwen 3

91.7%

#28

OpenAI o3 (Medium Effort)

91.6%

#29

Grok 3

91.3%

#30

DeepSeek V3.2 (Thinking)

91.1%

#31

Claude Haiku 4.5

90.9%

#32

Claude 4.0 Opus (Thinking)

90.6%

#33

DeepSeek V3.2

90.1%

#34

GPT-5

88.7%

#35

Gemini 2.5 Flash

88.6%

#36

GPT-4.5

88.4%

#37

GPT-5 Mini

88.4%

#38

GPT-5 Mini (Thinking)

88.4%

#39

Claude 4.0 Sonnet (Thinking)

87.4%

#40

Claude 4.0 Opus

86.4%

#41

Kimi K2

86.0%

#42

GPT OSS 120B

85.4%

#43

GPT-4.1

85.1%

#44

Gemini 2.0 Pro

85.1%

#45

DeepSeek V3

84.4%

#46

DeepSeek V3 (Mar 2025)

84.4%

#47

Mistral Medium 3.1

83.9%

#48

OpenAI o4 Mini (High Effort)

83.6%

#49

OpenAI o4 Mini (Medium Effort)

83.6%

#50

Claude 4.0 Sonnet

83.4%

#51

Gemini 2.0 Flash (Thinking)

83.3%

#52

Gemini 2.0 Flash Thinking (Jan 2025)

83.3%

#53

DeepSeek R1

83.1%

#54

Grok 3 Mini

82.9%

#55

OpenAI o3 Mini (High Effort)

82.9%

#56

OpenAI o1

82.6%

#57

Gemini 2.0 Flash

81.6%

#58

GPT-4o Mini

81.4%

#59

OpenAI o1 Mini

80.9%

#60

GPT-5 Nano

80.4%

#61

GPT-5 Nano (Thinking)

80.4%

#62

OpenAI o3 Mini (Medium Effort)

80.1%

#63

Llama 3.3 70B

79.9%

#64

Claude 3.7 Sonnet (Thinking)

79.3%

#65

Llama 3.1 405B

77.9%

#66

Claude 3.7 Sonnet

77.3%

#67

Claude 3.5 Sonnet

77.1%

#68

Cohere Command A

76.6%

#69

Llama 4 Maverick 17B

73.1%

#70

Gemini 1.5 Pro

73.0%

#71

GPT-4o

72.4%

#72

Claude 3.5 Haiku

69.6%

#73

Mistral Large 2

69.1%

#74

Claude 3 Opus

67.0%

#75

Phi-4

63.1%

#76

Claude 3 Sonnet

61.7%

#77

Cohere Command R+

57.1%

#78

GPT-3.5 Turbo

52.0%

#79

Granite 3.0

45.0%

#80

Llama 2 70B

42.7%

#81

Llama 2 13B

39.6%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

Chatbot Arena Coding

Model Performance