Benchmark Details - Model Trust Scores

Benchmarks

🔍

Capability & Safety Benchmarks

MedQA

Speed & Latency Metrics

Median Tokens/s

LiveCodeBench

Evaluates the model's ability to solve competitive programming problems using recent contest questions to avoid data contamination. Tests coding proficiency on algorithmic challenges that require understanding problem statements, implementing efficient solutions, and handling edge cases.

Source:

Model Performance

GPT-5 Mini (Thinking)

86.6%

GPT-5 Mini

86.6%

Gemini 3.1 Pro Preview

86.4%

GPT-5 (Thinking)

85.9%

GPT-5

85.9%

Gemini 3.0 Flash

85.6%

GPT-5.2

85.3%

Claude Opus 4.6 (Thinking)

84.7%

GPT-5.4 Nano

84.0%

#10

OpenAI o3 (High Effort)

83.9%

#11

OpenAI o3 (Medium Effort)

83.9%

#12

Claude Opus 4.5 (Thinking)

83.6%

#13

GPT-5.1 Codex Max

83.6%

#14

GPT OSS 120B

83.2%

#15

Grok 4 (Thinking)

83.2%

#16

Grok 4

83.2%

#17

OpenAI o4 Mini (High Effort)

82.2%

#18

OpenAI o4 Mini (Medium Effort)

82.2%

#19

Claude Sonnet 4.6

82.1%

#20

DeepSeek V3.2 (Thinking)

80.7%

#21

Grok 4.20 (Reasoning)

80.6%

#22

Grok 3 Mini

76.2%

#23

Claude Opus 4.5

75.0%

#24

Claude Sonnet 4.5 (Thinking)

73.0%

#25

OpenAI o3 Mini (High Effort)

71.5%

#26

OpenAI o3 Mini (Medium Effort)

71.5%

#27

Qwen 3 (Thinking)

70.6%

#28

Qwen 3

70.6%

#29

Kimi K2

70.4%

#30

DeepSeek R1

70.2%

#31

Claude 4.0 Opus (Thinking)

70.2%

#32

DeepSeek V3.2

69.9%

#33

Gemini 3.1 Flash Lite Preview

67.7%

#34

Qwen 3 Max (Thinking)

66.9%

#35

Qwen 3 Max Preview

66.9%

#36

Claude 4.1 Opus (Thinking)

66.5%

#37

DeepSeek V3 (Mar 2025)

65.5%

#38

Claude 4.1 Opus

64.6%

#39

Claude 4.0 Opus

62.6%

#40

Claude 4.0 Sonnet (Thinking)

62.4%

#41

Claude 3.7 Sonnet (Thinking)

60.4%

#42

Claude 4.0 Sonnet

59.7%

#43

Gemini 2.5 Flash

56.9%

#44

Claude 3.7 Sonnet

56.7%

#45

GPT-4.1

54.7%

#46

Grok 3 (Thinking)

52.9%

#47

Grok 3

52.9%

#48

OpenAI o1

50.3%

#49

Claude 3.5 Sonnet

49.6%

#50

Llama 4 Maverick 17B

47.3%

#51

Gemini 2.5 Flash (Thinking)

46.9%

#52

Mistral Medium 3.1

44.8%

#53

Gemini 2.0 Flash

43.6%

#54

Grok 4.20

42.6%

#55

Claude 3.5 Haiku

41.9%

#56

Gemini 1.5 Pro

41.7%

#57

Claude Haiku 4.5 (Thinking)

41.2%

#58

Mistral Large 2

37.1%

#59

Llama 3.3 70B

36.3%

#60

Cohere Command A

35.1%

#61

GPT-4o Mini

26.4%

#62

Cohere Command R+

18.2%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

LiveCodeBench

Model Performance