Benchmark Details - Model Trust Scores

Humanity's Last Exam

A comprehensive benchmark developed by the Center for AI Safety and Scale AI to assess expert-level reasoning and knowledge across diverse fields. The dataset contains 3,000 questions from nearly 1,000 subject-matter experts across 500+ institutions and 50 countries, with 10% requiring image and text comprehension.

Source:

Model Performance

Gemini 3.1 Pro Preview

45.0%

GPT-5.3 Codex

40.0%

Claude Opus 4.6 (Thinking)

37.0%

GPT-5.2 Codex

34.0%

Grok 4.20 (Reasoning)

30.0%

Claude Opus 4.5 (Thinking)

28.0%

MiniMax M2.7

28.0%

GPT-5 (Thinking)

27.0%

GPT-5

27.0%

#10

Grok 4 (Thinking)

24.0%

#11

Grok 4

24.0%

#12

Grok 4.20

23.0%

#13

GPT-5.1 Codex Max

23.0%

#14

MiniMax M2.1

22.0%

#15

DeepSeek V3.2 (Thinking)

22.0%

#16

Gemini 2.5 Pro (Thinking)

21.0%

#17

OpenAI o3 (High Effort)

20.0%

#18

OpenAI o3 (Medium Effort)

20.0%

#19

GPT-5 Mini (Thinking)

20.0%

#20

Claude Opus 4.6

19.0%

#21

MiniMax M2.5

19.0%

#22

GPT OSS 120B

19.0%

#23

OpenAI o4 Mini (High Effort)

18.0%

#24

OpenAI o4 Mini (Medium Effort)

18.0%

#25

Claude Sonnet 4.5 (Thinking)

17.0%

#26

Gemini 2.5 Pro

17.0%

#27

Gemini 3.1 Flash Lite Preview

16.0%

#28

Qwen 3 (Thinking)

15.0%

#29

Gemini 2.5 Pro (Jun 2025)

15.0%

#30

DeepSeek R1

15.0%

#31

Gemini 3.0 Flash

14.0%

#32

Claude Opus 4.5

13.0%

#33

Claude Sonnet 4.6

13.0%

#34

Qwen 3 Max (Thinking)

12.0%

#35

OpenAI o3 Mini (High Effort)

12.0%

#36

Kimi K2.5

12.0%

#37

Claude 4.0 Opus (Thinking)

12.0%

#38

Claude 4.1 Opus (Thinking)

12.0%

#39

Grok 3 Mini

11.0%

#40

DeepSeek V3.2

11.0%

#41

Qwen 3

11.0%

#42

Gemini 2.5 Flash (Thinking)

11.0%

#43

GPT-5.4

11.0%

#44

Magistral Medium 3.1

10.0%

#45

Claude 3.7 Sonnet (Thinking)

10.0%

#46

Claude Haiku 4.5 (Thinking)

10.0%

#47

Claude 4.0 Sonnet (Thinking)

10.0%

#48

Qwen 3 Max Preview

9.0%

#49

OpenAI o3 Mini (Medium Effort)

9.0%

#50

GPT-5 Nano (Thinking)

8.0%

#51

OpenAI o1

8.0%

#52

MiMo V2 Flash

8.0%

#53

Claude Sonnet 4.5

7.0%

#54

GLM-5

7.0%

#55

Gemini 2.0 Pro

7.0%

#56

Kimi K2

7.0%

#57

Gemini 2.0 Flash Thinking (Jan 2025)

7.0%

#58

GPT-5.2

7.0%

#59

Llama 2 7B

6.0%

#60

GPT-5.4 Mini

6.0%

#61

Claude 4.0 Opus

6.0%

#62

GLM-4.7

6.0%

#63

DeepSeek V3 (Mar 2025)

5.0%

#64

Cohere Command A

5.0%

#65

OpenAI o1 Mini

5.0%

#66

Llama 2 13B

5.0%

#67

Llama 2 70B

5.0%

#68

Grok 3

5.0%

#69

GPT-4.1

5.0%

#70

Llama 4 Maverick 17B

5.0%

#71

Gemini 1.5 Pro

5.0%

#72

Gemini 2.5 Flash

5.0%

#73

GPT-5 Mini

5.0%

#74

Gemini 2.0 Flash

5.0%

#75

Cohere Command R+

5.0%

#76

Claude 3.7 Sonnet

5.0%

#77

Claude 3.5 Sonnet

4.0%

#78

Claude 3.5 Haiku

4.0%

#79

Claude 4.0 Sonnet

4.0%

#80

DeepSeek V3

4.0%

#81

Mistral Medium 3.1

4.0%

#82

Mistral Large 3

4.0%

#83

Devstral 2

4.0%

#84

GPT-4o Mini

4.0%

#85

Claude Haiku 4.5

4.0%

#86

Claude 3 Sonnet

4.0%

#87

GPT-5 Nano

4.0%

#88

GPT-5.4 Nano

4.0%

#89

Phi-4

4.0%

#90

Mistral Large 2

4.0%

#91

Llama 3.1 405B

4.0%

#92

Llama 3.3 70B

4.0%

#93

Devstral Small 2

3.0%

#94

Claude 3 Opus

3.0%

#95

GPT-4o

3.0%

#96

Mistral Large

3.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

Humanity's Last Exam

Model Performance