Benchmark Details - Model Trust Scores

AA-LCR

Artificial Analysis Long Context Reasoning (AA-LCR) Dataset includes 100 hard text-based questions that require reasoning across multiple real-world documents, with each document set averaging ~100k input tokens. Questions are designed such that answers cannot be directly retrieved from documents and must instead be reasoned from multiple information sources.

Source:

Model Performance

GPT-5 (Thinking)

76.0%

GPT-5.2 Codex

76.0%

GPT-5

76.0%

Claude Opus 4.5 (Thinking)

74.0%

GPT-5.3 Codex

74.0%

Gemini 3.1 Pro Preview

73.0%

Claude Opus 4.6 (Thinking)

71.0%

Claude Haiku 4.5 (Thinking)

70.0%

OpenAI o3 (Medium Effort)

69.0%

#10

OpenAI o3 (High Effort)

69.0%

#11

MiniMax M2.7

69.0%

#12

GPT-5 Mini (Thinking)

68.0%

#13

Grok 4 (Thinking)

68.0%

#14

Grok 4

68.0%

#15

Qwen 3 (Thinking)

67.0%

#16

GPT-5.1 Codex Max

67.0%

#17

Claude 4.1 Opus (Thinking)

66.0%

#18

MiniMax M2.5

66.0%

#19

Gemini 2.5 Pro (Thinking)

66.0%

#20

Claude Sonnet 4.5 (Thinking)

66.0%

#21

Gemini 2.5 Pro

66.0%

#22

DeepSeek V3.2 (Thinking)

65.0%

#23

Claude 4.0 Sonnet (Thinking)

65.0%

#24

Gemini 3.1 Flash Lite Preview

65.0%

#25

Claude Opus 4.5

65.0%

#26

Gemini 2.5 Flash (Thinking)

62.0%

#27

Claude 3.7 Sonnet (Thinking)

61.0%

#28

GPT-4.1

61.0%

#29

Kimi K2.5

59.0%

#30

OpenAI o1

59.0%

#31

Grok 4.20 (Reasoning)

59.0%

#32

MiniMax M2.1

59.0%

#33

Qwen 3 Max (Thinking)

58.0%

#34

Claude Sonnet 4.6

58.0%

#35

Claude Opus 4.6

58.0%

#36

Grok 3

55.0%

#37

DeepSeek R1

55.0%

#38

OpenAI o4 Mini (Medium Effort)

55.0%

#39

OpenAI o4 Mini (High Effort)

55.0%

#40

Claude Sonnet 4.5

51.0%

#41

Kimi K2

51.0%

#42

GPT OSS 120B

51.0%

#43

Grok 3 Mini

50.0%

#44

Gemini 3.0 Flash

48.0%

#45

Claude 3.7 Sonnet

48.0%

#46

GPT-5.4

47.0%

#47

Gemini 2.5 Flash

46.0%

#48

Llama 4 Maverick 17B

46.0%

#49

Claude 4.0 Sonnet

44.0%

#50

Claude Haiku 4.5

44.0%

#51

GPT-5 Nano (Thinking)

42.0%

#52

DeepSeek V3 (Mar 2025)

41.0%

#53

Qwen 3 Max Preview

40.0%

#54

DeepSeek V3.2

39.0%

#55

OpenAI o3 Mini (High Effort)

39.0%

#56

GPT-5.2

38.0%

#57

GLM-5

37.0%

#58

GPT-5 Mini

36.0%

#59

Claude 4.0 Opus

36.0%

#60

GLM-4.7

36.0%

#61

Mistral Large 3

35.0%

#62

Claude 4.0 Opus (Thinking)

34.0%

#63

Qwen 3

31.0%

#64

MiMo V2 Flash

31.0%

#65

Devstral 2

30.0%

#66

GPT-5.4 Mini

30.0%

#67

DeepSeek V3

29.0%

#68

Gemini 2.0 Flash

28.0%

#69

GPT-5.4 Nano

25.0%

#70

Devstral Small 2

24.0%

#71

Llama 3.1 405B

24.0%

#72

Claude 3.5 Haiku

23.0%

#73

Mistral Medium 3.1

20.0%

#74

GPT-5 Nano

20.0%

#75

Cohere Command A

18.0%

#76

Grok 4.20

18.0%

#77

Llama 3.3 70B

15.0%

#78

Mistral Large 2

5.0%

#79

Magistral Medium 3.1

0.0%

#80

Phi-4

0.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

AA-LCR

Model Performance