Benchmark Details - Model Trust Scores

LegalBench

A comprehensive legal reasoning benchmark that evaluates models across six fundamental categories of legal analysis: issue-spotting, rule-recall, rule-conclusion, rule-application, interpretation, and rhetorical understanding. This crowd-sourced collection of legal reasoning tasks provides a thorough assessment of a model's ability to handle complex legal reasoning scenarios, from identifying relevant legal principles to analyzing their application and understanding legal argumentation.

Source:

Model Performance

Gemini 3.1 Pro Preview

87.0%

Gemini 3.0 Flash

86.9%

GPT-5 (Thinking)

86.0%

GPT-5

86.0%

Claude Opus 4.6 (Thinking)

85.3%

Claude Sonnet 4.5 (Thinking)

84.1%

Gemini 2.5 Pro

83.6%

Gemini 2.5 Pro (Thinking)

83.6%

Claude 4.1 Opus

83.5%

#10

Grok 4

83.4%

#11

Grok 4 (Thinking)

83.4%

#12

Claude Opus 4.5 (Thinking)

83.3%

#13

Gemini 2.5 Flash

82.8%

#14

Claude Opus 4.5

82.8%

#15

OpenAI o3 (High Effort)

82.5%

#16

OpenAI o3 (Medium Effort)

82.5%

#17

Claude Sonnet 4.6

82.1%

#18

Grok 3

82.0%

#19

Grok 3 Mini

82.0%

#20

Grok 3 (Thinking)

82.0%

#21

GPT-4.1

81.9%

#22

Gemini 2.5 Flash (Thinking)

81.8%

#23

Claude 4.0 Opus

81.7%

#24

GPT-5 Mini (Thinking)

81.7%

#25

GPT-5 Mini

81.7%

#26

Claude 4.0 Sonnet

81.5%

#27

GPT-5.2

81.4%

#28

Claude 4.0 Sonnet (Thinking)

81.3%

#29

Claude Haiku 4.5 (Thinking)

81.2%

#30

Grok 4.20 (Reasoning)

81.2%

#31

Kimi K2

80.5%

#32

Qwen 3 Max Preview

80.3%

#33

Qwen 3 Max (Thinking)

80.3%

#34

DeepSeek V3

80.1%

#35

DeepSeek V3 (Mar 2025)

79.9%

#36

Gemini 2.0 Flash

79.7%

#37

Claude 3.7 Sonnet (Thinking)

79.3%

#38

Qwen 3 (Thinking)

79.2%

#39

Qwen 3

79.2%

#40

Grok 4.20

79.1%

#41

Gemini 3.1 Flash Lite Preview

79.0%

#42

OpenAI o4 Mini (Medium Effort)

79.0%

#43

Llama 3.1 405B

79.0%

#44

OpenAI o4 Mini (High Effort)

79.0%

#45

Claude 3.5 Sonnet

78.8%

#46

OpenAI o1 Mini

78.7%

#47

Cohere Command A

78.7%

#48

Claude 3.7 Sonnet

78.1%

#49

Llama 3.3 70B

78.0%

#50

GPT-5.4 Nano

77.9%

#51

OpenAI o1

77.6%

#52

Claude 3 Opus

77.5%

#53

Llama 4 Maverick 17B

77.2%

#54

GPT-4o Mini

76.2%

#55

DeepSeek V3.2 (Thinking)

76.1%

#56

GPT OSS 120B

75.9%

#57

Claude 3.5 Haiku

73.0%

#58

Claude 3 Sonnet

72.3%

#59

Gemini 1.5 Pro

71.6%

#60

OpenAI o3 Mini (Medium Effort)

70.9%

#61

OpenAI o3 Mini (High Effort)

70.9%

#62

Cohere Command R+

70.5%

#63

DeepSeek R1

69.9%

#64

DeepSeek V3.2

66.0%

#65

GPT-3.5 Turbo

64.8%

#66

Mistral Medium 3.1

61.3%

#67

Llama 2 70B

59.4%

#68

Llama 2 13B

51.6%

#69

GPT-5 Nano

49.4%

#70

GPT-5 Nano (Thinking)

49.4%

#71

Llama 2 7B

49.3%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

LegalBench

Model Performance