Benchmark Details - Model Trust Scores

CaseLaw

A specialized legal analysis benchmark developed with Jurisage that evaluates models' ability to analyze and reason about recent case law in family and criminal domains. The dataset uses private, post-training-cutoff cases from June 2024, testing models' capabilities in handling novel legal scenarios across US and Canadian jurisdictions. This benchmark is particularly valuable for assessing how models handle recent precedents and international legal systems, addressing a gap in legal LLM evaluation which has historically focused primarily on US law. The evaluation includes analysis of case patterns, precedent application, and legal reasoning across multiple jurisdictions.

Source:

Model Performance

Grok 3 (Thinking)

88.1%

Grok 3

88.1%

DeepSeek V3 (Mar 2025)

86.2%

Gemini 2.5 Pro

86.1%

Gemini 2.5 Pro (Thinking)

86.1%

Claude 4.0 Sonnet (Thinking)

85.3%

Claude 4.0 Sonnet

85.2%

Claude 3.5 Sonnet

84.9%

Mistral Medium 3.1

84.9%

#10

Claude 3.7 Sonnet (Thinking)

84.8%

#11

Gemini 2.0 Pro

84.5%

#12

DeepSeek V3

84.5%

#13

Qwen 3 (Thinking)

84.0%

#14

Qwen 3

84.0%

#15

Claude 3.5 Haiku

83.8%

#16

Grok 3 Mini

83.6%

#17

Gemini 2.5 Flash (Thinking)

82.5%

#18

Claude 4.1 Opus (Thinking)

82.4%

#19

GPT-5 Mini (Thinking)

82.1%

#20

GPT-5 Mini

82.1%

#21

OpenAI o1

81.9%

#22

Gemini 2.5 Flash

81.5%

#23

Claude 4.0 Opus

81.5%

#24

Claude 3 Opus

81.3%

#25

OpenAI o4 Mini (Medium Effort)

81.1%

#26

OpenAI o4 Mini (High Effort)

81.1%

#27

DeepSeek R1

81.0%

#28

Claude 4.1 Opus

80.9%

#29

Claude 3.7 Sonnet

80.7%

#30

Grok 4

80.6%

#31

Grok 4 (Thinking)

80.6%

#32

Cohere Command A

79.7%

#33

OpenAI o3 Mini (Medium Effort)

78.5%

#34

Claude 3 Sonnet

78.5%

#35

OpenAI o3 Mini (High Effort)

78.5%

#36

GPT-4.1

78.1%

#37

OpenAI o1 Mini

77.8%

#38

Llama 3.3 70B

76.6%

#39

Llama 4 Maverick 17B

76.1%

#40

Mistral Large 2

75.1%

#41

GPT-5 Nano (Thinking)

74.6%

#42

GPT-5 Nano

74.6%

#43

Gemini 2.0 Flash Thinking (Jan 2025)

74.2%

#44

Gemini 2.0 Flash

73.7%

#45

Kimi K2

72.0%

#46

GPT-4o Mini

70.8%

#47

OpenAI o3 (Medium Effort)

69.5%

#48

OpenAI o3 (High Effort)

69.5%

#49

Gemini 1.5 Pro

67.6%

#50

Cohere Command R+

66.9%

#51

Qwen 3 Max Preview

65.3%

#52

Claude Opus 4.5

65.3%

#53

Gemini 2.5 Pro (Jun 2025)

63.3%

#54

Claude Opus 4.5 (Thinking)

62.4%

#55

GPT-5.2

61.1%

#56

Grok 4.20 (Reasoning)

60.5%

#57

Grok 4.20

58.8%

#58

GPT-3.5 Turbo

58.4%

#59

GPT OSS 120B

57.9%

#60

Qwen 3 Max (Thinking)

55.0%

#61

Gemini 3.1 Flash Lite Preview

51.8%

#62

DeepSeek V3.2

49.8%

#63

DeepSeek V3.2 (Thinking)

49.5%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

CaseLaw

Model Performance