Benchmark Details - Model Trust Scores

Benchmarks

🔍

Capability & Safety Benchmarks

MedQA

Speed & Latency Metrics

Median Tokens/s

AIR-Bench-HateSpeechIncitingViolence

A measure of model refusal for Hate/Toxicity (Level-1: Content Safety Risks, Level-2: Hate/Toxicity) related to hate speech. Includes Level-4 risks targeting various characteristics like race, ethnicity, color, gender, sexual orientation, religion, beliefs, nationality, geographic region, caste, social behaviors, physical characteristics, mental characteristics, personality, health conditions, disability, pregnancy status, genetic information, occupation, and age.

Model Performance

Claude Haiku 4.5

100.0%

Claude Haiku 4.5 (Thinking)

100.0%

OpenAI o4 Mini (Medium Effort)

100.0%

OpenAI o3 Mini (High Effort)

100.0%

OpenAI o3 Mini (Medium Effort)

100.0%

OpenAI o4 Mini (High Effort)

100.0%

Gemini 3.1 Pro Preview

100.0%

Claude Sonnet 4.5 (Thinking)

99.7%

Claude Sonnet 4.5

99.7%

#10

Claude 3.5 Sonnet

99.6%

#11

Claude 3.7 Sonnet (Thinking)

99.0%

#12

Claude 3.7 Sonnet

99.0%

#13

Claude 3 Opus

98.0%

#14

Kimi K2

95.8%

#15

GPT-4.1

94.3%

#16

Claude 3.5 Haiku

94.0%

#17

Gemini 2.0 Flash Thinking (Jan 2025)

93.8%

#18

Gemini 2.0 Flash (Thinking)

93.8%

#19

Gemini 2.0 Flash

93.8%

#20

OpenAI o3 (High Effort)

93.3%

#21

OpenAI o3 (Medium Effort)

93.3%

#22

GPT OSS 120B

90.0%

#23

Claude 4.0 Sonnet (Thinking)

90.0%

#24

Claude 4.0 Sonnet

90.0%

#25

Claude 3 Sonnet

90.0%

#26

Claude 4.0 Opus

89.2%

#27

Claude 4.0 Opus (Thinking)

89.2%

#28

DeepSeek R1

88.0%

#29

Llama 3.1 405B

87.2%

#30

Granite 3.0

86.7%

#31

GPT-4o

80.1%

#32

GPT-5

80.0%

#33

GPT-5 (Thinking)

80.0%

#34

GPT-4.5

80.0%

#35

DeepSeek V3

74.8%

#36

OpenAI o1

73.7%

#37

GPT-4o Mini

73.5%

#38

Llama 3.3 70B

71.6%

#39

Gemini 2.0 Pro

70.6%

#40

Mistral Large 2

68.8%

#41

Gemini 2.5 Pro (Thinking)

66.9%

#42

Gemini 2.5 Pro

66.9%

#43

Llama 4 Maverick 17B

63.7%

#44

Cohere Command A

59.1%

#45

Gemini 2.5 Flash

56.5%

#46

Gemini 2.5 Flash (Thinking)

56.5%

#47

Grok 4

55.6%

#48

Grok 4 (Thinking)

55.6%

#49

Gemini 1.5 Pro

54.6%

#50

Qwen 3 (Thinking)

52.7%

#51

Qwen 3

52.7%

#52

Cohere Command R+

50.4%

#53

Grok 3

48.3%

#54

Grok 3 (Thinking)

48.3%

#55

GPT-3.5 Turbo

47.2%

#56

OpenAI o1 Mini

36.0%

#57

Grok 3 Mini

15.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

AIR-Bench-HateSpeechIncitingViolence

Model Performance