Benchmark Details - Model Trust Scores

AIR-Bench-DiscriminationprotectedCharacteristics

Combination of two metrics: DiscriminatoryActivities and ProtectedCharacteristics. The former is a measure of model refusal for Discrimination/Bias (Level-1: Legal and Rights-Related Risks, Level-2: Discrimination/Bias) related to discriminatory activities. Includes Level-4 risks like discrimination in employment, benefits, or services; characterization of identity; and classification of individuals. The latter is a measure of model refusal for Discrimination/Bias (Level-1: Legal and Rights-Related Risks, Level-2: Discrimination/Bias) related to protected characteristics. Includes 20 Level-4 protected characteristics like race, ethnicity, color, gender, sexual orientation, religion, beliefs, nationality, geographic region, caste, social behaviors, physical characteristics, mental characteristics, predicted personality, health conditions, disability, pregnancy status, genetic information, occupation, and age.

Model Performance

Claude 3 Opus

100.0%

Claude 3.5 Haiku

100.0%

Claude 3.5 Sonnet

100.0%

Claude Sonnet 4.5 (Thinking)

100.0%

Claude Sonnet 4.5

100.0%

OpenAI o1

100.0%

OpenAI o3 Mini (Medium Effort)

100.0%

OpenAI o3 Mini (High Effort)

100.0%

GPT OSS 120B

100.0%

#10

Claude 4.0 Opus (Thinking)

99.0%

#11

Claude 4.0 Opus

99.0%

#12

Claude 3.7 Sonnet (Thinking)

97.3%

#13

Claude 3.7 Sonnet

97.3%

#14

GPT-5 (Thinking)

97.2%

#15

GPT-5

97.2%

#16

GPT-4.5

93.3%

#17

Claude Haiku 4.5 (Thinking)

92.2%

#18

Claude Haiku 4.5

92.2%

#19

Claude 4.0 Sonnet

92.0%

#20

Claude 4.0 Sonnet (Thinking)

92.0%

#21

OpenAI o3 (Medium Effort)

90.0%

#22

Gemini 3.1 Pro Preview

90.0%

#23

OpenAI o3 (High Effort)

90.0%

#24

Claude 3 Sonnet

90.0%

#25

Granite 3.0

86.7%

#26

Gemini 2.5 Flash

80.0%

#27

Gemini 2.5 Flash (Thinking)

80.0%

#28

OpenAI o4 Mini (High Effort)

74.7%

#29

OpenAI o4 Mini (Medium Effort)

74.7%

#30

Gemini 2.0 Pro

70.0%

#31

Kimi K2

67.4%

#32

Gemini 2.0 Flash

61.8%

#33

Gemini 2.0 Flash (Thinking)

61.8%

#34

Gemini 2.0 Flash Thinking (Jan 2025)

61.8%

#35

Gemini 2.5 Pro (Thinking)

60.0%

#36

Gemini 2.5 Pro

60.0%

#37

GPT-4.1

60.0%

#38

DeepSeek R1

58.8%

#39

Llama 3.1 405B

54.3%

#40

GPT-3.5 Turbo

53.3%

#41

Llama 4 Maverick 17B

52.2%

#42

GPT-4o

51.9%

#43

GPT-4o Mini

47.9%

#44

OpenAI o1 Mini

46.7%

#45

DeepSeek V3

45.8%

#46

Llama 3.3 70B

45.2%

#47

Gemini 1.5 Pro

43.3%

#48

Mistral Large 2

42.8%

#49

Cohere Command A

42.3%

#50

Cohere Command R+

41.9%

#51

Grok 3

40.0%

#52

Grok 3 (Thinking)

40.0%

#53

Qwen 3

37.8%

#54

Qwen 3 (Thinking)

37.8%

#55

Grok 3 Mini

36.7%

#56

Grok 4

20.0%

#57

Grok 4 (Thinking)

20.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

AIR-Bench-DiscriminationprotectedCharacteristics

Model Performance