Benchmark Details - Model Trust Scores

IFBench

A benchmark to evaluate precise instruction following generalization on 58 new, diverse, and challenging verifiable out-of-domain constraints. IFBench tests the ability of language models to follow human instructions precisely, particularly output constraints like 'only answer with yes or no' or 'mention the word abrakadabra at least 3 times'.

Source:

Model Performance

Grok 4.20 (Reasoning)

83.0%

GPT-5.2 Codex

78.0%

Gemini 3.1 Flash Lite Preview

77.0%

Gemini 3.1 Pro Preview

77.0%

MiniMax M2.7

76.0%

GPT-5 Mini (Thinking)

75.0%

GPT-5.3 Codex

75.0%

GPT-5

73.0%

GPT-5 (Thinking)

73.0%

#10

MiniMax M2.5

72.0%

#11

OpenAI o3 (High Effort)

71.0%

#12

OpenAI o3 (Medium Effort)

71.0%

#13

MiniMax M2.1

70.0%

#14

GPT-5.1 Codex Max

70.0%

#15

OpenAI o1

70.0%

#16

GPT OSS 120B

69.0%

#17

OpenAI o4 Mini (High Effort)

69.0%

#18

OpenAI o4 Mini (Medium Effort)

69.0%

#19

GPT-5 Nano (Thinking)

68.0%

#20

OpenAI o3 Mini (High Effort)

67.0%

#21

DeepSeek V3.2 (Thinking)

61.0%

#22

Claude Opus 4.5 (Thinking)

58.0%

#23

Claude Sonnet 4.5 (Thinking)

57.0%

#24

Gemini 3.0 Flash

55.0%

#25

GLM-4.7

55.0%

#26

Claude 4.1 Opus (Thinking)

55.0%

#27

Claude 4.0 Sonnet (Thinking)

55.0%

#28

GLM-5

55.0%

#29

Grok 4

54.0%

#30

Claude 4.0 Opus (Thinking)

54.0%

#31

Qwen 3 Max (Thinking)

54.0%

#32

Grok 4 (Thinking)

54.0%

#33

Claude Haiku 4.5 (Thinking)

54.0%

#34

Claude Opus 4.6 (Thinking)

53.0%

#35

Qwen 3 (Thinking)

51.0%

#36

Gemini 2.5 Flash (Thinking)

50.0%

#37

Gemini 2.5 Pro

49.0%

#38

DeepSeek V3.2

49.0%

#39

Gemini 2.5 Pro (Thinking)

49.0%

#40

Qwen 3 Max Preview

48.0%

#41

Grok 4.20

48.0%

#42

GPT-5.4

48.0%

#43

Claude 3.7 Sonnet (Thinking)

48.0%

#44

GPT-5.2

47.0%

#45

Grok 3

47.0%

#46

Llama 3.3 70B

47.0%

#47

GPT-5 Mini

46.0%

#48

Grok 3 Mini

46.0%

#49

Qwen 3

46.0%

#50

Claude Opus 4.6

45.0%

#51

Claude 4.0 Sonnet

45.0%

#52

Claude 3.7 Sonnet

44.0%

#53

Kimi K2.5

44.0%

#54

Claude 4.0 Opus

43.0%

#55

Claude 3.5 Haiku

43.0%

#56

Claude Opus 4.5

43.0%

#57

Claude Sonnet 4.5

43.0%

#58

GPT-4.1

43.0%

#59

Llama 4 Maverick 17B

43.0%

#60

Kimi K2

42.0%

#61

Claude Haiku 4.5

42.0%

#62

Claude Sonnet 4.6

41.0%

#63

DeepSeek V3 (Mar 2025)

41.0%

#64

DeepSeek R1

40.0%

#65

Gemini 2.0 Flash

40.0%

#66

MiMo V2 Flash

40.0%

#67

Mistral Medium 3.1

40.0%

#68

Gemini 2.5 Flash

39.0%

#69

Llama 3.1 405B

39.0%

#70

GPT-5.4 Mini

39.0%

#71

Devstral 2

38.0%

#72

Cohere Command A

37.0%

#73

Mistral Large 3

36.0%

#74

DeepSeek V3

35.0%

#75

GPT-5 Nano

33.0%

#76

GPT-5.4 Nano

33.0%

#77

GPT-4o Mini

31.0%

#78

Devstral Small 2

31.0%

#79

Mistral Large 2

31.0%

#80

Magistral Medium 3.1

25.0%

#81

Phi-4

24.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

IFBench

Model Performance