Benchmark Details - Model Trust Scores

τ²-Bench Telecom

A dual-control conversational AI benchmark simulating technical support scenarios where both agent and user must coordinate actions to resolve telecom service issues. The benchmark introduces a new paradigm for evaluating conversational AI by simulating both the agent and user to actively modify a shared world state.

Source:

Model Performance

Grok 4.20 (Reasoning)

97.0%

GLM-5

97.0%

Gemini 3.1 Pro Preview

96.0%

MiniMax M2.5

95.0%

GLM-4.7

94.0%

Claude Opus 4.6 (Thinking)

92.0%

GPT-5.2 Codex

92.0%

GPT-5.3 Codex

91.0%

DeepSeek V3.2 (Thinking)

91.0%

#10

Claude Opus 4.5 (Thinking)

90.0%

#11

Grok 3 Mini

90.0%

#12

Claude Opus 4.5

86.0%

#13

GPT-5 (Thinking)

85.0%

#14

Claude Opus 4.6

85.0%

#15

MiniMax M2.7

85.0%

#16

MiniMax M2.1

85.0%

#17

MiMo V2 Flash

84.0%

#18

Qwen 3 Max (Thinking)

84.0%

#19

GPT-5.1 Codex Max

83.0%

#20

Kimi K2.5

81.0%

#21

OpenAI o3 (Medium Effort)

81.0%

#22

OpenAI o3 (High Effort)

81.0%

#23

Claude Sonnet 4.6

80.0%

#24

DeepSeek V3.2

79.0%

#25

Claude Sonnet 4.5 (Thinking)

78.0%

#26

Grok 4

75.0%

#27

Grok 4 (Thinking)

75.0%

#28

Claude 4.0 Opus (Thinking)

73.0%

#29

Claude 4.1 Opus (Thinking)

71.0%

#30

Claude Sonnet 4.5

71.0%

#31

Grok 4.20

70.0%

#32

GPT-5 Mini (Thinking)

68.0%

#33

GPT OSS 120B

66.0%

#34

Claude 4.0 Sonnet (Thinking)

65.0%

#35

OpenAI o1

63.0%

#36

Kimi K2

61.0%

#37

OpenAI o4 Mini (High Effort)

56.0%

#38

OpenAI o4 Mini (Medium Effort)

56.0%

#39

Claude 3.7 Sonnet (Thinking)

55.0%

#40

Claude Haiku 4.5 (Thinking)

55.0%

#41

Gemini 2.5 Pro (Thinking)

54.0%

#42

Qwen 3 (Thinking)

53.0%

#43

Claude 4.0 Sonnet

52.0%

#44

Claude 3.7 Sonnet

50.0%

#45

Grok 3

49.0%

#46

DeepSeek V3 (Mar 2025)

47.0%

#47

GPT-4.1

47.0%

#48

GPT-5.2

47.0%

#49

Gemini 3.0 Flash

43.0%

#50

Mistral Medium 3.1

41.0%

#51

DeepSeek R1

37.0%

#52

GPT-5 Nano (Thinking)

37.0%

#53

GPT-5.4

35.0%

#54

GPT-5.4 Nano

35.0%

#55

Qwen 3

33.0%

#56

Claude Haiku 4.5

33.0%

#57

Qwen 3 Max Preview

33.0%

#58

GPT-5 Mini

32.0%

#59

Gemini 2.5 Flash (Thinking)

32.0%

#60

OpenAI o3 Mini (High Effort)

31.0%

#61

Gemini 3.1 Flash Lite Preview

31.0%

#62

Mistral Large 2

31.0%

#63

Gemini 2.0 Flash

30.0%

#64

OpenAI o3 Mini (Medium Effort)

29.0%

#65

Llama 3.3 70B

27.0%

#66

GPT-5 Nano

26.0%

#67

Claude 3.5 Haiku

25.0%

#68

Devstral 2

25.0%

#69

Mistral Large 3

25.0%

#70

DeepSeek V3

23.0%

#71

Magistral Medium 3.1

23.0%

#72

GPT-5.4 Mini

23.0%

#73

Devstral Small 2

23.0%

#74

Llama 3.1 405B

19.0%

#75

Llama 4 Maverick 17B

18.0%

#76

Cohere Command A

15.0%

#77

Gemini 2.5 Flash

15.0%

#78

Phi-4

0.0%

Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

τ²-Bench Telecom

Model Performance