Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

🔍

Capability Benchmarks

AA-LCR

AIME

ARC-AGI

CaseLaw

Chatbot Arena (Win Rate)

Chatbot Arena AAII

Chatbot Arena Coding

Chatbot Arena Vision

ContractLaw

CorpFin

FinanceAgent

GPQA

HumanEval

Humanity's Last Exam

IFBench

IOI

LegalBench

LiveBench (Agentic Coding)

LiveBench (Average)

LiveBench (Coding)

LiveBench (Data Analysis)

LiveBench (Instruction Following)

LiveBench (Language)

LiveBench (Math)

LiveBench (Reasoning)

LiveCodeBench

MGSM

MMLU Pro

MMMU

Math500

MortgageTax

SAGE

SWE-bench

SciCode

SimpleBench

TaxEval

Terminal-Bench Hard

Vals Index

Vals Multimodal Index

Vibe Code Bench

τ²-Bench Telecom

Safety Benchmarks

AIR-Bench-AcademicDishonesty

AIR-Bench-AdultContent

AIR-Bench-AdviceInHeavilyRegulatedIndustries

AIR-Bench-AutomatedDecisionmaking

AIR-Bench-AutonomousUnsafeOperations

AIR-Bench-Availability

AIR-Bench-CelebratingSuffering

AIR-Bench-ChildSexualAbuse

AIR-Bench-Confidentiality

AIR-Bench-DepictingViolence

AIR-Bench-DeterringDemocraticParticipation

AIR-Bench-DiscriminationprotectedCharacteristics

AIR-Bench-DisempoweringWorkers

AIR-Bench-DisruptingSocialOrder

AIR-Bench-EndangermentHarmOrLossOfLife

AIR-Bench-Erotic

AIR-Bench-Fraud

AIR-Bench-FraudulentSchemes

AIR-Bench-Harassment

AIR-Bench-HateSpeechIncitingViolence

AIR-Bench-HighRiskFinancialActivities

AIR-Bench-IllegalRegulatedSubstances

AIR-Bench-IllegalServicesExploitation

AIR-Bench-InfluencingPolitics

AIR-Bench-Integrity

AIR-Bench-MilitaryAndWarfare

AIR-Bench-Misdisinformation

AIR-Bench-Misrepresentation

AIR-Bench-Monetized

AIR-Bench-NonconsensualNudity

AIR-Bench-OffensiveLanguage

AIR-Bench-OtherIllegalunlawfulActivity

AIR-Bench-PerpetuatingHarmfulStereotypes

AIR-Bench-PoliticalPersuasion

AIR-Bench-SowingDivision

AIR-Bench-SpecificTypesOfRights

AIR-Bench-SuicidalAndNonsuicidalSelfinjury

AIR-Bench-SupportingMaliciousOperations

AIR-Bench-TypesOfDefamation

AIR-Bench-Unauthorizedprivacyviolationssensitivedata

AIR-Bench-UnfairMarketPractices

AIR-Bench-ViolentActs

AIR-Bench-WeaponUsageDevelopment

Capability & Safety Benchmarks

MedQA

Speed & Latency Metrics

Median Tokens/s

Cost & Pricing Metrics

Blended Price (USD/1M Tokens)

MMLU Pro

An exact match accuracy metric on an enhanced version of the MMLU dataset, featuring more challenging, reasoning-focused questions with increased answer choices.

Source:

Model Performance

Gemini 3.1 Pro Preview

89.0%

Claude Opus 4.6

88.3%

Claude Opus 4.6 (Thinking)

87.9%

Gemini 3.0 Flash

87.3%

GPT-5.4

87.1%

Claude 4.1 Opus (Thinking)

86.6%

Claude Sonnet 4.5 (Thinking)

86.0%

Claude Sonnet 4.6

85.9%

Claude 4.0 Opus (Thinking)

85.9%

#10

Kimi K2.5

85.7%

#11

GLM-5

85.6%

#12

GPT-5

85.0%

#13

GPT-5 (Thinking)

85.0%

#14

Gemini 2.5 Pro (Jun 2025)

84.7%

#15

Claude 4.0 Opus

84.6%

#16

Claude Sonnet 4.5

84.4%

#17

Claude 4.1 Opus

84.2%

#18

GLM-4.7

84.0%

#19

OpenAI o3 (High Effort)

84.0%

#20

OpenAI o3 (Medium Effort)

84.0%

#21

Grok 4 (Thinking)

83.7%

#22

Grok 4

83.7%

#23

DeepSeek V3.2 (Thinking)

83.2%

#24

GPT-5.4 Mini

82.8%

#25

Gemini 2.5 Pro (Thinking)

82.3%

#26

Gemini 2.5 Pro

82.3%

#27

Claude 4.0 Sonnet (Thinking)

82.0%

#28

Qwen 3 Max (Thinking)

81.7%

#29

Qwen 3 Max Preview

81.7%

#30

OpenAI o1

81.7%

#31

Gemini 2.5 Flash

81.3%

#32

DeepSeek V3.2

81.2%

#33

Claude 3.7 Sonnet (Thinking)

80.8%

#34

GPT-5 Mini

80.6%

#35

Llama 3.1 405B

80.6%

#36

GPT-5 Mini (Thinking)

80.6%

#37

Kimi K2

80.4%

#38

Grok 3 Mini

79.3%

#39

GPT-4.5

78.9%

#40

Mistral Large 3

78.9%

#41

Claude 3.7 Sonnet

78.6%

#42

OpenAI o4 Mini (Medium Effort)

78.4%

#43

OpenAI o4 Mini (High Effort)

78.4%

#44

GPT-4.1

78.3%

#45

Gemini 2.0 Pro

78.3%

#46

Qwen 3

78.2%

#47

Qwen 3 (Thinking)

78.2%

#48

Claude Haiku 4.5

77.8%

#49

Grok 3

77.7%

#50

Grok 3 (Thinking)

77.7%

#51

Gemini 2.0 Flash Thinking (Jan 2025)

77.6%

#52

Gemini 2.0 Flash (Thinking)

77.6%

#53

Claude 4.0 Sonnet

77.1%

#54

Llama 4 Maverick 17B

77.1%

#55

GPT OSS 120B

76.8%

#56

DeepSeek V3 (Mar 2025)

76.6%

#57

Claude Haiku 4.5 (Thinking)

76.4%

#58

OpenAI o3 Mini (Medium Effort)

76.3%

#59

OpenAI o3 Mini (High Effort)

76.3%

#60

Gemini 3.1 Flash Lite Preview

76.3%

#61

Claude 3.5 Sonnet

76.0%

#62

GPT-5 Nano

75.4%

#63

GPT-5 Nano (Thinking)

75.4%

#64

Gemini 2.0 Flash

74.9%

#65

GPT-5.4 Nano

74.6%

#66

Gemini 1.5 Pro

72.6%

#67

GPT-4o

72.0%

#68

Mistral Medium 3.1

71.6%

#69

OpenAI o1 Mini

71.3%

#70

DeepSeek V3

70.9%

#71

Phi-4

68.2%

#72

DeepSeek R1

67.9%

#73

Llama 3.3 70B

66.6%

#74

Mistral Large 2

66.3%

#75

Claude 3 Opus

66.2%

#76

Claude Opus 4.5

64.4%

#77

Cohere Command A

61.3%

#78

Claude 3.5 Haiku

60.1%

#79

GPT-4o Mini

58.6%

#80

Grok 4.20

55.6%

#81

Claude 3 Sonnet

53.2%

#82

Claude Opus 4.5 (Thinking)

45.2%

#83

GPT-5.2

43.8%

#84

Grok 4.20 (Reasoning)

43.6%

#85

GPT-3.5 Turbo

40.2%

#86

Cohere Command R+

37.7%

#87

Llama 2 70B

34.1%

#88

Llama 2 13B

34.0%