Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

🔍

Capability Benchmarks

AA-LCR

AIME

Blended Price (USD/1M Tokens)

CaseLaw

Chatbot Arena (Win Rate)

Chatbot Arena Coding

Chatbot Arena Vision

ContractLaw

CorpFin

FinanceAgent

GPQA

HumanEval

Humanity's Last Exam

IFBench

IOI

LegalBench

LiveBench (Agentic Coding)

LiveBench (Average)

LiveBench (Coding)

LiveBench (Data Analysis)

LiveBench (Instruction Following)

LiveBench (Language)

LiveBench (Math)

LiveBench (Reasoning)

LiveCodeBench

MGSM

MMLU Pro

MMMU

Math500

Median Tokens/s

MortgageTax

SWE-bench

SciCode

SimpleBench

TaxEval

Terminal-Bench Hard

τ²-Bench Telecom

Safety Benchmarks

AIR-Bench-AcademicDishonesty

AIR-Bench-AdultContent

AIR-Bench-AdviceInHeavilyRegulatedIndustries

AIR-Bench-AutomatedDecisionmaking

AIR-Bench-AutonomousUnsafeOperations

AIR-Bench-Availability

AIR-Bench-CelebratingSuffering

AIR-Bench-ChildSexualAbuse

AIR-Bench-Confidentiality

AIR-Bench-DepictingViolence

AIR-Bench-DeterringDemocraticParticipation

AIR-Bench-DiscriminationprotectedCharacteristics

AIR-Bench-DisempoweringWorkers

AIR-Bench-DisruptingSocialOrder

AIR-Bench-EndangermentHarmOrLossOfLife

AIR-Bench-Erotic

AIR-Bench-Fraud

AIR-Bench-FraudulentSchemes

AIR-Bench-Harassment

AIR-Bench-HateSpeechIncitingViolence

AIR-Bench-HighRiskFinancialActivities

AIR-Bench-IllegalRegulatedSubstances

AIR-Bench-IllegalServicesExploitation

AIR-Bench-InfluencingPolitics

AIR-Bench-Integrity

AIR-Bench-MilitaryAndWarfare

AIR-Bench-Misdisinformation

AIR-Bench-Misrepresentation

AIR-Bench-Monetized

AIR-Bench-NonconsensualNudity

AIR-Bench-OffensiveLanguage

AIR-Bench-OtherIllegalunlawfulActivity

AIR-Bench-PerpetuatingHarmfulStereotypes

AIR-Bench-PoliticalPersuasion

AIR-Bench-SowingDivision

AIR-Bench-SpecificTypesOfRights

AIR-Bench-SuicidalAndNonsuicidalSelfinjury

AIR-Bench-SupportingMaliciousOperations

AIR-Bench-TypesOfDefamation

AIR-Bench-Unauthorizedprivacyviolationssensitivedata

AIR-Bench-UnfairMarketPractices

AIR-Bench-ViolentActs

AIR-Bench-WeaponUsageDevelopment

Capability & Safety Benchmarks

MedQA

AIR-Bench-OffensiveLanguage

A measure of model refusal for Hate/Toxicity (Level-1: Content Safety Risks, Level-2: Hate/Toxicity) related to offensive language. Includes Level-4 risks like vulgarity and derogatory comments.

Source:

Model Performance

#1

Claude-3.5-Sonnet-1022

97.6%

#2

Claude-3.7-Sonnet

90.5%

#3

Claude-3.7-Sonnet-Thinking

90.5%

#4

Granite-3.0

90.5%

#5

Claude-4.0-Sonnet-Thinking

88.1%

#6

Claude-4.0-Sonnet

88.1%

#7

Claude-3-Sonnet

86.9%

#8

Claude-4.0-Opus

83.3%

#9

Claude-4.0-Opus-Thinking

83.3%

#10

Claude-3-Opus

81.0%

#11

GPT-OSS-120B

79.8%

#12

Gemini-2.0-Pro-0121

76.2%

#13

Llama-4-Maverick-17B

73.8%

#14

Gemini-2.5-Pro-0325

69.0%

#15

Gemini-2.5-Pro-Thinking

69.0%

#16

GPT-3.5-Turbo

67.9%

#17

Gemini-2.0-Flash

66.7%

#18

GPT-4.5

65.5%

#19

DeepSeek-R1

63.1%

#20

Gemini-2.5-Flash

63.1%

#21

GPT-4o-0513

59.5%

#22

Gemini-1.5-Pro

58.3%

#23

Qwen-3

57.1%

#24

Kimi-K2-Instruct

57.1%

#25

Qwen-3-Thinking

57.1%

#26

OpenAI-O3-mini-medium

52.4%

#27

GPT-4.1

50.0%

#28

Grok-3-Beta

48.8%

#29

OpenAI-O1-mini

47.6%

#30

OpenAI-O3-medium

45.2%

#31

DeepSeek-V3

45.2%

#32

GPT-4-mini

45.2%

#33

Grok-3-Mini-Beta

40.5%

#34

Llama-3.1-405B

39.3%

#35

OpenAI-O4-mini-medium

39.3%

#36

OpenAI-O1-1217

36.9%

#37

Mistral-Large-2

29.8%

#38

Cohere-Command-R-Plus

27.4%

#39

Grok-4-Thinking

22.6%

#40

Grok-4

22.6%