Benchmark Explorer

Explore how models perform on various benchmarks

Benchmarks

🔍

Capability Benchmarks

AA-LCR

AIME

ARC-AGI

CaseLaw

Chatbot Arena (Win Rate)

Chatbot Arena AAII

Chatbot Arena Coding

Chatbot Arena Vision

ContractLaw

CorpFin

FinanceAgent

GPQA

HumanEval

Humanity's Last Exam

IFBench

IOI

LegalBench

LiveBench (Agentic Coding)

LiveBench (Average)

LiveBench (Coding)

LiveBench (Data Analysis)

LiveBench (Instruction Following)

LiveBench (Language)

LiveBench (Math)

LiveBench (Reasoning)

LiveCodeBench

MGSM

MMLU Pro

MMMU

Math500

MortgageTax

SAGE

SWE-bench

SciCode

SimpleBench

TaxEval

Terminal-Bench Hard

Vals Index

Vals Multimodal Index

Vibe Code Bench

τ²-Bench Telecom

Safety Benchmarks

AIR-Bench-AcademicDishonesty

AIR-Bench-AdultContent

AIR-Bench-AdviceInHeavilyRegulatedIndustries

AIR-Bench-AutomatedDecisionmaking

AIR-Bench-AutonomousUnsafeOperations

AIR-Bench-Availability

AIR-Bench-CelebratingSuffering

AIR-Bench-ChildSexualAbuse

AIR-Bench-Confidentiality

AIR-Bench-DepictingViolence

AIR-Bench-DeterringDemocraticParticipation

AIR-Bench-DiscriminationprotectedCharacteristics

AIR-Bench-DisempoweringWorkers

AIR-Bench-DisruptingSocialOrder

AIR-Bench-EndangermentHarmOrLossOfLife

AIR-Bench-Erotic

AIR-Bench-Fraud

AIR-Bench-FraudulentSchemes

AIR-Bench-Harassment

AIR-Bench-HateSpeechIncitingViolence

AIR-Bench-HighRiskFinancialActivities

AIR-Bench-IllegalRegulatedSubstances

AIR-Bench-IllegalServicesExploitation

AIR-Bench-InfluencingPolitics

AIR-Bench-Integrity

AIR-Bench-MilitaryAndWarfare

AIR-Bench-Misdisinformation

AIR-Bench-Misrepresentation

AIR-Bench-Monetized

AIR-Bench-NonconsensualNudity

AIR-Bench-OffensiveLanguage

AIR-Bench-OtherIllegalunlawfulActivity

AIR-Bench-PerpetuatingHarmfulStereotypes

AIR-Bench-PoliticalPersuasion

AIR-Bench-SowingDivision

AIR-Bench-SpecificTypesOfRights

AIR-Bench-SuicidalAndNonsuicidalSelfinjury

AIR-Bench-SupportingMaliciousOperations

AIR-Bench-TypesOfDefamation

AIR-Bench-Unauthorizedprivacyviolationssensitivedata

AIR-Bench-UnfairMarketPractices

AIR-Bench-ViolentActs

AIR-Bench-WeaponUsageDevelopment

Capability & Safety Benchmarks

MedQA

Speed & Latency Metrics

Median Tokens/s

Cost & Pricing Metrics

Blended Price (USD/1M Tokens)

LiveBench (Coding)

Assesses performance on LiveBench coding tasks from Leetcode and AtCoder, including both code generation and code completion challenges.

Source:

Model Performance

Claude 4.0 Sonnet

80.7%

GPT-5.1 Codex Max

80.7%

Claude Sonnet 4.5 (Thinking)

80.4%

OpenAI o4 Mini (High Effort)

80.0%

Claude Opus 4.5 (Thinking)

79.7%

Claude Sonnet 4.6

79.3%

Claude Opus 4.5

78.5%

Claude Opus 4.6 (Thinking)

78.2%

OpenAI o3 (Medium Effort)

77.9%

#10

Claude 4.0 Sonnet (Thinking)

77.5%

#11

GPT-4o

77.5%

#12

OpenAI o3 (High Effort)

76.7%

#13

Gemini 3.1 Pro Preview

76.5%

#14

GPT-5.2

76.5%

#15

GPT-4.5

76.1%

#16

Claude 4.1 Opus

76.1%

#17

Claude Sonnet 4.5

76.1%

#18

DeepSeek V3.2

75.7%

#19

Gemini 2.5 Pro (Thinking)

75.7%

#20

GPT-5

75.3%

#21

Claude 4.1 Opus (Thinking)

74.7%

#22

Claude 3.7 Sonnet

74.3%

#23

Kimi K2

74.3%

#24

OpenAI o4 Mini (Medium Effort)

74.2%

#25

Claude 3.5 Sonnet

73.9%

#26

Claude 4.0 Opus

73.6%

#27

Claude 4.0 Opus (Thinking)

73.2%

#28

GPT-4.1

73.2%

#29

Claude 3.7 Sonnet (Thinking)

73.2%

#30

GPT-5 Mini

72.9%

#31

Claude Haiku 4.5 (Thinking)

72.8%

#32

Claude Haiku 4.5

72.2%

#33

GPT-5 (Thinking)

72.1%

#34

DeepSeek R1

71.4%

#35

GPT-5 Nano

70.8%

#36

Gemini 2.5 Pro

70.7%

#37

Qwen 3 Max Preview

69.6%

#38

Qwen 3 (Thinking)

69.0%

#39

DeepSeek V3

68.5%

#40

GPT-5 Mini (Thinking)

68.2%

#41

Gemini 2.5 Flash (Thinking)

67.5%

#42

Qwen 3

66.0%

#43

DeepSeek V3.2 (Thinking)

64.6%

#44

Gemini 2.5 Flash

63.5%

#45

Mistral Large

62.9%

#46

GPT-5 Nano (Thinking)

62.4%

#47

Mistral Medium 3.1

61.5%

#48

Phi-4

60.6%

#49

GPT OSS 120B

60.2%

#50

Grok 3 Mini

54.5%

#51

Cohere Command A

54.3%

#52

Llama 4 Maverick 17B

54.2%

#53

Claude 3.5 Haiku

53.2%

#54

Cohere Command R+

27.1%