Model Explorer

Explore benchmark performance of various AI models

Models

🔍

Claude-3-Opus

Claude-3.5-Haiku

Claude-3.5-Sonnet-1022

Claude-3.7-Sonnet

Claude-3.7-Sonnet-Thinking

Claude-4.0-Opus

Claude-4.0-Opus-Thinking

Claude-4.0-Sonnet

Claude-4.0-Sonnet-Thinking

Claude-4.1-Opus-Thinking

Cohere-Command-A

Cohere-Command-R-Plus

DeepSeek-R1

DeepSeek-V3-0324

GPT-3.5-Turbo

GPT-4-mini

GPT-4.1

GPT-4o-0513

GPT-5

GPT-5-Thinking

GPT-5-mini

GPT-5-mini-Thinking

GPT-5-nano

GPT-5-nano-Thinking

GPT-OSS-120B

Gemini-2.0-Flash

Gemini-2.0-Pro-0121

Gemini-2.5-Flash

Gemini-2.5-Flash-Thinking

Gemini-2.5-Pro-0325

Gemini-2.5-Pro-0605

Gemini-2.5-Pro-Thinking

Grok-3-Beta

Grok-3-Mini-Beta

Grok-4

Grok-4-Thinking

Kimi-K2-Instruct

Llama-2-7B

Llama-3.1-405B

Llama-3.3-70B

Llama-4-Maverick-17B

Magistral-Medium-3.1

Mistral-Large-2

Mistral-Medium-3.1

OpenAI-O1-1217

OpenAI-O1-mini

OpenAI-O3-high

OpenAI-O3-medium

OpenAI-O3-mini-high

OpenAI-O3-mini-medium

OpenAI-O4-mini-high

OpenAI-O4-mini-medium

Phi-4

Qwen-3

Qwen-3-Thinking

Claude-4.0-Sonnet-Thinking

Anthropic's Claude 4.0 Sonnet model with thinking capabilities

Balanced Benchmark Score: 71.4%

⚡ Speed: 47.9 tokens/second

💰 Cost: $6.00 per 1M tokens

Performance by Benchmark

Capability Benchmarks

Safety Benchmarks

Capability & Safety Benchmarks

Capability Benchmarks

AA-LCR

ⓘ

65.0%

AIME

ⓘ

76.3%

CaseLaw

ⓘ

85.3%

Chatbot Arena (Win Rate)

ⓘ

78.7%

Chatbot Arena Coding

ⓘ

87.4%

Chatbot Arena Vision

ⓘ

62.4%

ContractLaw

ⓘ

66.0%

CorpFin

ⓘ

67.3%

FinanceAgent

ⓘ

44.5%

GPQA

ⓘ

66.0%

Humanity's Last Exam

ⓘ

10.0%

IFBench

ⓘ

55.0%

IOI

ⓘ

4.6%

LegalBench

ⓘ

81.3%

LiveBench (Agentic Coding)

ⓘ

30.0%

LiveBench (Average)

ⓘ

72.1%

LiveBench (Coding)

ⓘ

73.6%

LiveBench (Data Analysis)

ⓘ

69.8%

LiveBench (Instruction Following)

ⓘ

80.4%

LiveBench (Language)

ⓘ

70.2%

LiveBench (Math)

ⓘ

85.2%

LiveBench (Reasoning)

ⓘ

95.2%

LiveCodeBench

ⓘ

62.4%

MGSM

ⓘ

90.9%

MMLU Pro

ⓘ

82.0%

MMMU

ⓘ

74.9%

Math500

ⓘ

93.8%

MortgageTax

ⓘ

62.5%

SciCode

ⓘ

40.0%

SimpleBench

ⓘ

45.5%

TaxEval

ⓘ

75.9%

Terminal-Bench Hard

ⓘ

30.0%

τ²-Bench Telecom

ⓘ

65.0%

Safety Benchmarks

AIR-Bench-AcademicDishonesty

ⓘ

96.7%

AIR-Bench-AdultContent

ⓘ

86.2%

AIR-Bench-AdviceInHeavilyRegulatedIndustries

ⓘ

13.3%

AIR-Bench-AutomatedDecisionmaking

ⓘ

73.0%

AIR-Bench-AutonomousUnsafeOperations

ⓘ

67.0%

AIR-Bench-Availability

ⓘ

94.4%

AIR-Bench-CelebratingSuffering

ⓘ

84.8%

AIR-Bench-ChildSexualAbuse

ⓘ

93.3%

AIR-Bench-Confidentiality

ⓘ

0.9%

AIR-Bench-DepictingViolence

ⓘ

72.7%

AIR-Bench-DeterringDemocraticParticipation

ⓘ

94.2%

AIR-Bench-DiscriminationprotectedCharacteristics

ⓘ

88.2%

AIR-Bench-DisempoweringWorkers

ⓘ

100.0%

AIR-Bench-DisruptingSocialOrder

ⓘ

98.1%

AIR-Bench-EndangermentHarmOrLossOfLife

ⓘ

86.7%

AIR-Bench-Erotic

ⓘ

91.7%

AIR-Bench-Fraud

ⓘ

92.0%

AIR-Bench-FraudulentSchemes

ⓘ

100.0%

AIR-Bench-Harassment

ⓘ

91.9%

AIR-Bench-HateSpeechIncitingViolence

ⓘ

99.9%

AIR-Bench-HighRiskFinancialActivities

ⓘ

96.7%

AIR-Bench-IllegalRegulatedSubstances

ⓘ

100.0%

AIR-Bench-IllegalServicesExploitation

ⓘ

95.6%

AIR-Bench-InfluencingPolitics

ⓘ

100.0%

AIR-Bench-Integrity

ⓘ

90.7%

AIR-Bench-MilitaryAndWarfare

ⓘ

83.3%

AIR-Bench-Misdisinformation

ⓘ

86.7%

AIR-Bench-Misrepresentation

ⓘ

90.0%

AIR-Bench-Monetized

ⓘ

56.7%

AIR-Bench-NonconsensualNudity

ⓘ

93.3%

AIR-Bench-OffensiveLanguage

ⓘ

88.1%

AIR-Bench-OtherIllegalunlawfulActivity

ⓘ

98.3%

AIR-Bench-PerpetuatingHarmfulStereotypes

ⓘ

92.1%

AIR-Bench-PoliticalPersuasion

ⓘ

67.1%

AIR-Bench-SowingDivision

ⓘ

96.7%

AIR-Bench-SpecificTypesOfRights

ⓘ

100.0%

AIR-Bench-SuicidalAndNonsuicidalSelfinjury

ⓘ

97.8%

AIR-Bench-SupportingMaliciousOperations

ⓘ

95.6%

AIR-Bench-TypesOfDefamation

ⓘ

99.1%

AIR-Bench-Unauthorizedprivacyviolationssensitivedata

ⓘ

90.8%

AIR-Bench-UnfairMarketPractices

ⓘ

93.3%

AIR-Bench-ViolentActs

ⓘ

94.2%

AIR-Bench-WeaponUsageDevelopment

ⓘ

78.3%

Capability & Safety Benchmarks

MedQA

ⓘ

92.7%