Model Explorer

Explore benchmark performance of various AI models

Models

🔍

Claude 3 Opus

Claude 3 Sonnet

Claude 3.5 Haiku

Claude 3.5 Sonnet

Claude 3.7 Sonnet

Claude 3.7 Sonnet (Thinking)

Claude 4.0 Opus

Claude 4.0 Opus (Thinking)

Claude 4.0 Sonnet

Claude 4.0 Sonnet (Thinking)

Claude 4.1 Opus

Claude 4.1 Opus (Thinking)

Claude Haiku 4.5

Claude Haiku 4.5 (Thinking)

Claude Opus 4.5

Claude Opus 4.5 (Thinking)

Claude Opus 4.6

Claude Opus 4.6 (Thinking)

Claude Sonnet 4.5

Claude Sonnet 4.5 (Thinking)

Claude Sonnet 4.6

Cohere Command A

Cohere Command R+

DeepSeek R1

DeepSeek V3

DeepSeek V3 (Mar 2025)

DeepSeek V3.2

DeepSeek V3.2 (Thinking)

Devstral 2

Devstral Small 2

GLM-4.7

GLM-5

GPT-3.5 Turbo

GPT-4o Mini

GPT-4.1

GPT-4.5

GPT-4o

GPT-5

GPT-5 (Thinking)

GPT-5 Mini

GPT-5 Mini (Thinking)

GPT-5 Nano

GPT-5 Nano (Thinking)

GPT-5.1 Codex Max

GPT-5.2

GPT-5.2 Codex

GPT-5.3 Codex

GPT-5.4

GPT-5.4 Mini

GPT-5.4 Nano

GPT OSS 120B

Gemini 1.5 Pro

Gemini 2.0 Flash

Gemini 2.0 Flash (Thinking)

Gemini 2.0 Flash Thinking (Jan 2025)

Gemini 2.0 Pro

Gemini 2.5 Flash

Gemini 2.5 Flash (Thinking)

Gemini 2.5 Pro

Gemini 2.5 Pro (Jun 2025)

Gemini 2.5 Pro (Thinking)

Gemini 3.0 Flash

Gemini 3.1 Flash Lite Preview

Gemini 3.1 Pro Preview

Granite 3.0

Grok 3

Grok 3 Mini

Grok 3 (Thinking)

Grok 4

Grok 4 (Thinking)

Grok 4.20

Grok 4.20 (Reasoning)

Kimi K2

Kimi K2.5

Llama 2 13B

Llama 2 70B

Llama 2 7B

Llama 3.1 405B

Llama 3.3 70B

Llama 4 Maverick 17B

Magistral Medium 3.1

MiMo V2 Flash

MiniMax M2.1

MiniMax M2.5

MiniMax M2.7

Mistral Large

Mistral Large 2

Mistral Large 3

Mistral Medium 3.1

OpenAI o1

OpenAI o1 Mini

OpenAI o3 (High Effort)

OpenAI o3 (Medium Effort)

OpenAI o3 Mini (High Effort)

OpenAI o3 Mini (Medium Effort)

OpenAI o4 Mini (High Effort)

OpenAI o4 Mini (Medium Effort)

Phi-4

Qwen 3

Qwen 3 Max Preview

Qwen 3 Max (Thinking)

Qwen 3 (Thinking)

Gemini 2.5 Flash (Thinking)

Google's Gemini 2.5 Flash model with thinking capabilities

Released: 2025-03-15

Balanced Benchmark Score: 48.3%

⚡ Speed: 235.0 tokens/second

💰 Cost: $0.85 per 1M tokens

Performance by Benchmark

Capability Benchmarks

Safety Benchmarks

Capability & Safety Benchmarks

Capability Benchmarks

AA-LCR

ⓘ

62.0%

CaseLaw

ⓘ

82.5%

ContractLaw

ⓘ

60.6%

GPQA

ⓘ

44.8%

HumanEval

ⓘ

96.0%

Humanity's Last Exam

ⓘ

11.0%

IFBench

ⓘ

50.0%

LegalBench

ⓘ

81.8%

LiveBench (Agentic Coding)

ⓘ

23.3%

LiveBench (Average)

ⓘ

53.1%

LiveBench (Coding)

ⓘ

67.5%

LiveBench (Data Analysis)

ⓘ

61.0%

LiveBench (Instruction Following)

ⓘ

27.7%

LiveBench (Language)

ⓘ

65.3%

LiveBench (Math)

ⓘ

75.3%

LiveBench (Reasoning)

ⓘ

51.5%

LiveCodeBench

ⓘ

46.9%

MGSM

ⓘ

90.0%

Math500

ⓘ

91.8%

MortgageTax

ⓘ

69.5%

SciCode

ⓘ

39.0%

TaxEval

ⓘ

74.4%

Terminal-Bench Hard

ⓘ

14.0%

τ²-Bench Telecom

ⓘ

32.0%

Safety Benchmarks

AIR-Bench-AcademicDishonesty

ⓘ

60.0%

AIR-Bench-AdultContent

ⓘ

63.0%

AIR-Bench-AdviceInHeavilyRegulatedIndustries

ⓘ

16.0%

AIR-Bench-AutomatedDecisionmaking

ⓘ

46.7%

AIR-Bench-AutonomousUnsafeOperations

ⓘ

52.4%

AIR-Bench-Availability

ⓘ

75.0%

AIR-Bench-CelebratingSuffering

ⓘ

55.0%

AIR-Bench-ChildSexualAbuse

ⓘ

28.3%

AIR-Bench-Confidentiality

ⓘ

0.6%

AIR-Bench-DepictingViolence

ⓘ

86.7%

AIR-Bench-DeterringDemocraticParticipation

ⓘ

36.2%

AIR-Bench-DiscriminationprotectedCharacteristics

ⓘ

80.0%

AIR-Bench-DisempoweringWorkers

ⓘ

80.0%

AIR-Bench-DisruptingSocialOrder

ⓘ

90.0%

AIR-Bench-EndangermentHarmOrLossOfLife

ⓘ

80.0%

AIR-Bench-Erotic

ⓘ

100.0%

AIR-Bench-Fraud

ⓘ

76.7%

AIR-Bench-FraudulentSchemes

ⓘ

100.0%

AIR-Bench-Harassment

ⓘ

85.0%

AIR-Bench-HateSpeechIncitingViolence

ⓘ

56.5%

AIR-Bench-HighRiskFinancialActivities

ⓘ

60.0%

AIR-Bench-IllegalRegulatedSubstances

ⓘ

65.7%

AIR-Bench-IllegalServicesExploitation

ⓘ

89.3%

AIR-Bench-InfluencingPolitics

ⓘ

95.6%

AIR-Bench-Integrity

ⓘ

76.5%

AIR-Bench-MilitaryAndWarfare

ⓘ

70.0%

AIR-Bench-Misdisinformation

ⓘ

74.2%

AIR-Bench-Misrepresentation

ⓘ

43.3%

AIR-Bench-Monetized

ⓘ

18.3%

AIR-Bench-NonconsensualNudity

ⓘ

46.4%

AIR-Bench-OffensiveLanguage

ⓘ

68.3%

AIR-Bench-OtherIllegalunlawfulActivity

ⓘ

74.0%

AIR-Bench-PerpetuatingHarmfulStereotypes

ⓘ

94.3%

AIR-Bench-PoliticalPersuasion

ⓘ

70.0%

AIR-Bench-SowingDivision

ⓘ

76.7%

AIR-Bench-SpecificTypesOfRights

ⓘ

66.7%

AIR-Bench-SuicidalAndNonsuicidalSelfinjury

ⓘ

53.3%

AIR-Bench-SupportingMaliciousOperations

ⓘ

74.4%

AIR-Bench-TypesOfDefamation

ⓘ

66.7%

AIR-Bench-Unauthorizedprivacyviolationssensitivedata

ⓘ

52.2%

AIR-Bench-UnfairMarketPractices

ⓘ

100.0%

AIR-Bench-ViolentActs

ⓘ

100.0%

AIR-Bench-WeaponUsageDevelopment

ⓘ

24.7%

Capability & Safety Benchmarks

MedQA

ⓘ

91.0%