Models Challenges Benchmarks About Submit Challenge

openai

Openai

9 models tracked

Average resilience

71%

Tests Survived

886

Tests Failed

355

Toughest Breakers

10-Step Instructions

Instruction Following

Pass rate (provider)

Contradictory Premises

Logic Reasoning

Pass rate (provider)

Car Wash Dilemma

Logic Reasoning

Pass rate (provider)

Models

OpenAI: GPT-5.2

openai

OpenAI: o4 Mini

openai

OpenAI: GPT-5

openai

OpenAI: GPT-5 Codex

openai

OpenAI: GPT-5.1-Codex

openai

OpenAI: gpt-oss-120b

openai

OpenAI: GPT-5 Chat

openai

OpenAI: GPT-5.1

openai

OpenAI: GPT-5.1 Chat

openai