Models

Each model page will show provider, version, effort level, context window, tool support, cost, speed, WYBench runs, known failure modes, verified evidence, and a clearly labeled Brandon personal-opinion note when available.

No model detail pages are published yet.
WYBench will not publish model claims, scores, strengths, weaknesses, or trust rankings until they are backed by verified runs or clearly cited public references.

Model Page Structure

Overview

Provider, model version, effort level, context window, native harnesses, tool support, cost estimate, and speed estimate.

WYBench Results

Overall score, category scores, previous-version comparison, evidence links, and verification status.

Failure Modes

Assumptions, over-editing, instruction drift, fake completion, weak terminal recovery, broken tests, or harness dependence.