{"benchmarks":[{"version":"V18.5","date":"2026-04-10","task":"Ideology classification (10-class) on long-form articles","primary_metric":"classification_accuracy","models_tested":3,"articles":50,"ideology_classes":10,"temperature":0,"headline":"90%+ target achieved on primary and fallback models","subhead":"V18.5 prompt, three production-candidate models, zero parse errors","full_report_html":"/v18-5-benchmark.html","status":"published","models":[{"model":"xiaomi/mimo-v2-flash","accuracy_pct":92,"cost_per_article_usd":0.02,"parse_errors":0,"tier":"primary","notes":"Best value at 92%"},{"model":"qwen/qwen-2.5-72b-instruct","accuracy_pct":90,"cost_per_article_usd":0.033,"parse_errors":0,"tier":"fallback"},{"model":"anthropic/claude-sonnet-4.5","accuracy_pct":88,"parse_errors":0,"tier":"reference","notes":"Reference-grade comparison"}]},{"version":"V18.4","date":"2026-04-10","task":"Ideology classification (10-class) on long-form articles","primary_metric":"classification_accuracy","models_tested":8,"articles":50,"ideology_classes":10,"temperature":0,"headline":"mimo-v2-flash leads at 86% — best value","subhead":"V18.4 prompt, 8 candidate models head-to-head","full_report_html":"/v18-4-benchmark.html","status":"published","models":[{"model":"xiaomi/mimo-v2-flash","accuracy_pct":86,"tier":"primary","notes":"Best value across the candidate set"}]},{"version":"V18.3","date":"2026-04-10","task":"Ideology classification (10-class) on long-form articles","primary_metric":"classification_accuracy","models_tested":9,"articles":50,"ideology_classes":10,"temperature":0,"headline":"3 models hit 90%+","subhead":"V18.3 prompt, 9 candidate models, frontier average 90.0%","full_report_html":"/test-results.html","status":"published","models":[]}],"product":{"name":"Rhetoric Audit","framework":"FME (Forensic Media Evaluation)","url":"https://www.rhetoricaudit.com","methodology":"https://www.rhetoricaudit.com/methodology","test_results_page":"https://www.rhetoricaudit.com/test-results"},"license":"CC-BY-4.0","license_url":"https://creativecommons.org/licenses/by/4.0/","citation":"Rhetoric Audit FME Benchmark Suite. https://www.rhetoricaudit.com/test-results"}