Бенчмарк 13 LLM на задачах
Qlik Set Analysis.
Верное число ≠ верное выражение.

Независимое исследование: прогнали 13 моделей на 31 задаче Qlik Set Analysis из трёх доменов (Sports, HR, Sales). До 77% решений возвращают верное число — но только 22–34% используют логику, эквивалентную эталонной формуле. Подробности и все таблицы — ниже.

memory MODELS=13

assignment TASKS=31

payments BUDGET=$17.35

domain DOMAINS=Sports·HR·Sales

TL;DR

check_circle Оценено 13 моделей от ведущих провайдеров (OpenAI, Google, Anthropic, Meta, Mistral и др.) на специфической задаче генерации Qlik Set Analysis.
check_circle Применена двухфазная методология: Phase 1 — отбор 13 моделей; Phase 2 — 5 финалистов с тремя уровнями промпта. Каждый ответ оценивали два независимых LLM-судьи: Opus сверяет результат с эталонным KPI, Sonnet проверяет эквивалентность самого выражения эталонной формуле.
warning Выявлен колоссальный разрыв: ~77% решений возвращают верное число, но эквивалентным эталону выражением логика собрана лишь в 22–34% случаев. Лучшая модель — GPT-5: 34% по логической оценке.
check_circle На текущий момент автоматическая генерация без валидации невозможна. Рекомендуется подход «ассистент для человека» с обязательным ревью или Qlik runtime-валидацией. В роли базового ассистента — Claude Sonnet 4.6, для критических задач — GPT-5.

Категория	Модели	Обоснование
Топ-премиум	Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro	Флагманы. Проверить оправданность цены.
Средние	Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3	Sweet spot для production.
Бюджетные	Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B	Экономия при сохранении качества.
Спец. для кода	DeepSeek Coder V3 · Qwen 2.5 Coder 32B	Может ли специализация на коде дать преимущество?

#	Model	Provider	Число OK	Логика OK	Coincidental
01	Gemini 2.5 Pro	Google	24/31 (77%)	13/31 (42%)	6 Top
02	GPT-5	OpenAI	24/31 (77%)	9/31 (29%)	9 Top
03	Claude Opus 4.7	Anthropic	21/31 (68%)	9/31 (29%)	4 Top
04	Claude Sonnet 4.6	Anthropic	19/31 (61%)	9/31 (29%)	5 Mid
05	Grok 3	xAI	17/31 (55%)	8/31 (26%)	6 Mid
06	Claude Haiku 4.5	Anthropic	14/31 (45%)	6/31 (19%)	6 Mid
07	DeepSeek V3	DeepSeek	13/31 (42%)	6/31 (19%)	3 Mid
08	Mistral Large	Mistral	11/31 (35%)	7/31 (23%)	3 Mid
09	Gemini 2.5 Flash	Google	8/31 (26%)	2/31 (6%)	5 Low
10	GPT-5 mini	OpenAI	6/31 (19%)	4/31 (13%)	2 Low
11	Qwen 2.5 72B	Alibaba	6/31 (19%)	3/31 (10%)	5 Low
12	Llama 3.3 70B	Meta	3/31 (10%)	2/31 (6%)	2 Low
13	Qwen 2.5 Coder 32B	Alibaba	4/31 (13%)	1/31 (3%)	2 Low

Модель	Логика OK	Число OK	Тренд
GPT-5	32/93 (34%)	51/93 (55%)	Единственный явный лидер
Gemini 2.5 Pro	30/93 (32%)	43/93 (46%)	Close 2nd
Claude Opus 4.7	24/93 (26%)	45/93 (48%)	Top tier
Claude Sonnet 4.6	20/93 (22%)	43/93 (46%)	Sweet spot
DeepSeek V3	14/93 (15%)	27/93 (29%)	Budget

Модель · Роль	Spend	Requests	Tokens
Claude Opus 4.7 · судья по числу	$12.30	1,980	1.81M
Gemini 2.5 Pro · кандидат	$1.91	253	247K
GPT-5 · кандидат	$1.46	253	199K
Sonnet 4.6 · кандидат+судья по логике	$0.85	870	~150K
Остальные 9 моделей	$0.83	950	320K
Итого	$17.35	~4,300	~2.7M

Сценарий	Модель	Промпт	Точность*	$/1000
Базовый ассистент	Claude Sonnet 4.6	стандартный	~30–50%	~$2
Премиум (критические задачи)	GPT-5	стандартный	~35–55%	~$20
Прототипирование	DeepSeek V3	стандартный	~15–30%	~$0.30

Бенчмарк 13 LLM на задачах
Qlik Set Analysis.
Верное число ≠ верное выражение.

TL;DR

Двухфазная схема, двойной судья.

13 моделей × 31 задача × 1 промпт

5 финалистов × 3 уровня промпта

Двойная оценка: число и логика.

«Совпало ли итоговое число с эталонным KPI?»

«Эквивалентно ли выражение эталонной формуле?»

Кандидаты: 13 моделей в 4 категориях.

Шесть технических открытий.

Reasoning-модели нужно настраивать.

114 случаев, когда модель угадала число, но не угадала выражение.

Не все 114 случаев — строго неправильные.

Обогащённый промпт ухудшает результаты.

Умный промпт не превращает дешёвую модель в дорогую.

Повторный прогон даёт другие числа.

Какую open-source модель развернуть локально?

Все 13 моделей · ранжированы по совпадению числа с эталоном.

Кто держится при варьировании промпта.

$17.35 на весь бенчмарк.

Если LLM пойдёт в продукт.

Четыре правила, без которых не идти в прод.

Краткое резюме по моделям.

Критерий	Рекомендованная модель	Инсайт
Лучшая для генерации по логике (по логике)	GPT-5	Лидер по оценке по логике (эквивалентность логики эталону) — 34%.
Оптимальная для базового ассистента	Claude Sonnet 4.6	Sweet spot для production — реалистичная точность ~30–50% (с ревью).
Стоимость Sonnet 4.6 на 1000 запросов	~$2	Экономия до 14× по сравнению с Opus.
Ключевая причина выбора Sonnet	Баланс точности и стоимости	Приемлемая точность 30–50% при очень низкой стоимости.

Бенчмарк 13 LLM на задачахQlik Set Analysis.Верное число ≠ верное выражение.

TL;DR

Двухфазная схема, двойной судья.

13 моделей × 31 задача × 1 промпт

5 финалистов × 3 уровня промпта

Двойная оценка: число и логика.

«Совпало ли итоговое число с эталонным KPI?»

«Эквивалентно ли выражение эталонной формуле?»

Кандидаты: 13 моделей в 4 категориях.

Шесть технических открытий.

Reasoning-модели нужно настраивать.

114 случаев, когда модель угадала число, но не угадала выражение.

Не все 114 случаев — строго неправильные.

Обогащённый промпт ухудшает результаты.

Умный промпт не превращает дешёвую модель в дорогую.

Повторный прогон даёт другие числа.

Какую open-source модель развернуть локально?

Все 13 моделей · ранжированы по совпадению числа с эталоном.

Кто держится при варьировании промпта.

$17.35 на весь бенчмарк.

Если LLM пойдёт в продукт.

Четыре правила, без которых не идти в прод.

Краткое резюме по моделям.

Бенчмарк 13 LLM на задачах
Qlik Set Analysis.
Верное число ≠ верное выражение.