DATANOMIX · OPEN RESEARCH Issue 01 / 2026 · Set Analysis · Reading 12 min

LLM × Qlik Set Analysis — Делаем код верным, а не правдоподобным

Исчерпывающее независимое исследование производительности современных больших языковых моделей в специфической задаче генерации выражений Qlik Set Analysis.

memory MODELS=13
/
assignment TASKS=31
/
payments BUDGET=$17.35
/
domain DOMAINS=Sports·HR·Sales

TL;DR

  • check_circle Оценено 13 моделей от ведущих провайдеров (OpenAI, Google, Anthropic, Meta, Mistral и др.) на специфической задаче генерации Qlik Set Analysis.
  • check_circle Применена строгая двухэтапная методология (Phase 1: Лояльная оценка, Phase 2: Строгая валидация) с использованием LLM-судьи (GPT-4o).
  • warning Выявлен колоссальный разрыв: базовая точность синтаксиса составляет ~77%, но семантически корректный код, решающий бизнес-задачу без галлюцинаций, генерируется лишь в 34% случаев (в среднем).
  • check_circle На текущий момент полная автоматизация (Zero-Shot Production) невозможна. Рекомендуется подход 'Human-in-the-loop' (Copilot/Assistant) с использованием GPT-4o или Claude 3.5 Sonnet.
terminal Reproduce on GitHub
CANDIDATES

13 моделей · 4 категории.

Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes, мелкие модели (≤8B параметров).

КатегорияМоделиОбоснование
Топ-премиумClaude Opus 4.7 · GPT-5 · Gemini 2.5 ProФлагманы. Проверить оправданность цены.
СредниеSonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3Sweet spot для production.
БюджетныеHaiku 4.5 · Llama 3.3 70B · Qwen 2.5 72BЭкономия при сохранении качества.
Спец. для кодаDeepSeek Coder V3 · Qwen 2.5 Coder 32BМожет ли специализация на коде дать преимущество?
FINDINGS

Шесть технических открытий.

Не только финальные числа, но и неочевидные эффекты, которые повторятся у любой команды, интегрирующей LLM в Qlik-стек.

⚠ Reasoning trap

Reasoning-модели нужно настраивать.

Первый прогон: GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Reasoning-модели тратят токены на скрытое размышление; при max_tokens=500 бюджет уходит на reasoning, ответ обрезается или пустой.

После max_tokens=4000 + reasoning_effort=low: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).

★ Coincidental correctness

Верное число из неверной логики — 114 случаев.

Из 868 ответов нашли 114 случаев coincidental correctness — верное число через выражение, отличающееся от эталона. Два типичных паттерна:

Паттерн А · ID вместо Name (Sports task #2):

Эталон
count(distinct {<Sex={"M"}>} Name)
/ count(distinct Name)
LLM (совпало случайно)
Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)

Паттерн Б · Games вместо Year+Season (Sports task #1):

Эталон
{<Year = {'1996'},
   Season = {'Summer'}>}
LLM (совпало случайно)
{<Games = {'1996 Summer'}>}
◆ Nuance

Не все 114 случаев — строго неправильные.

Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete, Count(distinct ID) = Count(distinct Name) всегда.

Реалистичная оценка точности — между V1 и V2 интерпретациями.

⚠ Prompt effect · counter-intuitive

Обогащённый промпт ухудшает результаты.

В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).

Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).

Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.

✗ Hypothesis rejected

«Дешёвая + умный промпт = дорогая» — нет.

DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным:

V1: 45% → 36%    V2: 15%

Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.

∿ Stability noise ±5–15 п.п.

Повторный прогон даёт другие числа.

На одинаковых задачах с temperature=0:

GPT-523 → 24+1 Claude Opus 4.719 → 23+4 Gemini 2.5 Pro19 → 22+3 Claude Sonnet 4.620 → 20±0 · единственная стабильная DeepSeek V314 → 12−2

Утверждения «X лучше Y на 3-5 п.п.» не доказываются — это шум.

PHASE 1 · LEADERBOARD

13 моделей · ранжированы по V1 (лояльной).

Один стандартный промпт × 31 задача. Колонка Coincidental — сколько раз модель «угадала» число при неверной логике.

#ModelProviderV1 loyalV2 strictCoincidental
01Gemini 2.5 ProGoogle24/31 (77%)13/31 (42%)6 Top
02GPT-5OpenAI24/31 (77%)9/31 (29%)9 Top
03Claude Opus 4.7Anthropic21/31 (68%)9/31 (29%)4 Top
04Claude Sonnet 4.6Anthropic19/31 (61%)9/31 (29%)5 Mid
05Grok 3xAI17/31 (55%)8/31 (26%)6 Mid
06Claude Haiku 4.5Anthropic14/31 (45%)6/31 (19%)6 Mid
07DeepSeek V3DeepSeek13/31 (42%)6/31 (19%)3 Mid
08Mistral LargeMistral11/31 (35%)7/31 (23%)3 Mid
09Gemini 2.5 FlashGoogle8/31 (26%)2/31 (6%)5 Low
10GPT-5 miniOpenAI6/31 (19%)4/31 (13%)2 Low
11Qwen 2.5 72BAlibaba6/31 (19%)3/31 (10%)5 Low
12Llama 3.3 70BMeta3/31 (10%)2/31 (6%)2 Low
13Qwen 2.5 Coder 32BAlibaba4/31 (13%)1/31 (3%)2 Low

* DeepSeek Coder V3 исключён из таблицы (API broken: 0/31).

PHASE 2 · 5 FINALISTS × 3 PROMPTS

Кто держится при варьировании промпта.

Топ-5 × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по V2 (строгий судья).

МодельV2 strictV1 loyalТренд
GPT-532/93 (34%)51/93 (55%)Единственный явный лидер
Gemini 2.5 Pro30/93 (32%)43/93 (46%)Close 2nd
Claude Opus 4.724/93 (26%)45/93 (48%)Top tier
Claude Sonnet 4.620/93 (22%)43/93 (46%)Sweet spot
DeepSeek V314/93 (15%)27/93 (29%)Budget
COST BREAKDOWN

$17.35 на весь бенчмарк.

70% бюджета съел LLM-as-judge (Claude Opus в V1). При повторе с Sonnet (V2) стоимость в 14 раз ниже за то же количество ответов.

Модель · РольSpendRequestsTokens
Claude Opus 4.7 · судья V1$12.301,9801.81M
Gemini 2.5 Pro · кандидат$1.91253247K
GPT-5 · кандидат$1.46253199K
Sonnet 4.6 · кандидат+судья V2$0.85870~150K
Остальные 9 моделей$0.83950320K
Итого$17.35~4,300~2.7M
PRODUCTION GUIDANCE

Если LLM пойдёт в продукт.

Три сценария интеграции с реалистичной точностью и стоимостью на 1000 запросов.

СценарийМодельПромптТочность*$/1000
Базовый ассистентClaude Sonnet 4.6стандартный~30–50%~$2
Премиум (критические задачи)GPT-5стандартный~35–55%~$20
ПрототипированиеDeepSeek V3стандартный~15–30%~$0.30

* С обязательным человеческим ревью.

PRODUCTION REQUIREMENTS

Четыре правила, без которых не идти в прод.

  1. Никогда без ревью. Никогда не использовать без человеческого ревью или Qlik runtime-валидации. Лучшая модель даёт ~34% строго-правильных — каждый второй ответ требует проверки.
  2. Настроить reasoning-модели. GPT-5, Gemini 2.5 Pro требуют max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.
  3. Не перегружать few-shot. Для большинства моделей обогащённый промпт снижает точность. Простой промпт + строгая валидация работают лучше.
  4. Sonnet/Haiku в роли судьи. Не Opus. Экономия 5–14× без потери качества оценки — проверено на 868 ответах.
CONCLUSION

LLM могут генерировать корректный Qlik Set Analysis — но только в режиме ассистента для человека, с обязательной валидацией. 34% строго-правильных у лучшей модели — это «каждый третий ответ работает», а не «можно генерировать и применять автоматически».

SUMMARY

Краткое резюме по моделям.

Четыре главных вопроса и ответ на каждый.

КритерийРекомендованная модельИнсайт
Лучшая для строгой генерации (V2)GPT-5Лидер по строгой оценке (эквивалентность логики эталону) — 34%.
Оптимальная для базового ассистентаClaude Sonnet 4.6Sweet spot для production — реалистичная точность ~30–50% (с ревью).
Стоимость Sonnet 4.6 на 1000 запросов~$2Экономия до 14× по сравнению с Opus.
Ключевая причина выбора SonnetБаланс точности и стоимостиПриемлемая точность 30–50% при очень низкой стоимости.
Reproduce on GitHub