Не только финальные числа, но и неочевидные эффекты, которые повторятся у любой команды, интегрирующей LLM в Qlik-стек.
⚠ Reasoning trap
Reasoning-модели нужно настраивать.
Первый прогон: GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Reasoning-модели тратят токены на скрытое размышление; при max_tokens=500 бюджет уходит на reasoning, ответ обрезается или пустой.
После max_tokens=4000 + reasoning_effort=low: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).
★ Coincidental correctness
Верное число из неверной логики — 114 случаев.
Из 868 ответов нашли 114 случаев coincidental correctness — верное число через выражение, отличающееся от эталона. Два типичных паттерна:
Паттерн А · ID вместо Name (Sports task #2):
Эталон
count(distinct {<Sex={"M"}>} Name)
/ count(distinct Name)
LLM (совпало случайно)
Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)
Паттерн Б · Games вместо Year+Season (Sports task #1):
Эталон
{<Year = {'1996'},
Season = {'Summer'}>}
LLM (совпало случайно)
{<Games = {'1996 Summer'}>}
◆ Nuance
Не все 114 случаев — строго неправильные.
Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete, Count(distinct ID) = Count(distinct Name) всегда.
Реалистичная оценка точности — между V1 и V2 интерпретациями.
⚠ Prompt effect · counter-intuitive
Обогащённый промпт ухудшает результаты.
В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).
Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).
Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.
✗ Hypothesis rejected
«Дешёвая + умный промпт = дорогая» — нет.
DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным:
V1: 45% → 36% V2: 15%
Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.
∿ Stability noise ±5–15 п.п.
Повторный прогон даёт другие числа.
На одинаковых задачах с temperature=0:
GPT-523 → 24+1
Claude Opus 4.719 → 23+4
Gemini 2.5 Pro19 → 22+3
Claude Sonnet 4.620 → 20±0 · единственная стабильная
DeepSeek V314 → 12−2
Утверждения «X лучше Y на 3-5 п.п.» не доказываются — это шум.