Lexometrica Ground Truth

Оценка юридической логики LLM.

Lexometrica Ground Truth - независимый рейтинг LLM, построенный на основе закрытого эталонного датасета из 30 сложных кейсов российской судебной практики. Фокус рейтинга смещен со слепого запоминания на тестирование "правового интеллекта" в логике IRAC (Issue, Rule, Application, Conclusion): мы оцениваем способность моделей выявлять скрытые проблемы (issue-spotting), применять релевантные нормы к фактам (rule-application) и делать точные выводы. Рейтинг жестко оценивает корректность итогового решения по экспертной рубрике, наличие ссылок на законодательство РФ и устойчивость к Safety Paradox (избыточным отказам отвечать на легитимные правовые запросы)

lexometrica-legal-ru-v1 / March 2026

01 - Рейтинг моделей / Март 2026

Текущий рейтинг

Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.

Ранг	Провайдер	Модель	Primary Score	Safety Paradox	Citations OK	Composite Score
1	OpenAI	GPT-5.4 Pro	0.90	0%	100%	0.90
2	Anthropic	Claude Opus 4.6	0.85	0%	100%	0.85
3	Google	Gemini 3.1 Pro	0.63	0%	87%	0.62
4	Alibaba	Qwen3.5 Plus 02-15	0.60	0%	100%	0.60
5	Z.ai	GLM 5	0.57	0%	97%	0.57
6	MoonshotAI	Kimi K2.5	0.46	0%	100%	0.46
7	DeepSeek	DeepSeek V3.2	0.43	0%	100%	0.43
8	Sber	GigaChat 2 Max	0.41	0%	90%	0.40
9	MiniMax	MiniMax M2.5	0.36	0%	100%	0.36
10	Yandex	YandexGPT Pro 5.1	0.23	7%	87%	0.23

Рейтинг по когнитивному вектору

Задачи рейтинга были распределены по когнитивным векторам IRAC — каждая задача относилась к одному измерению. Разбивка: применение норм (привязка релевантных норм к фактам дела), воспроизведение норм (правильное цитирование), вывод (корректность итогового решения), выявление проблемы (поиск скрытых правовых вопросов) и интерпретация (толкование норм).

Модель	Применение норм	Воспроизведение норм	Вывод	Выявление проблемы	Интерпретация
GPT-5.4 Pro	0.80	1.00	0.98	1.00	0.75
Claude Opus 4.6	0.74	1.00	0.98	0.85	0.90
Gemini 3.1 Pro	0.62	0.99	0.47	0.59	0.55
Qwen3.5 Plus 02-15	0.62	0.25	0.85	0.48	1.00
GLM 5	0.47	0.75	0.61	0.58	0.90
Kimi K2.5	0.42	0.30	0.75	0.43	0.00
DeepSeek V3.2	0.38	0.38	0.62	0.37	0.50
GigaChat 2 Max	0.45	0.33	0.42	0.40	0.20
MiniMax M2.5	0.42	0.17	0.33	0.36	0.60
YandexGPT Pro 5.1	0.22	0.45	0.17	0.13	0.60

02 - Методология метрик

Как рассчитываются и взвешиваются оценки.

Primary Score

Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.

Safety Paradox

Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»).

Citations OK

Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.

Composite Score

Итоговая метрика рейтинга. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)