Оценка юридической логики LLM.

Lexometrica Ground Truth - независимый рейтинг LLM, построенный на основе закрытого эталонного датасета из 30 сложных кейсов российской судебной практики. Фокус рейтинга смещен со слепого запоминания на тестирование "правового интеллекта" в логике IRAC (Issue, Rule, Application, Conclusion): мы оцениваем способность моделей выявлять скрытые проблемы (issue-spotting), применять релевантные нормы к фактам (rule-application) и делать точные выводы. Рейтинг жестко оценивает корректность итогового решения по экспертной рубрике, наличие ссылок на законодательство РФ и устойчивость к Safety Paradox (избыточным отказам отвечать на легитимные правовые запросы)

lexometrica-legal-ru-v1 / March 2026

Текущий рейтинг

Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.

Ранг Провайдер Модель Primary Score Safety Paradox Citations OK Composite Score
1 OpenAI GPT-5.4 Pro 0.90 0% 100% 0.90
2 Anthropic Claude Opus 4.6 0.85 0% 100% 0.85
3 Google Gemini 3.1 Pro 0.63 0% 87% 0.62
4 Alibaba Qwen3.5 Plus 02-15 0.60 0% 100% 0.60
5 Z.ai GLM 5 0.57 0% 97% 0.57
6 MoonshotAI Kimi K2.5 0.46 0% 100% 0.46
7 DeepSeek DeepSeek V3.2 0.43 0% 100% 0.43
8 Sber GigaChat 2 Max 0.41 0% 90% 0.40
9 MiniMax MiniMax M2.5 0.36 0% 100% 0.36
10 Yandex YandexGPT Pro 5.1 0.23 7% 87% 0.23

Рейтинг по когнитивному вектору

Задачи рейтинга были распределены по когнитивным векторам IRAC — каждая задача относилась к одному измерению. Разбивка: применение норм (привязка релевантных норм к фактам дела), воспроизведение норм (правильное цитирование), вывод (корректность итогового решения), выявление проблемы (поиск скрытых правовых вопросов) и интерпретация (толкование норм).

Модель Применение норм Воспроизведение норм Вывод Выявление проблемы Интерпретация
GPT-5.4 Pro 0.80 1.00 0.98 1.00 0.75
Claude Opus 4.6 0.74 1.00 0.98 0.85 0.90
Gemini 3.1 Pro 0.62 0.99 0.47 0.59 0.55
Qwen3.5 Plus 02-15 0.62 0.25 0.85 0.48 1.00
GLM 5 0.47 0.75 0.61 0.58 0.90
Kimi K2.5 0.42 0.30 0.75 0.43 0.00
DeepSeek V3.2 0.38 0.38 0.62 0.37 0.50
GigaChat 2 Max 0.45 0.33 0.42 0.40 0.20
MiniMax M2.5 0.42 0.17 0.33 0.36 0.60
YandexGPT Pro 5.1 0.22 0.45 0.17 0.13 0.60

Как рассчитываются и взвешиваются оценки.

Primary Score

Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.

Safety Paradox

Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»).

Citations OK

Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.

Composite Score

Итоговая метрика рейтинга. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)