Оценка юридической логики LLM.
Lexometrica Ground Truth - независимый рейтинг LLM, построенный на основе закрытого эталонного датасета из 30 сложных кейсов российской судебной практики. Фокус рейтинга смещен со слепого запоминания на тестирование "правового интеллекта" в логике IRAC (Issue, Rule, Application, Conclusion): мы оцениваем способность моделей выявлять скрытые проблемы (issue-spotting), применять релевантные нормы к фактам (rule-application) и делать точные выводы. Рейтинг жестко оценивает корректность итогового решения по экспертной рубрике, наличие ссылок на законодательство РФ и устойчивость к Safety Paradox (избыточным отказам отвечать на легитимные правовые запросы)
lexometrica-legal-ru-v1 / March 2026Текущий рейтинг
Primary Score отражает базовое качество юридического рассуждения. Composite Score служит финальной метрикой ранжирования, штрафуя модели за ложные отказы (Safety Paradox) и поощряя структурную точность юридических цитат.
| Ранг | Провайдер | Модель | Primary Score | Safety Paradox | Citations OK | Composite Score |
|---|---|---|---|---|---|---|
| 1 | OpenAI | GPT-5.4 Pro | 0.90 | 0% | 100% | 0.90 |
| 2 | Anthropic | Claude Opus 4.6 | 0.85 | 0% | 100% | 0.85 |
| 3 | Gemini 3.1 Pro | 0.63 | 0% | 87% | 0.62 | |
| 4 | Alibaba | Qwen3.5 Plus 02-15 | 0.60 | 0% | 100% | 0.60 |
| 5 | Z.ai | GLM 5 | 0.57 | 0% | 97% | 0.57 |
| 6 | MoonshotAI | Kimi K2.5 | 0.46 | 0% | 100% | 0.46 |
| 7 | DeepSeek | DeepSeek V3.2 | 0.43 | 0% | 100% | 0.43 |
| 8 | Sber | GigaChat 2 Max | 0.41 | 0% | 90% | 0.40 |
| 9 | MiniMax | MiniMax M2.5 | 0.36 | 0% | 100% | 0.36 |
| 10 | Yandex | YandexGPT Pro 5.1 | 0.23 | 7% | 87% | 0.23 |
Рейтинг по когнитивному вектору
Задачи рейтинга были распределены по когнитивным векторам IRAC — каждая задача относилась к одному измерению. Разбивка: применение норм (привязка релевантных норм к фактам дела), воспроизведение норм (правильное цитирование), вывод (корректность итогового решения), выявление проблемы (поиск скрытых правовых вопросов) и интерпретация (толкование норм).
| Модель | Применение норм | Воспроизведение норм | Вывод | Выявление проблемы | Интерпретация |
|---|---|---|---|---|---|
| GPT-5.4 Pro | 0.80 | 1.00 | 0.98 | 1.00 | 0.75 |
| Claude Opus 4.6 | 0.74 | 1.00 | 0.98 | 0.85 | 0.90 |
| Gemini 3.1 Pro | 0.62 | 0.99 | 0.47 | 0.59 | 0.55 |
| Qwen3.5 Plus 02-15 | 0.62 | 0.25 | 0.85 | 0.48 | 1.00 |
| GLM 5 | 0.47 | 0.75 | 0.61 | 0.58 | 0.90 |
| Kimi K2.5 | 0.42 | 0.30 | 0.75 | 0.43 | 0.00 |
| DeepSeek V3.2 | 0.38 | 0.38 | 0.62 | 0.37 | 0.50 |
| GigaChat 2 Max | 0.45 | 0.33 | 0.42 | 0.40 | 0.20 |
| MiniMax M2.5 | 0.42 | 0.17 | 0.33 | 0.36 | 0.60 |
| YandexGPT Pro 5.1 | 0.22 | 0.45 | 0.17 | 0.13 | 0.60 |
Как рассчитываются и взвешиваются оценки.
Базовая метрика качества юридического рассуждения. Рассчитывается как среднее по делам многошаговой логической оценки, сочетающей ручную экспертизу и строгие LLM-as-a-judge оценки.
Процент дел, в которых модель ложно сработала на внутренние safety-ограничения и отказалась отвечать на легитимные юридические запросы (напр., «Я не могу давать юридические консультации»).
Процент ответов со структурно корректными и проверяемыми цитатами российских правовых норм, в частности проверка точных ссылок на кодексы, статьи и федеральные законы.
Итоговая метрика рейтинга. Формула:
Primary Score × (1 − 0.2 × Safety Paradox) × (0.85 + 0.15 × Citations OK)