RuTaR: Новый датасет для оценки reasoning-систем в налоговом праве

Представлен RuTaR, датасет для оценки систем рассуждения в налоговом праве. Развитие reasoning-систем в ИИ.

Развитие систем рассуждения в ИИ

Современные языковые модели демонстрируют эмерджентные способности к сложному пошаговому рассуждению. Однако, их потенциал в области налогового права остается неизученным.

Проблема оценки систем рассуждения

Большинство бенчмарков игнорируют способность LLM рассуждать в плоскости гуманитарного знания. Мы уперлись в потолок развития LLM привычным путём, и теперь развитие reasoning является перспективным направлением.

Отсутствие датасетов для оценки систем рассуждения в налоговом праве
Необходимость в развитии умения модели рассуждать

Представление RuTaR

Был разработан RuTaR, датасет для оценки reasoning-систем в сфере налогового права. Это позволит оценить способность LLM рассуждать в сложной правовой области.