Первый бенчмарк Agent Skills: что работает, что нет, и при чём тут контекст

Проблема

Все, кто работает с агентами, пишут Agent Skills — CLAUDE.md, .cursorrules, системные промпты с инструкциями. Кто-то 50 строк, кто-то 500. Кто-то добавляет примеры, кто-то обходится текстом. До февраля 2026 года не было ни одной работы, которая систематически измерила бы, работают ли они вообще.

SkillsBench (Li et al., arXiv:2602.12670) — первая попытка. 84 задачи, 11 доменов, 7308 траекторий. Главный вопрос: скиллы помогают, мешают, или бесполезны?

Контекст

Дизайн бенчмарка: три условия для каждой задачи — без скиллов, с кураторскими скиллами (написанными людьми), и с самосгенерированными скиллами (написанными самой моделью). Семь конфигураций агент-модель: Claude Code, Gemini CLI, Codex CLI с разными моделями.

Заголовок пейпера: правильные скиллы дают +16.2 процентных пункта. Звучит убедительно.

Но наш trust assessment после разбора: 6/10 (MEDIUM-LOW). Вот почему.

Решение

Что надёжно (высокий консенсус)

1. В этом бенчмарке самосгенерированные скиллы бесполезны. Среднее: -1.3pp. Это самый робастный результат в пейпере — подтверждён независимо всеми методами анализа. Модели не могут писать себе эффективные процедурные инструкции. Они могут описать задачу, но не создать руководство, которое улучшит их собственное выполнение.

Данные совпадают с подходом human-curated skills. Не автогенерация, не рефлексия — человек должен написать, как именно решать задачу.

2. 2-3 скилла лучше, чем 4 и больше. Корреляционная зависимость, но Codex CLI подтвердил независимо: context dilution реальна. Больше скиллов — больше шума, конфликтующие инструкции, агент начинает игнорировать контекст вместо того, чтобы его использовать.

3. Detailed > Comprehensive. Краткие пошаговые инструкции с одним рабочим примером — лучше исчерпывающей документации. Comprehensive скиллы (полное покрытие всех кейсов) активно вредят: -2.9pp. Это контринтуитивно, но объяснимо: длинный контекст с большим количеством условий снижает фокус на главном.

4. Зависимость от домена. Healthcare: +51.9pp. Software Engineering: +4.5pp. Чем слабее покрытие домена в pretrained knowledge модели, тем больше выигрыш от скиллов. В хорошо изученных областях скиллы почти не помогают.

Почему headline +16.2pp — не для вас

Selection bias: бенчмарк использует только top-25% скиллов из экосистемы — те, что получили ≥9/12 баллов при среднем по экосистеме 6.2/12. Если у вас средние скиллы (а у большинства именно такие), реалистичная оценка: +5-10pp, не +16.

Harness confounding: Claude Code обучен на Agent Skills спецификации. Нельзя разделить “скилл действительно помог” и “модель обучена следовать этому формату”. +23.3pp у Claude может быть на 50%+ эффектом тренировки, а не качества скилла.

Нет бейзлайнов: никто не сравнил скиллы с RAG, few-shot примерами, обычной документацией того же объёма или length-matched контролем. Непонятно, работают ли скиллы сами по себе или любой дополнительный контекст той же длины дал бы похожий результат.

Ecological validity: контейнер, только терминал, одна сессия. Реальные workflow — multi-agent, multi-session, часто с IDE. Неизвестно, переносятся ли результаты.

Наш эксперимент

Проверили один из вопросов пейпера на практике: sonnet+skills vs opus на code review.

Задача: ревью коммита argus P3 (b094d77), 925 строк, Python/Bash/MD, 12 файлов изменено.

                          Sonnet + code-review skill    Opus (raw)
Findings total            7                             13
Critical (всего)          3                             1
Security-critical         2                             0
Convention violations     1                             0
Cost                      ~$0.15                        ~$0.70

Ключевой результат: sonnet+skills нашёл 2 критических path traversal уязвимости (pool_dir, case_id), которые opus пропустил. Оба нашли общий race condition (PID write after mkdir). Sonnet дополнительно поймал нарушение CLAUDE.md конвенции — осведомлённость из скилла.

Opus нашёл больше breadth: DRY-нарушения, missing session log, release ownership. Но пропустил security-critical баги.

Вывод: sonnet+skills достаточен для quality gates на code review. 5x дешевле, лучше фокус на безопасности. Opus остаётся для архитектурных решений и финальной синтетизации.

Инсайт

Skills — это context engineering для агентов. Не магия, не автоматизация, не документация. Инженерия контекста.

Те же принципы, которые работают для RAG и prompt design, работают здесь:

Структура важнее объёма (Detailed > Comprehensive — как релевантный чанк важнее большого документа)
2-3 фокусных источника лучше свалки (context dilution — реальная проблема и в retrieval)
Human curation незаменима (модели не могут структурировать свой контекст — так же, как плохой chunking убивает RAG)
Domain targeting: там, где у модели меньше претренировочных знаний, больше выигрыш от внешнего контекста

Пейпер — важная первая работа. Scale серьёзный: 7308 траекторий — это данные. Но к headline numbers нужно относиться критично. Реальный вывод: правильно написанные скиллы помогают, плохо написанные — вредят. Как и любой контекст.