Первый бенчмарк Agent Skills: что работает, что нет, и при чём тут контекст
Разбираем SkillsBench — первый систематический бенчмарк для Agent Skills. 7308 траекторий, критический анализ, и почему skills — это context engineering для агентов.
Проблема
Все, кто работает с агентами, пишут Agent Skills — CLAUDE.md, .cursorrules, системные промпты с инструкциями. Кто-то 50 строк, кто-то 500. Кто-то добавляет примеры, кто-то обходится текстом. До февраля 2026 года не было ни одной работы, которая систематически измерила бы, работают ли они вообще.
SkillsBench (Li et al., arXiv:2602.12670) — первая попытка. 84 задачи, 11 доменов, 7308 траекторий. Главный вопрос: скиллы помогают, мешают, или бесполезны?
Контекст
Дизайн бенчмарка: три условия для каждой задачи — без скиллов, с кураторскими скиллами (написанными людьми), и с самосгенерированными скиллами (написанными самой моделью). Семь конфигураций агент-модель: Claude Code, Gemini CLI, Codex CLI с разными моделями.
Заголовок пейпера: правильные скиллы дают +16.2 процентных пункта. Звучит убедительно.
Но наш trust assessment после разбора: 6/10 (MEDIUM-LOW). Вот почему.
Решение
Что надёжно (высокий консенсус)
1. В этом бенчмарке самосгенерированные скиллы бесполезны. Среднее: -1.3pp. Это самый робастный результат в пейпере — подтверждён независимо всеми методами анализа. Модели не могут писать себе эффективные процедурные инструкции. Они могут описать задачу, но не создать руководство, которое улучшит их собственное выполнение.
Данные совпадают с подходом human-curated skills. Не автогенерация, не рефлексия — человек должен написать, как именно решать задачу.
2. 2-3 скилла лучше, чем 4 и больше. Корреляционная зависимость, но Codex CLI подтвердил независимо: context dilution реальна. Больше скиллов — больше шума, конфликтующие инструкции, агент начинает игнорировать контекст вместо того, чтобы его использовать.
3. Detailed > Comprehensive. Краткие пошаговые инструкции с одним рабочим примером — лучше исчерпывающей документации. Comprehensive скиллы (полное покрытие всех кейсов) активно вредят: -2.9pp. Это контринтуитивно, но объяснимо: длинный контекст с большим количеством условий снижает фокус на главном.
4. Зависимость от домена. Healthcare: +51.9pp. Software Engineering: +4.5pp. Чем слабее покрытие домена в pretrained knowledge модели, тем больше выигрыш от скиллов. В хорошо изученных областях скиллы почти не помогают.
Почему headline +16.2pp — не для вас
Selection bias: бенчмарк использует только top-25% скиллов из экосистемы — те, что получили ≥9/12 баллов при среднем по экосистеме 6.2/12. Если у вас средние скиллы (а у большинства именно такие), реалистичная оценка: +5-10pp, не +16.
Harness confounding: Claude Code обучен на Agent Skills спецификации. Нельзя разделить “скилл действительно помог” и “модель обучена следовать этому формату”. +23.3pp у Claude может быть на 50%+ эффектом тренировки, а не качества скилла.
Нет бейзлайнов: никто не сравнил скиллы с RAG, few-shot примерами, обычной документацией того же объёма или length-matched контролем. Непонятно, работают ли скиллы сами по себе или любой дополнительный контекст той же длины дал бы похожий результат.
Ecological validity: контейнер, только терминал, одна сессия. Реальные workflow — multi-agent, multi-session, часто с IDE. Неизвестно, переносятся ли результаты.
Наш эксперимент
Проверили один из вопросов пейпера на практике: sonnet+skills vs opus на code review.
Задача: ревью коммита argus P3 (b094d77), 925 строк, Python/Bash/MD, 12 файлов изменено.
Sonnet + code-review skill Opus (raw)
Findings total 7 13
Critical (всего) 3 1
Security-critical 2 0
Convention violations 1 0
Cost ~$0.15 ~$0.70
Ключевой результат: sonnet+skills нашёл 2 критических path traversal уязвимости (pool_dir, case_id), которые opus пропустил. Оба нашли общий race condition (PID write after mkdir). Sonnet дополнительно поймал нарушение CLAUDE.md конвенции — осведомлённость из скилла.
Opus нашёл больше breadth: DRY-нарушения, missing session log, release ownership. Но пропустил security-critical баги.
Вывод: sonnet+skills достаточен для quality gates на code review. 5x дешевле, лучше фокус на безопасности. Opus остаётся для архитектурных решений и финальной синтетизации.
Инсайт
Skills — это context engineering для агентов. Не магия, не автоматизация, не документация. Инженерия контекста.
Те же принципы, которые работают для RAG и prompt design, работают здесь:
- Структура важнее объёма (Detailed > Comprehensive — как релевантный чанк важнее большого документа)
- 2-3 фокусных источника лучше свалки (context dilution — реальная проблема и в retrieval)
- Human curation незаменима (модели не могут структурировать свой контекст — так же, как плохой chunking убивает RAG)
- Domain targeting: там, где у модели меньше претренировочных знаний, больше выигрыш от внешнего контекста
Пейпер — важная первая работа. Scale серьёзный: 7308 траекторий — это данные. Но к headline numbers нужно относиться критично. Реальный вывод: правильно написанные скиллы помогают, плохо написанные — вредят. Как и любой контекст.