|
| 1 | +Якщо роки 2 тому моделі в програмуванні поводилися як *джин* — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити. |
| 2 | + |
| 3 | +Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл `AGENTS.md` не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox. |
| 4 | + |
| 5 | +Ми вчимося **спрощувати** архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям. |
| 6 | + |
| 7 | +**NxCode Team про роботу ШІ агентів** |
| 8 | +https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026 |
| 9 | +Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping). |
| 10 | + |
| 11 | +Агенти провалюються не через якість моделі, а через поганий harness. |
| 12 | + |
| 13 | +Важливо доповнити, що слабку модель навіть ідеальний harness не врятує. |
| 14 | + |
| 15 | +**OpenAI про harness engineering** |
| 16 | +https://openai.com/index/harness-engineering/ |
| 17 | +Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують. |
| 18 | + |
| 19 | +Найважливіше тепер — не тільки якісна модель, а середовище: |
| 20 | +– структурована папка `docs/` як single source of truth, |
| 21 | +– короткий `AGENTS.md` (~100 рядків) замість гігантського промпту, |
| 22 | +– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо), |
| 23 | +– «doc-gardening» агент, який сам виправляє застарілу документацію. |
| 24 | + |
| 25 | +Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень. |
| 26 | + |
| 27 | + |
| 28 | +Обговорення на ХН про harness engineering |
| 29 | +https://news.ycombinator.com/item?id=46988596 |
| 30 | +Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив **лише один інструмент** — формат редагування файлів, замість apply_patch / str_replace ввів **Hashline** (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей **покращили** результати. |
| 31 | + |
| 32 | +Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст. |
| 33 | + |
| 34 | +Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку. |
| 35 | + |
| 36 | +#harness |
0 commit comments