Skip to content

Commit c63f676

Browse files
committed
2026-03-03 11:15:11
1 parent e4c5ac1 commit c63f676

2 files changed

Lines changed: 71 additions & 0 deletions

File tree

eng_2026/03/2026-03-03-07-41.md

Lines changed: 35 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,35 @@
1+
Two years ago, programming models behaved like a *genie*—you’d ask them for something, and they’d do it technically correctly but with a catch. To combat this, many "harnesses" (wrappers) were devised. Apps like Cursor were pioneers in exploring how to do this effectively.
2+
3+
2026 models have become significantly more obedient, so, as I wrote earlier, the `AGENTS.md` file is no longer as critical. Another recent example is Vercel, which removed 80% of specialized tools from its internal text-to-SQL agent, leaving only a single "execute bash" in a sandbox (https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools).
4+
5+
We are learning to **simplify** the architectures we over-engineered over the past two years, using minimal tools to avoid hindering powerful models.
6+
7+
**NxCode Team on AI Agent Operations**
8+
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
9+
Explains the harness as a "bridle + saddle + reins" for a powerful but uncontrolled "horse" (the model). An example is LangChain, which boosted a coding agent from 52.8% to 66.5% on Terminal Bench without changing the model—only through middleware (self-verification, loop detection, context mapping).
10+
11+
Agents fail not because of model quality, but because of a poor harness.
12+
13+
It’s important to add that an ideal harness won't save a weak model.
14+
15+
**OpenAI on Harness Engineering**
16+
https://openai.com/index/harness-engineering/
17+
They state that in the world of agents, the engineer's role is shifting from "writing code" to "managing the environment," where humans steer the direction and agents execute.
18+
19+
The most important thing now is not just a high-quality model, but the environment:
20+
– A structured `docs/` folder as the single source of truth,
21+
– A short `AGENTS.md` (~100 lines) instead of a massive prompt,
22+
– Mechanical linters + CI that check invariants (architecture rules, naming, file size, etc.),
23+
– A "doc-gardening" agent that automatically fixes outdated documentation.
24+
25+
A single Codex run can last up to 6 hours (often overnight). Therefore, it’s better to have all knowledge contained within the repository (versioned artifacts). No external chats or verbal discussions.
26+
27+
**Discussion on HN about Harness Engineering**
28+
https://news.ycombinator.com/item?id=46988596
29+
Can Bölük (author of https://github.com/can1357/oh-my-pi) took 16 different LLM models and ran them twice on the same benchmark for fixing real bugs in a React app. He changed **only one tool**—the file editing format. Instead of `apply_patch` / `str_replace`, he introduced **Hashline** (each line gets a short hash, and the model edits by hash rather than text). From this change alone, 14 out of 16 models **improved** their results.
30+
31+
The primary skill for an IT developer now is designing the harness, not writing code manually. Many confirm that hash-line gives agents a significant boost.
32+
33+
Conspiracy theory: "Companies intentionally keep the best harnesses secret to avoid decreasing token consumption." In recent weeks, Anthropic and Google have been banning custom harnesses; even the post's author was cut off from Gemini during his benchmark.
34+
35+
#harness

ukr_2026/03/2026-03-03-09-41.md

Lines changed: 36 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,36 @@
1+
Якщо роки 2 тому моделі в програмуванні поводилися як *джин* — ти їх просив, а вони все робили ніби правильно, але з каверзою. Щоб із ними боротися, вигадувалося багато «милиць»-обв'язок (harness). Програми на кшталт Cursor якраз досліджували, як це краще робити.
2+
3+
Моделі 2026 року стали значно слухнянішими, тому, як я писав раніше, тепер й файл `AGENTS.md` не має такого значення. Інший свіжий приклад, це як Vercel видалили 80 % спеціалізованих інструментів у свого внутрішнього text-to-SQL агента, залишили один execute bash у sandbox.
4+
5+
Ми вчимося **спрощувати** архітектуру (що нагородили за ці два роки), використовувати мінімальні інструменти щоб не заважити потужним моделям.
6+
7+
**NxCode Team про роботу ШІ агентів**
8+
https://www.nxcode.io/resources/news/harness-engineering-complete-guide-ai-agent-codex-2026
9+
Пояснює harness як «вуздечку + сідло + поводи» для потужного, але неконтрольованого «коня» (моделі). Приклад LangChain, які підняли coding-агента з 52.8 % до 66.5 % на Terminal Bench без зміни моделі — тільки через middleware (self-verification, loop detection, context mapping).
10+
11+
Агенти провалюються не через якість моделі, а через поганий harness.
12+
13+
Важливо доповнити, що слабку модель навіть ідеальний harness не врятує.
14+
15+
**OpenAI про harness engineering**
16+
https://openai.com/index/harness-engineering/
17+
Говорять, що у світі агентів роль інженера змінюється з «писання коду» на «керування середовищем», де люди керують напрямком (steer), а агенти виконують.
18+
19+
Найважливіше тепер — не тільки якісна модель, а середовище:
20+
– структурована папка `docs/` як single source of truth,
21+
– короткий `AGENTS.md` (~100 рядків) замість гігантського промпту,
22+
– механічні лінтери + CI, які перевіряють invariants (правила архітектури, naming, file size тощо),
23+
– «doc-gardening» агент, який сам виправляє застарілу документацію.
24+
25+
Один запуск Codex може працювати до 6 годин (часто вночі). Тому краще мати усе знання тільки всередині репозиторію (versioned artifacts). Ніяких зовнішніх чатів чи усних обговорень.
26+
27+
28+
Обговорення на ХН про harness engineering
29+
https://news.ycombinator.com/item?id=46988596
30+
Can Bölük (автор інструменту https://github.com/can1357/oh-my-pi) взяв 16 різних LLM моделей і запустив їх два рази на одному й тому ж бенчмарку виправлення реальних багів у React-аппі: змінив **лише один інструмент** — формат редагування файлів, замість apply_patch / str_replace ввів **Hashline** (кожний рядок отримує короткий хеш, модель редагує за хешем, а не за текстом). Тільки від цього 14 з 16 моделей **покращили** результати.
31+
32+
Тепер головна навичка IT розробника — проектувати harness, а не писати код вручну. Багато хто підтверджує що hash-line дає агенту буст.
33+
34+
Теорія змови: «Компанії навмисно тримають найкращі harness’и в секреті, щоб не зменшувати споживання токенів». Останні тижні Anthropic і Google банять кастомні harness’и, навіть автора посту відрізали від Gemini під час бенчмарку.
35+
36+
#harness

0 commit comments

Comments
 (0)