「実務で使えるか」を正面から測るなら、**“開発〜運用の一連の価値の出し方”**をフレームワーク横断で同条件に固定して比較するのが要点です。TDD強制/テレメトリ/セキュリティを内包させることで(Lighthouse・a11y・パフォーマンス、OpenTelemetry、OWASP系の観点がREADMEに明記)そのまま“評価ハーネス”の核にできます。([GitHub]1)
以下、「何を測るか → どう測るか(実装案) → スコアリングと運用 → 今すぐ入れられるPR雛形」の順で提案します。
1) 何を測るか(実務価値KPI)
A. デリバリ性能(DORA 4指標)
デプロイ頻度/変更リードタイム/変更失敗率/復旧時間を収集。実務価値との相関が高く、外部比較もしやすい標準指標です。([dora.dev]2, [docs.gitlab.com]3, [Google Cloud]4)
B. プロダクト品質
C. 運用性/可観測性
OpenTelemetryでトレース・メトリクスを既定収集。スパン網羅率、p95/p99レイテンシ、エラー率、ビルド/テスト時間など。([OpenTelemetry]8)
D. セキュリティ/コンプライアンス
E. DX(開発者体験)とAI活用効率
Time-to-First-Value(新規着手→最初のE2E成功までの時間)、手作業コマンド数、ドキュメント到達率。AI生成比率、リトライ回数、**自動修復成功率(CEGIS)**などは ae-framework の自動化機能から取得。([GitHub]1)
2) どう測るか(ae-frameworkに組み込む実装案)
A. 評価プロトコルを固定(EVAL_PROTOCOL.md)
- マシン資源・シード・温度・ツール許可・タイムアウトを固定。
- “同一提出物→同一スコア再現”を品質基準に明記。
B. シナリオ・課題セット(同難易度で複数)
- CRUD+認証API+UI(Lighthouse閾値付き)
- ストリーム/イベント処理
- DDD/検索/集計を含むバックエンド
各シナリオは「要件YAML→自動生成テスト→実装→検証」を共通パイプラインで実行。ae-frameworkの6フェーズ(Intent→Formal→Tests→Code→Verify→Operate)とCLIを標準化I/Fにします。([GitHub]1)
C. 自動計測の配線
D. “ゴールデンパス”比較
社内の**定番テンプレ(Golden Path)**と、素のNext.jsやNxなどの“素”とを同シナリオでAB比較。ゴールデンパスは開発の迷いを減らし実務効率を上げる考え方なので、導入前後のDORA/品質差分が示せます。([Spotify Engineering]14, [redhat.com]15)
3) スコアリング設計(例)
4) ベンチ運用(透明性と再現性)
- 結果スキーマ(
results/schema.json):モデル/設定/資源/リトライ/トークン/壁時計/ピークメモリ/各小項目スコアをJSON固定。
- 公開テスト+非公開テスト:リーク対策と頑健性のため二層構成。
- ダッシュボード:LHCI+OTelバックエンドで履歴と傾向を可視化。([GitHub]13, [OpenTelemetry]8)
- 異議申し立て手順:再評価条件とログ添付要件をCONTRIBUTINGに定義。
5) 今すぐ入れられる PR(雛形)
BENCHMARKS.md:シナリオ定義・評価式・合格基準。
EVAL_PROTOCOL.md:資源/シード/温度/ツール可否/丸め規則。
.github/workflows/bench.yml:LHCI+Stryker+ASVSチェック+OPA/Conftest+OTelエクスポートの一括実行。([googlechrome.github.io]6, [stryker-mutator.io]7, [owasp.org]9, [conftest.dev]12)
policies/:Regoサンプル(依存のライセンス/秘密/HTTPヘッダ等)。([conftest.dev]12)
docs/scoring.md:DORAの計測方法(GitHub/Actions/Incidentsの突合例)。([Google Cloud]4)
reports/:結果JSON→HTML整形(ランキング/レーダーチャート)。
必要なら、上記ファイル一式(BENCHMARKS.md / EVAL_PROTOCOL.md / bench.yml / scoring.md / Rego例 / schema.json)をこの前提に合わせたドラフトとしてすぐに書き起こします。
「実務で使えるか」を正面から測るなら、**“開発〜運用の一連の価値の出し方”**をフレームワーク横断で同条件に固定して比較するのが要点です。TDD強制/テレメトリ/セキュリティを内包させることで(Lighthouse・a11y・パフォーマンス、OpenTelemetry、OWASP系の観点がREADMEに明記)そのまま“評価ハーネス”の核にできます。([GitHub]1)
以下、「何を測るか → どう測るか(実装案) → スコアリングと運用 → 今すぐ入れられるPR雛形」の順で提案します。
1) 何を測るか(実務価値KPI)
A. デリバリ性能(DORA 4指標)
デプロイ頻度/変更リードタイム/変更失敗率/復旧時間を収集。実務価値との相関が高く、外部比較もしやすい標準指標です。([dora.dev]2, [docs.gitlab.com]3, [Google Cloud]4)
B. プロダクト品質
ae-frameworkのフェーズ検証と相性◎)。([GitHub]1)C. 運用性/可観測性
OpenTelemetryでトレース・メトリクスを既定収集。スパン網羅率、p95/p99レイテンシ、エラー率、ビルド/テスト時間など。([OpenTelemetry]8)
D. セキュリティ/コンプライアンス
E. DX(開発者体験)とAI活用効率
Time-to-First-Value(新規着手→最初のE2E成功までの時間)、手作業コマンド数、ドキュメント到達率。AI生成比率、リトライ回数、**自動修復成功率(CEGIS)**などは
ae-frameworkの自動化機能から取得。([GitHub]1)2) どう測るか(
ae-frameworkに組み込む実装案)A. 評価プロトコルを固定(EVAL_PROTOCOL.md)
B. シナリオ・課題セット(同難易度で複数)
各シナリオは「要件YAML→自動生成テスト→実装→検証」を共通パイプラインで実行。
ae-frameworkの6フェーズ(Intent→Formal→Tests→Code→Verify→Operate)とCLIを標準化I/Fにします。([GitHub]1)C. 自動計測の配線
D. “ゴールデンパス”比較
社内の**定番テンプレ(Golden Path)**と、素のNext.jsやNxなどの“素”とを同シナリオでAB比較。ゴールデンパスは開発の迷いを減らし実務効率を上げる考え方なので、導入前後のDORA/品質差分が示せます。([Spotify Engineering]14, [redhat.com]15)
3) スコアリング設計(例)
総合スコア
S = 0.30*Deliver + 0.30*Quality + 0.20*Ops + 0.15*Security + 0.05*DXプロファイル:Bronze/Silver/Gold(例:Goldは Lighthouse全項目≥90、Mutation≥65%、ASVS L2主要項目OK、DORAで上位四分位)。([Chrome for Developers]5, [stryker-mutator.io]7, [owasp.org]9)
4) ベンチ運用(透明性と再現性)
results/schema.json):モデル/設定/資源/リトライ/トークン/壁時計/ピークメモリ/各小項目スコアをJSON固定。5) 今すぐ入れられる PR(雛形)
BENCHMARKS.md:シナリオ定義・評価式・合格基準。EVAL_PROTOCOL.md:資源/シード/温度/ツール可否/丸め規則。.github/workflows/bench.yml:LHCI+Stryker+ASVSチェック+OPA/Conftest+OTelエクスポートの一括実行。([googlechrome.github.io]6, [stryker-mutator.io]7, [owasp.org]9, [conftest.dev]12)policies/:Regoサンプル(依存のライセンス/秘密/HTTPヘッダ等)。([conftest.dev]12)docs/scoring.md:DORAの計測方法(GitHub/Actions/Incidentsの突合例)。([Google Cloud]4)reports/:結果JSON→HTML整形(ランキング/レーダーチャート)。必要なら、上記ファイル一式(
BENCHMARKS.md / EVAL_PROTOCOL.md / bench.yml / scoring.md / Rego例 / schema.json)をこの前提に合わせたドラフトとしてすぐに書き起こします。