功能建议：加上各家典型模型性能数据。

目前的对比，更多是从各家模型的价格来衡量的。

建议增加2个维度对比评价标准：
1. 客观的整体性能数据。尤其是各家最SOTA的典型模型（多级：如max、pro、lite等）性能数据。（无论是不是针对性优化，数据是客观的）
2. 细分的各场景数据。如编程、Agent（openclaw）、办公等典型场景的标准数据集测试数据。（这些都是有公开测试数据的）