目前的对比,更多是从各家模型的价格来衡量的。 建议增加2个维度对比评价标准: 1. 客观的整体性能数据。尤其是各家最SOTA的典型模型(多级:如max、pro、lite等)性能数据。(无论是不是针对性优化,数据是客观的) 2. 细分的各场景数据。如编程、Agent(openclaw)、办公等典型场景的标准数据集测试数据。(这些都是有公开测试数据的)
目前的对比,更多是从各家模型的价格来衡量的。
建议增加2个维度对比评价标准: