赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
&triangleup; 文心一言 4.5 +70.7 · ▿ DeepSeek V3 -75.1
·
最新资讯
查看全部 →Grok图像编辑功能爆火社交平台,AI艺术创作引领病毒式传播新潮流
近期,大量用户借助Grok的图像编辑功能对名人姿势、外观等进行调整,相关帖子迅速走红,单帖获数千点赞和高浏览量。这一现象不仅展示了AI图像生成工具的流行,也反映出消费者级AI应用正迎来热度高峰。文章将深入分析这一趋势的背景、用户行为及行业影
Claude 动态工作流革命:Anthropic 工程师揭秘自提示代理系统新范式
Anthropic工程师近日分享Claude高级工作流实践,强调构建自提示系统而非依赖手动prompt。该方法涵盖CLADE.md配置、插件集成及多代理协作,能显著提升效率。社区讨论显示,此范式正成为AI使用新标准,相关视频与指南互动量高,
OpenAI进军Physical AI:Sam Altman招募硬件与ML工程师,机器人时代加速到来
Sam Altman宣布OpenAI Robotics团队招聘硬件、机器学习工程师,聚焦物理世界机器人应用,从模拟研究转向硬件-ML共设计。短期支持基础设施工人,长期目标实现个人机器人,此举引发行业对Physical AI的热议。
Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
AI精神错乱?科技CEO的狂热辩论
在最新一期《Equity》播客中,TechCrunch编辑们围绕科技CEO是否“特别容易陷入AI精神错乱”展开激烈辩论。所谓AI psychosis,指部分高管对人工智能的极端乐观或恐惧言论,脱离了理性讨论框架。本文梳理了辩论核心观点,并分
土耳其如何用科技“攻占”全球植发市场
土耳其凭借从专用电机到机器学习算法的持续创新,构建了价值数十亿美元的植发产业。本文深入解析该国如何通过精密器械、AI辅助设计和自动化流程重塑毛发移植技术,并分析其成功背后的产业生态与全球竞争力。
哈佛毕业演讲呼吁杀死AI 引发支持者反智指责与文化转向辩论
美国时间2026年5月27日,喜剧演员Ronny Chieng在哈佛毕业典礼上呼吁“你们这代使命是杀死AI”,现场获热烈掌声。该言论迅速引发两极反应:AI支持者认为其极端反智,反对者视作文化转向信号。辩论在两天内成为行业焦点,凸显公众对AI
软银豪掷750亿欧元,法国将建巨型数据中心
软银集团宣布将投资高达750亿欧元,在法国建设并运营多达5吉瓦(GW)的新增数据中心容量。此举旨在响应欧洲日益增长的云计算和AI算力需求,同时巩固法国的数字基础设施地位。该投资计划预计在未来十年内分阶段实施,将是欧洲历史上最大的单一数据中心
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
R3崩溃率高达60%!11模型WDCD三轮测试集体翻车
R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。
Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底
Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。
深度横评
查看全部 →Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
WDCD 守约排行
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
查看完整守约排行 →
Research Lab
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。