赢政天下 AI - AI前沿资讯，中文首发

赢政指数

#1 Claude Opus 4.7 83 ▼5.2 · #2 Grok 4 82.2 ▲1.8 · #3 DeepSeek V4 Pro 80.6 ▼1.1 · #4 GPT-5.5 78.8 · #5 豆包 Pro 78.2 ▲3.9 · #6 GPT-o3 77.1 ▼1.8 · #7 Claude Sonnet 4.6 74.5 ▼5 · #8 Gemini 3.1 Pro 74.1 ▲4.8 · #9 Gemini 2.5 Pro 72.8 ▼3 · #10 Qwen3 Max 69 ▼3.1 · #11 GLM-4.6 59.8 ▼3.6 · &triangleup; 豆包 Pro +12.4 · ▿ GLM-4.6 -23.8 · #1 Claude Opus 4.7 83 ▼5.2 · #2 Grok 4 82.2 ▲1.8 · #3 DeepSeek V4 Pro 80.6 ▼1.1 · #4 GPT-5.5 78.8 · #5 豆包 Pro 78.2 ▲3.9 · #6 GPT-o3 77.1 ▼1.8 · #7 Claude Sonnet 4.6 74.5 ▼5 · #8 Gemini 3.1 Pro 74.1 ▲4.8 · #9 Gemini 2.5 Pro 72.8 ▼3 · #10 Qwen3 Max 69 ▼3.1 · #11 GLM-4.6 59.8 ▼3.6 · &triangleup; 豆包 Pro +12.4 · ▿ GLM-4.6 -23.8 ·

完整排行榜 →

最新资讯

查看全部 →

资讯 07-16 13:23 TC

为油气工厂打造全厂AI模型，Applied Computing融资2000万美元

Applied Computing宣布完成2000万美元A轮融资，资金将用于开发面向石油、天然气及石化行业的基础AI模型。该模型旨在整合工厂运营全流程数据，通过统一智能平台优化生产效率、降低碳排放并提升安全水平，有望解决传统工业AI系统碎片

资讯 07-16 08:23 VB

智能体编排：企业AI部署大问题，多数只是聊天机器人包装

VentureBeat对101家企业的调查显示，智能体编排正在加速向模型提供商平台集中，Anthropic的Claude凭借底层模型优势大幅领先。然而，现实远落后于雄心：绝大多数企业部署的所谓“智能体”实质仍是聊天机器人包装。企业期望的混合

资讯 07-16 06:23 TC

SpaceX股价跌至135美元发行价，星际飞船发射在即

自IPO后股价持续下跌的SpaceX，目前已回落至135美元的发行价水平，几乎吐尽所有上市以来的涨幅。这一走势发生在Starship即将发射的关键节点，表明市场对CEO马斯克此前关于公司增长和盈利的承诺正趋于冷静。分析师指出，投资者担忧核心

资讯 07-16 04:24 WD

AI不如婴儿聪明？婴儿大脑启发AI新突破

婴儿是强大的学习机器，他们通过观察和互动快速掌握物理世界规律。而当前最先进的AI系统仍需海量数据和漫长训练才能完成类似任务。科学家们正从婴儿大脑的架构中寻找灵感，试图让AI具备更接近人类的常识推理与快速学习能力。本文探讨婴儿认知研究如何推动

资讯 07-16 04:23 TC

与苹果法律战正酣，OpenAI竟推出230美元编程键盘

深陷与苹果硬件贸易盗窃诉讼漩涡的OpenAI，于7月16日推出一款售价230美元的可发光键盘，专为其代码代理应用Codex设计。这款键盘并非普通外设，而是OpenAI探索AI编程硬件生态的重要落子。本文回顾了OpenAI与苹果的纠纷背景，剖

评测 07-16 03:35

Grok 4以94.15分居首：2026-07-16 Smoke快测数据简报

2026-07-16 赢政指数 Smoke 快测覆盖 9 个模型，Grok 4 以 94.15 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

资讯 07-16 02:34 TC

微软单月修复570个安全漏洞，AI成关键推手

微软在7月的“补丁星期二”中修复了创纪录的570个安全漏洞，覆盖Windows、Azure、Office等全线产品。微软表示，大量漏洞的发现得益于AI技术的深度应用，包括AI辅助代码审计、自动化模糊测试和威胁模式识别。这一数字是此前最高纪录

资讯 07-16 02:33 TC

Whatnot收购Shaped，强化直播购物实时推荐

直播购物平台Whatnot宣布收购AI初创公司Shaped，后者专注于实时推荐和搜索技术。此次收购将提升Whatnot在个性化推荐与商品发现方面的能力，助力其向新品类扩张。交易金额未披露。Whatnot计划整合Shaped的机器学习模型，优

资讯 07-16 02:26 TC

黑客入侵揭示AI音乐生成器Suno窃取YouTube数据

一名黑客利用员工凭证入侵AI音乐公司Suno的服务器，获取了其源代码，揭示了该平台通过抓取YouTube上数十年音频数据来训练其音乐生成模型。这一发现引发了对AI版权合规性的新一轮争议，Suno此前声称其模型基于“公开可用”数据，但源代码显

资讯 07-16 02:25 MIT

OpenAI打造AI超级黑客GPT-Red：以攻促防提升模型安全性

OpenAI开发了一个名为GPT-Red的LLM超级黑客，用作陪练来帮助其其他模型增强对网络攻击的防御能力。上周，该公司发布了旗舰LLM的最新版本GPT-5.6。OpenAI表示，通过与GPT-Red对抗训练，该模型成为其有史以来最稳健的版

资讯 07-16 02:25 TC

Thinking Machines携Inkling模型挑战通用AI

经过一年半的低调研发，AI初创公司Thinking Machines终于亮出首个开源模型Inkling，旨在打破“一刀切”式AI的垄断。该模型专注于定制化、可解释的机器学习，为企业提供更灵活、透明的AI解决方案。本文深度解析其技术定位、行业

资讯 07-16 02:24 WD

思考机器实验室首发9750亿参数开源模型Inkling

Thinking Machines Lab发布了其首个AI模型Inkling，这是一个拥有9750亿参数的开源模型，经过视频和音频数据训练，具备多模态理解能力。该模型的发布标志着这家新兴AI公司正式进入与Anthropic和OpenAI竞争

深度横评

查看全部 →

横评 07-16

Grok 4以94.15分居首：2026-07-16 Smoke快测数据简报

2026-07-16 赢政指数 Smoke 快测覆盖 9 个模型，Grok 4 以 94.15 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

横评 07-15

Claude Opus 4.7 与 Gemini 2.5 Pro 与 GPT-5.5并列100分：2026-07-15 Smoke快测数据简报

2026-07-15 赢政指数 Smoke 快测覆盖 10 个模型，Claude Opus 4.7 与 Gemini 2.5 Pro 与 GPT-5.5 以 100 分并列当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同

横评 07-14

DeepSeek V4 Pro以91.46分居首：2026-07-14 Smoke快测数据简报

2026-07-14 赢政指数 Smoke 快测覆盖 11 个模型，DeepSeek V4 Pro 以 91.46 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

WDCD 守约排行

#1 GPT-o3 94 #2 Grok 4 87.9 #3 Claude Opus 4.7 87.6 #4 Gemini 3.1 Pro 87.3 #5 DeepSeek V4 Pro 84.3 #6 Claude Sonnet 4.6 79.1 #7 GLM-4.6 78.3

查看完整守约排行 →

Research Lab

WDCD Run #233: GPT-o3 Leads with Zero Instruction Decay, Gemini 3.1 Pro Collapses Completely

WDCD Run #233 (2026-07-15) evaluated 11 frontier models on multi-turn commitment integrity, recordin

3大模型翻译对决：第29周质量评测，gpt-o3 以 9 分领跑

本周共翻译 361 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

WDCD Run #227: Grok 4 and DeepSeek V4 Pro Tie at 91.4 as Instruction Decay Averages -2.8% Across 11 Models

WDCD Run #227 (2026-07-12) evaluated 11 frontier models on multi-turn commitment integrity, with Gro

进入 Research Lab →

赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

深度横评

WDCD 守约排行

Research Lab