PG娱乐电子游戏(中国)IOS|Android|通用APP下载 DeepSeek-V4和GPT-5.5第一波实测对决,约束出东说念主预感

剪辑:Aeneas KingHZ
昨夜,GPT-5.5居然按时发布了,全网莫得白等。更炸裂的是,就在并吞天,DeepSeek-V4紧随自后发布了!实测后,约束出东说念主预感。
2026年4月24日,这是属于全球AI开发者的「苟且星期五」,亦然科技史上注定被记得的一天。
凌晨本事,OpenAI的GPT-5.5如约空降,试图以皆备的参数再次界说智能畛域。
可是,就在大洋此岸的余震还未平息时,阿谁也曾数次单挑闭源巨头的国产「价钱屠户」与「效率天才」——DeepSeek,带着全新的V4系列来正面硬刚了!
当GPT-5.5还在试图用更立志的算力堆砌异日时,DeepSeek-V4照旧用1M超长凹凸文、并排顶级闭源模子的Agent才调,以及仅为前代10%的KV缓存占用,径直把大模子推向了「子民化智能」的极境。
一边是科技春晚般的丽都登场,一边是开源领域近乎「掀桌子」的绝地反击。咱们见证了一场精彩的「暴力好意思学」与「算法巧念念」的巅峰对决。
通往AGI的赛说念,霎时被这两大巨头镌汰了不少。
接下来,中国开源之光DeepSeek-V4和GPT-5.5,要来一场真刀实枪的实测大PK了。
GPT-5.5和DeepSeek-V4巅峰对决
第一题,一皆不错肉眼判断模子各异的电梯谜题,测的是「真谎言+身份推理」。
有四个东说念主 A、B、C、D,其中只消一个东说念主偷了相持。
他们折柳说了底下四句话: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在说谎。
已知: 1. 四句话中刚巧有两句是竟然。 2. 小偷说的话一定是谎言。 3. 非小偷不一定说实话,也可能说谎言。
请示:谁偷了相持?
这说念题看似通俗,但其实,在给出的条目下,B和C都稳定。因此,这是一皆专诚打算的「陷坑题」:若是模子径直给出唯独谜底C,诠释它莫得发扬考证唯独性。
确切想测的是,模子会不会发现题目自身不充分。
更强模子应该回答:无法唯独详情,小偷可能是B或C。题目条目不及。
这说念题给GPT-5.5后,它见效发现了陷坑。

把这说念题给DeepSeek-V4后,一个直不雅感受即是:它的念念考经由,竟然相配长长长长长。
GPT-5.5十几秒就出了谜底,四分钟了DeepSeek-V4还在跑。
不外好在,V4最终也给出了正确谜底。约束是好的,即是经由比拟慢。

第二题,咱们用数字竞赛题,来测试CoT的念念考上限。重点比拼两个模子的数学逻辑推理和念念考阵势效用。
既然DeepSeek-V4声称在STEM和竞赛型代码上并排顶级闭源模子,那咱们就望望V4和GPT-5.5在濒临东说念主类才能天花板题目时,谁的推导经由更严实,谁会出现更多幻觉。
咱们选了客岁国际奥数决赛的一皆真题:
Alice和Bob正在玩一个名为inekoalaty的双东说念主游戏,这个游戏的顺次依赖于一个两边都知说念的正实数λ。
在游戏的第n轮(从n=1出手),会发生以下情况:
• 若是n是奇数,Alice聘任一个非负实数xₙ,使得x₁ + x₂ + ⋯ + xₙ的总额不卓绝λn。
• 若是n是偶数,Bob聘任一个非负实数xₙ,使得x₁² + x₂² + ⋯ + xₙ²的总额不卓绝n。
若是一个玩家无法聘任一个安妥的xₙ,游戏收尾,另一个玩家见效。若是游戏无尽进行下去,莫得玩家见效。统统采取的数字对两个玩家都是已知的。
需要详情的是,哪些λ的值能确保Alice有见效政策,以及哪些λ的值能确保Bob有见效政策。

原题和谜底:https://web.evanchen.cc/exams/IMO-2025-notes.pdf
在进阶念念考深度下,GPT-5.5得到了正确谜底:

全程耗时2分钟51秒,念念路理会,输出体式也很漂亮。

在众人阵势下,开云中国2026世界杯app登录入口开启念念考阵势,相同的题目输入DeepSeek──

DeepSeek在念念考经由收尾前,莫得给出明确的输出。
点击接续后,DeepSeek也发现了谜底的痕迹:

临了,DeepSeek也见效诠释注解了这说念IMO决赛真题。

不错看出,DeepSeek推理才调、念念考深度的确逾越显明。
接下来,咱们老到一下两个模子的可视化才调。
生成一个HTML网页先容东说念主类的发源和生物的进化,要图文并茂,好理会。
DeepSeek此次效果更佳,GPT-5.5生成体式有些问题。



接下来,要求两个模子开发一个游戏网站,测试它们在动态图形、3D空间交互、碰撞检测和举座游戏架构方面的才调。
通过最终呈现,不错理会对比两个模子在2D概括殊效与3D场景构建、光照与及时粒子系统方面的代码生成才调、架构合感性以及视觉审好意思水平。
跟上头一样,GPT-5.5很快完成了这个任务,在预览中呈现了网站效果。

凹凸升沉稽察更多

DeepSeek-V4的念念考本事不长,最终效果不如GPT-5.5,这一轮V4完败。


GPT-5.5:更像个东说念主了
接下来,咱们还搜罗了一波AI大V和开发者们对GPT-5.5的实测。
在今天发布之前,多位早期测试者照旧用了两周。他们的论断高度一致:在编程、推理、长任务三个维度上,GPT-5.5全面登顶。
但确切让东说念主坐不住的不是它更智谋了,是它更「像个东说念主」了。
更贵的单价,反而更省钱;更强的才调,反而更会聊天;更高的自主性,反而更听话。这一次,OpenAI拆掉了旧时期的发动机,径直给模子装上了「灵魂」。

Codex,径直淘汰「AI扶持编程」!
不错说,GPT-5.5的Codex阵势,PG娱乐电子游戏(中国)IOS|Android|通用APP下载径直把「AI扶持编程」这个词淘汰了。
一位测试者扔给它一份完整的PRD文档,只说了一个词:go。
几个小时后,GPT-5.5就寥寂完成了统统这个词技俩构建。
更要道的,是GPT-5.5的使命神气。
它并不是写完代码等东说念主审,而是我方变成了闭环——构建,视觉检讨,发现问题,再迭代。
这种自主性,在其他模子上从未见过。
OpenAI究诘员Noam Brown的反馈,敬佩各人都照旧看过了。
用他的话说,「有了GPT-5.5,我的IC效率比以往任何时候都高。我当今不错像专科东说念主士一样编写CUDA kernels,不错依靠它来运行我的究诘施行。」

后端开发、复杂Bug定位、大型代码库理会,GPT-5.5在这些维度全面率先。
有测试者专门让它用Svelte写了一个自界说臆造升沉终了,完好调用了统统bind原语。
他的评价是:「我见过AI写出的最好的代码,来自这个模子。」
辞天下上最难的电子表格任务上,GPT-5.5终了全新SOTA:速率最快、效率最高。


更狠的是,GPT-5.5的握续究诘才调,已有迹象标明AI照旧能胜任究诘相助者——
东说念主类究诘东说念主员只需要建议构想,全程无需写一滑代码,GPT-5.5全部自主完成。

致使不错自主运行31个小时!

这意味着,AI正从「助理」变为「雇佣兵」。你不需要告诉它如何走,你只需要给它一个绝顶。
不外短板相同存在。
前端打算仍然不如Opus,反馈速率不如Opus 4.6 Fast。

复杂布局偶而候径直甩一张img了事,SVG硬编码把我方绕晕。
何况变得过度严慎——动不动就问你问题,prompt稍有失慎就会触发「苟且写单位测试」阵势。
回顾即是:才调很强,但需要顺从。
沃顿商学院的耕作Ethan Mollick测试了GPT-5.5好几周,得出论断:目下,GPT-5.5 Pro即是处理复杂问题的最好模子。


更贵的模子,如何反而更低廉
GPT-5.5的订价比5.4更高。

纸面上看不是好音问。
但一位深度测试两周的开发者给出了要道数据:达到GPT-5.4同等智能水平,GPT-5.5浪掷的Token权贵更少。综划算下来,举座运行资本反而更低。
「这可能比大巨额东说念主坚强到的更遑急。」

在Artificial Analysis指数的资人道能前沿上,GPT-5.5模子系列占据皆备主导地位。

速率端的普及,就愈加直不雅了。
早期测试者的实测数据摆在这里——
GPT-5.5 Thinking Heavy阵势,2分钟出的谜底,比GPT-5.4 Thinking Heavy花10分钟出的更好。
GPT-5.5 Pro,8分钟的输出质料,卓绝GPT-5.4 Pro花30分钟的约束。
相同的活,本事砍了80%,质料还涨了。
Token效率这件事为什么遑急?因为它径直决定了AI Agent的经济可行性。
一个每跑一次任务就烧掉几好意思元Token的模子,没法大限制部署到真实使命流里。当今,GPT-5.5把这个门槛往下压了一大截。


为什么GPT-5.5嗅觉不一样?
GPT-5.5开导在一次新的预西宾(pre-train)之上。
所谓预西宾,即是那种限制深广、资本立志的基础西宾经由:在教导微调、器用使用和推理脚手架等后西宾表率加入之前,它先造就基础模子底层阵势。
后西宾不错让模子更听话、更安全,或者更具智能体才调;但一次新的预西宾,则可能改革模子自身的「要点」。
其实,OpenAI照旧通过GPT-5.4诠释注解,我方从头具备了强竞争力。
GPT-5.4使用的仍然是早期GPT-5.x模子的并吞套预西宾。
而当今发布一个新的预西宾。

此外,有外洋科技媒体报说念,GPT-5.5也即是Spud「将是更智能的预西宾模子」。

当今,GPT-5.5的隆重发布,更贵反而更低廉,编程效果又好得零碎,推测GPT-5.5可能仅仅新预西宾模子的开动强化学习Checkpoint。

奥特曼径直摊牌了:GPT-5.5还会快速迭代。

这诠释OpenAI想接续向Anthropic施压:它押注的是,回报Claude的下一步,不仅仅围绕并吞个底座作念更好的脚手架,而是换一个不同的基础模子。

GPT-5.5即是GPT-5.5,但无东说念主关怀了
统统这个词GPT-5.5发布中,最遑急的后果可能是前所未有的齐集安全才调:
在一次齐集攻防评估中,GPT-5.5在10次历练中有1次见效接管了模拟的企业齐集,预算为1亿个token。

此前,唯独或者完成此任务的模子Claude Mythos,它在10次尝试中见效了3次。
Opus 4.6和Opus 4.7都作念不到,GPT-5.4、GPT-5.3-Codex也作念不到。
在预计AI长本事跨度内经贸易务才调的Vending-Bench Arena中,GPT-5.5再次打败Opus 4.7。

而Opus 4.7依旧延续Opus 4.6的政策:撒谎赖账,拒不退货;GPT-5.5获得堂堂正正。
这诠释GPT的对皆和才调同步普及,号称「才疏意广、秉文兼武」。

GPT终于通关《宝可梦》!

GPT-5.4曾在一个轮回迷宫里反复读档,像个堕入算法死轮回的孤魂。
而GPT-5.5不仅第一次尝试就大意打赢了强敌,致使展现出确切的「东说念主类逻辑」——它会主动拿取说念具、购物、规画旅途,而不是暴力试错。
在网友定制的超等难度的《宝可梦 水晶》中,GPT-5.5依旧大意通关。

别被版块号里的「+0.1」骗了,GPT-5.5是一次要紧更新。
诡异的是,关于99%的用户而言,这些都不遑急。
最遑急的亮点在于才调范围。GPT-5.5弥补了GPT系列在某些方面的不及:
基于现存凹凸文进行打算、iOS/原生Mac讹诈、安全等方面。

此次发布有一种心计上很奇怪的场所。
GPT-5嗅觉像一次相变,因为它举高了「可能性」的天花板。
GPT-5.3-Codex嗅觉像一次相变,因为它让长本事运行的自主工程在操作层面变得真实可用。
GPT-5.5并非如斯。
它更像把轻佻边际磨平,让薄弱类别不再那么弱,让模子在更多真实天下的紊乱使命中变得更灵验。
它并不完好,它莫得蓦然变成最好的打算模子,它不是魔法。
若是你想发扬完成遑急使命,你仍然需要给它明确主义、真实凹凸文和考证神气。
对大巨额东说念主、在大巨额任务上PG娱乐电子游戏(中国)IOS|Android|通用APP下载,GPT-5.5与其说是一种全新才调,不如说是让现存才调变得更宽、更安全、更可靠。它把这个模子补圆了。
博亚体育app中国官方入口