kaiyun体育(中国)2026世界杯 阶跃Step 3.7 Flash登顶AA榜:速率、性价比、端到端三项第一
OpenRouter Trending 榜单冷不防窜出一匹国产黑马,热度暴涨稳居全球第二。
定睛一看,本来是阶跃星辰新发的Step 3.7 Flash。
再一看,不单 OpenRouter,这个新模子在AA 榜那里也顺遂拿了几个第一;
在 HuggingFace 上开源之后的下载量和商榷也一直没降过温。
这我是真意思意思,这新模子到底火在哪了。
于是咱去感受了一波,手把手教我用 Blender 这种专科 3D 软件就算了;
它竟然还径直带我开飞机,没错,是简直大飞机!!
模样盘、旁边杆、遨游参数…它一边看屏幕一边讲下一步该按哪个按钮。
虽然了,教我开飞机仅仅节目限制,要点是 Step 3.7 Flash 我方也升空了——
Token 意思上的速率升空,输出速率最高416 tokens/s。

不光快吧,东说念主家还省钱,单任务资本压到了 Claude Opus 4.6 的约 1/9,但编程材干却作念到了 Claude 的 97%。

只可说,停停停诸君先别跑分了,咋嗅觉 Step 3.7 Flash 此次换顺利率吩咐了呢。
模子竞赛的赛点,从单次最强挪到了服从优先
其实前两年大模子圈子的画风还相比浅近。
群众比的是啥?比谁明智。
各家埋头刷 Benchmark,得益多拿一两分就能小火一把,那时比拼的中枢是模子单次问答材干的上限。
但本年风向变了。
服气群众也齐发现,OpenAI、Anthropic、Cursor 嘴里念叨的关节词换成了企业级 Agent、器用调用、任务委用……跟着 Agent 成为主流寇所在法,原先只拼单点性能的老一套竞赛规定不适用了。
在参预信得过业务的 Agent 职责链路后,AI 要反复调用器用、多轮检索信息、分步拆解复杂任务。
问题就出在这儿。
一次回复慢两秒,你能忍,但 Agent 一个任务要调几十次模子,每次齐慢两秒,谁的火气齐大。
调一次贵小数没嗅觉,调几十几百次之后,账单倏得就运行在你血压上蹦迪了。
这种高频交互带来的调用量暴涨,推理蔓延、Token 破费成倍飙升,不光是咱泛泛用着憋闷,拓荒者和企业的钱包更是遭不住啊。
业内近一年的 Agent 接洽也运行专门引入「预算拘谨」「资本最优指标」等评价维度,本色上即是因为推理资本仍是成为 Agent 落地的中枢瓶颈。

是以当今用 AI,真卡住生产的、也急需优化的即是Token 服从,具体体当今推理速率和调用资本两个维度。
阶跃星辰此次,好像真找到了 Agent 时间的版块谜底:
相通的活儿,Step 3.7 Flash 能更快、更低廉地干完。
咱索性就径直上手试一试!
实测 Step 3.7 Flash:又快又省钱多模态清醒材干
先来望望它看图作事的材干何如样。
上传了一张机灵手图片,它能接洽外不雅细节快速阐明,还能精确识别分段指节、灰色阻尼指尖、腕部接口等特征。

既然产物阐明了,那咱再来望望参数,径直让模子我方去搜,临了给我一张产物表格。

于是 Step 3.7 Flash 联网搜索了这款机灵手全维度参数,把厂商信息、硬件建树、负载、售价等内容全给整理了出来。
只不外皮格太长,我只截取了结构和感知的一部分。

在这个任务里,模子分析的内容基本达标,体验下来嗅觉反应速率如实很快。
器用编排材干
接下来,咱们给 Step 3.7 Flash 一条龙杂活,考考它的器用编排材干,主要看它是否能在长程多轮里雄厚调用器用、不跑偏。
比如说,整理报销单。

想必群众齐以为,搞发票是一件很结巴的事情。
出差一回,龙虎棋牌2026世界杯官方最新版总会积压四五张发票,要一张张查对金额,还要整理好并填写相应的报销范例。
于是,我把发票全部放在了一个文献夹里,然后把它丢给了 Step 3.7 Flash(此处接入了 OpenClaw)。

输入教导词后,就径直让它开干了。
OpenClaw 里不错看到任务完成的计时,大概也就不到 60 秒吧…它就告诉我它干收场。

文献夹里多了两份它写好的文献,一个是报销的 Excel 文献,列出了报销清单,另一份是给财务的报销讲明。
一一掀开来看,也莫得任何问题,写的内容齐备无误。


多 Agent 集群材干
接下来,咱们把难度又再拉升一个等第:考考 Step 3.7 Flash 的多 Agent 集群材干。
官方演示里不是有个「40 个 Agent 演坐褥物评测团」的 case 嘛,我就畸形意思意思,想要复刻一下。
具体任务是这样的:
一个新的外卖 App,准备在「拼单 /AI 点菜保举 / 会员扣头 / 深夜配送 / 碳积分」5 个新功能里挑要点作念。
让 40 个不同庚岁、功绩、消费习气的造谣用户差异投票并说情理,临了汇总出每个功能的偏好分散和典型反对意见。
虽然,不仅仅给它教导词这样浅近。
咱们先让 Step 3.7 Flash 生成 40 个互异化造谣用户,粉饰大学生、互联网产物司理、中学西席、夜班照拂、解放影相师等不同东说念主群。

然后再把这 40 个 persona 差异投喂给 Step 3.7 Flash。
每个 Agent 要作念的是:站在我方的东说念主设视角,对 5 个功能作念排序,选出最想优先上线的功能,并给出复古情理和最不看好的功能。
临了,把 40 个 Agent 的限制斡旋汇总,并生成一个可视化看板。
限制也挺特殊想的:40 个 Agent 全部灵验复返,kaiyun体育中国2026世界杯入口莫得出现变装浑浊或者形势大面积跑偏。
最终投票里,AI 点菜保举拿到 11 票,排第一;拼单拿到 10 票,紧随其后;深夜配送 8 票,会员扣头 6 票,碳积分 5 票。
其中还能看到更细的东说念主群分层,比如年青白领更偏向 AI 点菜保举,因为它贬责的是「今天吃什么」的高频有诡计疲钝。
而学生等价钱敏锐东说念主群,更倾向拼单会通员扣头,因为能凑起送价、摊配送费。
从限制来看,Step 3.7 Flash 在这个任务里的线路如故挺稳的:
40 个造谣用户的画像互异显著,投票情理和东说念主设基本能对上,也莫得出现群众齐选吞并个功能的「假共鸣」。
亚搏体育中国官网在线入口这波首要利好产物司理啊!让 Agent 集群先开一轮需求评审会,我方只需要拍板下一步就不错了 ~

实测下来,我对 Step 3.7 Flash 的第一印象即是快。
每个任务,浅近的不到一分钟,复杂的也即是几分钟,它就能给我委用出限制。
有句话叫唯快不破。在传统单轮问答里,快小数仅仅体验更顺。但在 Agent 场景里,速率径直决定任务能不成用。
官方先容 Step 3.7 Flash 时,把这个数字拉到了一个新的工程极限:单任务最高逾越 400tps。
这是什么想法?在莫得尽头推理加快的前提下,绝大多半模子的推理速率齐在 100tps 以下,主流甚而只在 30tps 高下。
在 Artificial Analysis 的速率天梯上,此前最快的 GPT-5.3 也就 70 多 tps。Step 3.7 Flash 是在复古多模态的前提下,硬把速率顶到了 400tps。

国际还有拓荒者把 Step 3.7 Flash 和几个主流模子放在沿路测,限制发现 3.7 Flash 跑出了 2123 tok/s,一骑绝尘。

他自后还在 NVFP4 拓荒下,把极限微辞顶到了 6000 tok/s,旧例高下文长度下也能雄厚在 2000 tok/s。

然则光快还不够,Agent 也肃肃一个性价比为王,这里比的是单元资本能委用若干灵验限制。
Step 3.7 Flash 的解法,是把性价比作念成了可界限化的底气。在 OpenRouter 上,它的订价是每百万输入 token 0.2 好意思元、输出 token 1.15 好意思元。
两代 Flash 背后,阶跃算的是一笔企业账
把视角拉远小数会发现,Step 3.7 Flash 并不是一时兴起。
它不竭的是阶跃上一代 Step 3.5 Flash 的吩咐:追求服从上限、强调实用,在速率、性能和性价比之间找均衡,还复古土产货部署。
3.7 在这个基础上更进一步,兼顾了更多材干的协同服从,也在资本、雄厚性和部署方法上更扛得住恒久运行。
这条路能不成跑通,上一代 3.5 Flash 早就用真金白银考据过了。
本年 2 月,Step 3.5 Flash 发布,两天登顶 OpenRouter Trending,一个月内 OpenClaw 调用量作念到了全球第一。
此外,Step 3.5 Flash 上线两个多月就量产上车,登陆极氪 8X,径直当上了这款旗舰车型的「Agent 大脑」。
从开源榜单一齐走到量产车机,阶跃 Flash 系列在信得过场景里的可用性和性价比,仍是被商场投了票。
还有拓荒者统计了 OpenRouter 上 60 多个服务商的 398 个中枢数据,整理出一张「缓存射中率排名榜」。
阶跃以 86.1% 排进 S 档、位列全球第二,仅次于 DeepSeek,和 DeepSeek、月之暗面沿路站在了全球第一梯队。
缓存射中率高,讲明它底层的推理系统工程作念得好——在长任务、Agent、RAG 这些场景里,重迭的高下文前缀能被高效复用,径直换来更低资本、更高微辞、更低蔓延。
某些场景下,它的施行推理资本会大幅低于其他模子,速率上风也更显著,尤其符合复杂长任务。
换句话说,在企业级 Agent 商场,阶跃的模子「畸形值钱」。

相连两代 Flash 的研发想路,其实透出了阶跃对 AI 交易化旅途的判断:
将来大界限落地的 AI 愚弄,不会只靠少数腾贵的旗舰模子,而会变成一套由不同材干、资本、部署方法构成的「模子组合」。
高服从的 Flash 模子,会在 Agent、Coding、Search、多模态办公和企业职责流里,承担越来越多的生产任务,成为 AI 界限化落地的迫切基础依次。
这个判断并不独处。本年 Anthropic 的 ARR,从 2025 年底的约 90 亿好意思元,一齐冲到 2026 年的数百亿好意思元量级,其中约概况收入来自企业客户。
企业级 Agent 的交易化后劲,正在被真金白银考据。
说到底,当 Agent 从 Demo 走进信得过生产,赛点早就从「谁更明智」,换成了「谁能在单元资本下,把更多信得过任务又快又稳地跑完」。
Step 3.7 Flash 最近这一波蹿红,是这个新赛点的体现,亦然大模子竞速新竞争力的钟声。
体验地址:https://chat.stepfun.com/chats/new
一键三连「点赞」「转发」「贯注心」
迎接在驳倒区留住你的宗旨!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见kaiyun体育(中国)2026世界杯