

(文/陈济深裁剪/张广凯)
"Soon,weseeyou."
4月28日上昼,DeepSeek多模态团队策动员陈小康(X账号@PKUCXK)发出了这条推文。配图是两只蓝色的小鲸鱼——左边那只戴着画有"XX"的玄色眼罩,右边那只没戴眼罩、闲居泄漏眼睛。

陈小康(@PKUCXK)4月28日发布的推文,配图为两只鲸鱼对照
尽管这条推文很快被陈小康我方删除了。但这条推文或在示意DeepSeek的多模态功能或快要期上线。
除了该推文外,有效户截图高傲,chat.deepseek.com输入框上方也曾出现过三个比肩的标签——除了原有的「快速方法」「行家方法」,多出了一个「识图方法」,鼠标悬停后弹出的提醒语是"图片理会功能内测中"。这是DeepSeek出圈以来第一次在干线居品里把视觉理会行动孤苦方法呈现。但需要剖释的是,这个标签并不是整个效户都能看到,咫尺也无法证明它是常态化的灰度内测,如故良晌怒放后又被回收——DeepSeek官方至此莫得任何对外剖释。

DeepSeek网页端出现的"识图方法"tab,标注"图片理会功能内测中"
证据该用户测试信息高傲,在试图方法里,用户上传了一张东说念主物像片并发问"这是什么动作姿势"。DeepSeek想考8秒后,先按位置、手臂、头部、头发、着装、光影逐项拆解了画面——"躯干呈一定角度,但面部昭着朝向镜头""发丝洒落在脸上和肩膀周围""高对比度,肤色惨白,深色穿着和暗影"——再给出最终判断:这是影相和外交媒体语境里的"慵懒风躺姿"或"清凉氛围感姿势",常出当今小红书、抖音的"宅家""慵懒风""清凉感"等标签下。
值得记下的是这段想考历程里有一步明确的"自我修正研讨"。模子先列出了其他可能的解读——"手放在胸/肩处的『淑女』姿势"、"忧郁的自拍姿势"——再判断"慵懒氛围感姿势"才是最能涵盖整个细节的描画,终末才输出。这种结构化拆解、自我复核加文化语境识别的组合,也曾超出DeepSeek畴昔干线居品上"图片识笔墨"的智商档次。

图3:沃垠AI流出的DeepSeek识图功能对话截图,高傲了完好的拆解和自我修正历程
对话贯串:https://chat.deepseek.com/share/ablc57vmv2ompm3vy6
值得详确的是,V2EX网友MichaelBitzo4月29日下昼发帖称DeepSeekAPI也曾复返"识图方法"字段,跟帖的其他用户实测反映"如故不可用现象"——意味着接口侧的字段也曾存在,但调用尚未对外怒放。
DeepSeek-V4预览版4月24日上线,陈小康那条推文发布于4月28日,距离V4只隔了四天。多模态团队负责东说念主发出预报,干线居品冒出新tab,对话分享贯串见效,开云体育(中国)官方网站API字段复返——指向都比较一致:DeepSeek正在为干线居品装上视觉理会智商。但具体什么时候崇拜开闸、是否还会在五一假期前后落地,达成发稿尚莫得官方时期表。
V4自己莫得原生多模态。4月24日发布本日,DeepSeek官方对V4的界说汇注在三件事上——百万级长险峻文、Agent智商、推感性能。媒体复盘的判断也省略一致:V4在长险峻文资本、Coding和Agent任务上达到了开源模子的第一梯队,但穷苦原生多模态是昭着的短板。钛媒体的实测稿直言"V4咫尺并莫得原生多模态功能,这会法例它在一些场景的阐述"。36氪的复盘稿则涌现,DeepSeek暂缓多模态生成的磨真金不怕火计谋,主要源于算力和现款的制肘。
但DeepSeek的策动侧,并莫得在多模态上停驻来。
陈小康博士毕业于北京大学,2024年加入DeepSeek,主导多模态预磨真金不怕火和后磨真金不怕火责任。从他的Google学术页里能数出一长串连络遵守——2024年12月开源的DeepSeek-VL2(基于MoE架构,激活参数最大4.5B)、2025年发布并被CVPR收录的Janus和JanusFlow,再到春节前后开源的Janus-Pro。其中Janus-Pro在GenEval图像生成基准上高出了DALLE-3和StableDiffusion3,是其时开源多模态阵营里最受关爱的遵守之一。
也等于说,DeepSeek多模态团队的论文和开源模子一直在出,缺的仅仅把这套智商接到干线居品上。
V4之前,爱游戏体育DeepSeek干线居品里和"看图"连络的功能惟有一项:chat.deepseek.com的"快速方法"支抓识别图片中的笔墨,但实质是OCR调用,不是果真道理道理上的视觉理会。这一次冒出来的"识图方法",从沃垠那段对话case看,也曾超出笔墨识别的档次,插足到画面语义、空间结构、氛围审好意思和文化语境的判断这一层。
事实上,铺垫4月初就运行了。4月8日,DeepSeek网页端在输入框上方第一次新增了「快速方法」和「行家方法」两个图标——这是DeepSeek出圈以来第一次在居品界面里作念智商分层。爱范儿其时的实测稿征引工夫KOLTeortaxes的判断:把Vision单独列为一个类是很不寻常的打算,DeepSeek此前圮绝在网页端部署DS-VL系列,原因是"尚未锻练"。若是Vision方法真的上线,背后相沿它的很可能也曾是一个皆备功能化的VLM,以至是Janus系列的下一步演化。
也等于说,从4月8日的分层进口,到4月24日V4纯文本发布,再到4月28日陈小康那条已被删除的预报,到4月29日"识图方法"在网页端、对话分享和API三个层面同期冒头——这是一条一语气的居品节拍,仅仅DeepSeek我方暂时还没把它说出来。
DeepSeek多模态团队连年也并非莫得东说念主员变动。据《京报网》征引的公开音问,DeepSeek多模态中枢孝顺者阮翀本年4月加盟自动驾驶公司元帅启行任首席科学家,DeepSeek-OCR系列中枢作家魏浩然也在春节前后去职。在这些变动之后,多模态团队的居品化程度依然激动到面前节点,自己亦然一个值得记载的信息。
DeepSeek把识图智商奉上干线居品的时期点,落在一个比较非凡的行业拐点上。
按咫尺公开信息盘货,国内主要模子公司的多模态布局也曾基本铺皆。阿里巴巴的Qwen系列推出了多代Qwen-VL视觉说话模子;智谱的GLM-V辘集GLM-4和GLM-5两代;字节朝上和阶跃星辰把"全模态"行动中枢定位,阶跃年头的Step3.5Flash把全模态智商初度开源;月之暗面的Kimi同步在视觉理会和Coding两条线并行;MiniMax在保抓说话模子智商的同期把视频生成模子行动相反化上风。腾讯混元4月23日发布的Hy3preview则把对标指标定为DeepSeek和阿里。换句话说,国内头部模子公司里,干线居品上莫得视觉理会智商的,咫尺只剩DeepSeek一家。
DeepSeek此次一朝崇拜开闸,意味着这条尾巴也合上了。中国头部模子公司全员"睁眼",这是2026年模子层一个比较结构性的变化。
让这件事变得更伏击的是Agent。
V4发布稿里,DeepSeek官方明确提到针对ClaudeCode、OpenClaw、OpenCode、CodeBuddy等主流Agent居品作念了适配优化,Agent智商是V4三个中枢卖点之一。但纯文本Agent的智商上限是有限的——当Agent需要操作浏览器、读截图、看形貌盘、识别UI元素、惩办图表和PDF的时候,莫得视觉理会就没见解完成闭环。这亦然畴昔半年ComputerUse、屏幕操作Agent这一类居品汇注冒出来的原因。
智谱的AutoClaw、阿里云的CodingPlan、Anthropic的ComputerUse,在底层逻辑上分享一个判断:Agent要果真插足坐褥力场景,视觉智商是基础秩序而不是诚心诚意。从这个角度看,DeepSeek此次给干线居品装上识图智商,更接近补一张入场券,而不是单纯补短板。
不外具体效果还得等崇拜开闸之后看。沃垠流出的阿谁case里,DeepSeek识图模子阐扬出了画面拆解、自我复核和文化语境识别的智商,但单点case不可替代系统性测评。和Qwen-VL、GLM-V、Step的多模态版块比拟能拉开若干差距,能不可接住开源社区对DeepSeek一贯的"打榜"期待,咫尺都莫得可对比的数据。
另一个待不雅察的悬念是开源计谋。DeepSeek畴昔把整个大版块模子都作念了开源——包括VL、VL2、Janus系列。若是此次的识图智商最终也走开源门路,开源多模态阵营会再加多一个旗舰玩家;若是走闭源或半开源门路,则意味着DeepSeek在多模态生意化旅途上作念了一次和畴昔不同的采选。研讨到DeepSeek正在以高出200亿好意思元估值寻求融资爱游戏体育官网,旅途采选的信号道理道理不会小。
乐鱼中国app官网入口
备案号: