时差也是战斗力!28日凌晨深夜放毒:DeepSeek又搞了个大新闻

凌晨一点多,手机突然震醒了我。眯眼一看,技术群炸了——DeepSeek那帮“卷王”又发新模型了。这次不是纯聊天机器人,而是直接杀进多模态战场,名字还特中二:**Janus-Pro**(雅努斯之神?罗马神话里那个双面门神?)。我趿拉着拖鞋摸到电脑前,翻完代码文档后彻底清醒:这玩意儿,怕是要让硅谷某些公司连夜改PPT。

500

---

 一、“分家过日子”的视觉编码器

都说“一山不容二虎”,但Janus-Pro偏要让视觉编码器玩**精神分裂**。传统模型总想用一套视觉编码通吃理解和生成,结果就像让同一个人既当画家又当评论家——画着画着就开始自我否定:“这线条太僵硬,色彩搭配简直灾难!” 

DeepSeek的工程师一拍脑袋:**拆!**  

- **理解任务**交给**SigLIP-L编码器**,384x384分辨率下连西湖边柳叶的露珠都能数清楚; 

500

- **生成任务**丢给**LlamaGen Tokenizer**,搭配SDXL-VAE模块,生成384x384图时连赛博朋克霓虹灯的渐变光晕都不带糊的。  

“这不就是离婚分房产吗?”程序员朋友在微信里吐槽。但现实是,分家后的模型在GenEval测试里准确率从61%飙到80%,把DALL-E 3和Stable Diffusion按在地上摩擦——果然,距离产生美。

---

500

二、甲方狂喜的“生成流”

做设计的都懂,最怕甲方说“感觉不对,再改18版”。Janus-Pro这次祭出的**JanusFlow**框架,简直就是**AI界的心理按摩师**:把校正流(Rectified Flow)和自回归语言模型嫁接,生成图片时自动微调细节。  

我试了下prompt:“生成赛博朋克版雷峰塔,塔顶要有悬浮全息广告,写着‘法海不懂爱’”。十秒后出图——琉璃瓦泛着荧光蓝,广告字体还是瘦金体!群里立刻炸出表情包:“建议直接取代某图秀秀设计师”。

---

500

三、7200万张“人造美图”的野望

听说Janus-Pro的训练数据里,**7200万张是AI生成的合成图**,和真实数据五五开。朋友调侃:“这不就是让AI自己画课本,再自己学?”但效果摆在那儿:生成的人像皮肤质感不再像硅胶娃娃,西湖夜景的倒影里居然有游船灯光的涟漪。  

更绝的是**1.5B到7B参数全系列开源**。昨夜已有大学生在论坛晒图:用学校机房的AMD 7800XT显卡(显存才16G!)跑起了14B模型,生成的毕业设计海报被导师怀疑“是不是外包给了4A公司”。

500

四、开源界的“价格屠夫”

DeepSeek这次继续**MIT协议全家桶**,连训练框架都白送。技术宅们算过账:用他们的API生成百万tokens,价格只有OpenAI的几十分之一,相当于“瑞幸打星巴克,还送你优惠券”。  

硅谷某不愿透露名字的CEO在推特哀嚎:“我们光买英伟达显卡就花了2个亿,他们训练Janus-Pro只用了560万美元?!”评论区中国网友补刀:“建议贵司行政批量采购拼多多显卡支架,能省点是点。”

---

500

五、深夜写稿的碎碎念

泡着枸杞茶敲下这些字时,突然想起二十年前第一次用PS修图的场景——那时候要调个色调得折腾半小时。如今Janus-Pro这类模型,正在把创作的门槛拆成碎片。  

有人担心AI会让设计师失业,我倒觉得相反:当工具足够聪明,人类的创意反而能挣脱技法的枷锁。就像当年傻瓜相机没杀死摄影,反而让更多人记录下烟火人间。  

PS:看了眼DeepSeek的GitHub仓库,凌晨四点还有37个commit在刷屏。果然,中国团队卷起技术来,连时差都是战斗力。  

硅基人

站务

全部专栏