千问亮剑:阿里全新C端AI原生应用体验如何?

最近,国内AI的战场上,又多了一位参赛的C端选手——阿里千问App。

此次上线的千问,作为阿里旗下最强最新的Qwen大模型首个官方应用入口,剑指ChatGPT等全能AI应用标杆。

其核心竞争力在于Qwen系列模型——该系列模型在多项权威评测榜单中持续登顶,以领先性能构筑起底层技术壁垒。

但问题的关键在于:Benchmark上的高分,能否转化为用户手中真实可感的体验?

这篇文章卫夕就和大家一起来盘一盘——

一、千问需要将模型能力转化成好用的应用体验

一台好车,发动机的马力只是必要条件,而非充分条件,最终用户在意的,是这辆车整体开起来舒不舒服。

Qwen系列模型的实力毋庸置疑,Qwen的开源模型已经位列全球第一梯队,长期雄霸各类榜单。

同时其建立了一个完整的模型家族:语言、视觉理解、图像生成与编辑、视频生成、代码......几乎覆盖了所有关键场景。

这种全模态的能力矩阵,是千问区别于竞品的第一道护城河。

这一点对于竞争而言其实挺重要的,目前市面上各家AI偏科的不少——

DeepSeek产品没有视觉理解能力,ChatGPT的图像编辑打不过Nano Banana,Claude代码强但缺多模态。

而千问从一开始就是一个水桶型选手,没有明显的能力短板。

但千问App的现实挑战是:如何让Benchmark上的高分,变成用户手中实实在在的好用。

二、千问的创造性思维如何?

如果你问一个AI应用最重要的能力是什么,答案可能因人而异。

对于我而言,有一点是确定的:在我高频用它之前,它得让我识别到它的特点。

由于我个人的偏好,我测试AI应用喜欢用它们开一些脑洞,咱们废话少说,一起来看一看千问的测试表现——

第一个我常测的问题——

“假如唐朝就有微博,历史名人们会如何互动?”

500

千问的答案

可以看到,千问的答案一开始就精准拿捏李杜的性格反差,然后过渡到王维、孟浩然等不同圈层的互动,再加上了安史之乱的补充,到最后的假想微博体的文化意义。

答案的确Get到了这个整活问题的出发点,同时也没忘适当拔高和延展

再看一看豆包的答案——

500

豆包的答案

可以看到,和千问的“大局观”相比,它的回答直接而富有娱乐性。

直接将博文和评论互动列了出来,同时还加入了杨玉环这样的角色,符合豆包“内容向”、“娱乐向”的过往风格。

再来——

“分析一下《西游记》中四位主角的MBTI”

500

千问的答案

对于这个问题,两边的答案就有一些差异了。

先看结果,千问的结果是——唐僧INFJ、孙悟空ENTP、猪八戒ESFP、沙僧ISFJ。

而豆包的结果是——唐僧INFJ、孙悟空ESTP、猪八戒ESFP、沙僧ISTJ。

500

豆包的答案

二者在唐僧和猪八戒二人的结果上没有分歧,分歧在于——孙悟空到底是N还是S,沙僧到底是F还是T。

我个人倾向于孙悟空是S(更凭直觉而不是抽象),但千问的理由是孙悟空一眼看出妖怪的本质,因此不是直觉,这样听起来也有理有据。

至于沙僧,我则认为千问的答案T没毛病,沙僧在西游记里是有多次感情流露的。

对比二者,会发现豆包的答案更直接,而千问答案还会给出理论支撑的信息,更让人信服一些。

第三题——

这道题是来自我最近买的一本书——《501个创意写作练习》,一本全是提示词的书,我随便挑了一道:

500

千问的回答是这样的——

500

千问的答案

可以看到,千问的回答在行文水平上非常流畅,它选择了“打扫庭院”这个任务。

在语言上的确还原了极限运动播报员这一角色,更重要的是,它总结了行文思路,同时对其他任务也提供了播报的参考的方向,可以说非常贴心了。

500

豆包的答案

而豆包选择了“清扫房间”这个任务,行文同样对极限运动员还原的不错,从语言风格上,豆包有更多的引号,显得更加癫狂一些。

二者的取向并没有好坏之分,取决于具体用户的偏好,我个人更喜欢千问的版本稍多一些。

总体而言,我发现千问的答案找到了一个微妙的平衡点,它既不会过于拘谨显得无聊,也不会太过放飞而显得癫狂。

这种平衡,来自Qwen模型在训练时对结构化输出的强化,你能感受到它的确在思考、在组织。

它懂得什么时候该放飞,什么时候该收敛,从这个意义上,上面这些问题的答案千问表现不俗。

三、从有趣到有用:千问的另一面

创意只是开始,对于一个真正想要占据用户日常的AI应用来说,靠谱才是核心。

这就涉及到千问必须回答的第二个问题——

在实用、专业的场景中,它能否经得起考验?

我用几个真实场景测试了千问:

场景一:

“北京市的"工作居住证"如何办理?”

这是一个典型的"本地化、政策性"问题,它要求有准确的流程、最新的政策、可操作的步骤。

500

千问的答案

千问的回答非常出色,它从申请条件、申请材料、申请流程、待遇等方面详细给出。

甚至还给出了一些区的咨询电话,非常全面,同时在答案末尾还推荐了一些相关视频。

500

豆包的答案

而豆包的回答则要逊色一些,核心信息只有申请流程,而流程的4步只是一个概述,并没呈现相关细节。

场景二:

“请总结最近两年腾讯的前10大股东的变化情况。”

这是一个典型的专业研究场景,它需要AI准确查找信息,同时具有有数据分析的能力,还要结合提问进行推理。

500

千问的答案

千问的答案,不仅专门列出了南非报业、马化腾以及贝莱德投资者具体的变动。

还通过表格进行了相对清晰的统计,并结合变动分析了趋势,最后进行了总结,滴水不漏。

而豆包的答案直接列出了变动,但并未通过表格列出具体的前10大股东。

500

豆包的答案

我专门查验了一下,发现二者引用来源还挺不一样的,推测应该是引述不同来源导致的差异。

场景三:

“这是什么东西,应该如何使用?”

500

这是一个"视觉识别+推理"的场景,也是生活中常见的场景。

我家的洗手间,就有很多我媳妇儿各类瓶瓶罐罐,全是英文,不少我既不认识也不知道怎么用。

而AI则完全可以解决这个问题——

500

千问的答案

千问准确识别出了这是用于监测哮喘和慢阻肺最大流速的峰速仪,给出了品牌、产品特点、实用方法和注意事项,最后还给出了淘宝链接。

而豆包在同一场景下也很好地完成了任务,给出了使用方法和注意事项,最后还问用户是否需要补充使用清单。

500

豆包的答案

此外,我还用DeepSeek也试了一下,发现DeepSeek尽管识别正确,但它并非是通过视觉物品而得到的结论,而是识别图像上的文字。

当只给到纯物品图片时,DeepSeek就会提示“未提取到文字”,这一点千问会有明显优势。

500

DeepSeek的答案

此外,我还进行了一系列的其他测试,比如图片编辑、视频通话、深度研究等,千问的完成度比我预期的要高。

500

图片编辑功能默认有不同的滤镜,同时设置了扩图、去水印等常见操作。

我试了一下,去掉照片里的路人、AI试衣等常见的图片玩法毫无压力。

500

另外,我还用视频通话,简单对着桌面问了一下他看到了什么。

它的视频通话的延时非常低,画面描述也很精准,我相信家里老人们拿它识别一些花花草草肯定也非常实用。

500

可以看到——

得益于模型层的领先,无论是回答“工作居住证”这类政策问题,还是“腾讯股东变动”这类对准确性要求高的财经问题,还是生活中常见的识图场景,千问交出的答卷都滴水不漏。

如果用四个字形容,那就是“稳如老狗”:

首先,思考的思维链很清晰、质量很高。

同时在搜索结果引用和推理层面做到了切中要害,最后在呈现上(办理流程列出资料的具体项目、股权变动用图表对比)非常直观、详细,阅读体验很好。

其次,得益于其在多模态层面的领先优势,千问App超越了一个LLM的范畴。

因而可以做到在功能层面覆盖非常饱和(修图、视频通话、视频生成、PPT等等),能最大程度上满足不同用户的多元需求。

从这个意义上,我对千问的评价就两个字——靠谱。

靠谱这个词,说起来简单,背后其实包含了很多多东西,它涉及模型的能力、应用的设计、价值的取向等一系列复杂要素。

一个靠谱的AI,应该像一位值得信赖的专家,在你需要的时候,给出可执行的答案。

这一点,千问的确做得不错。

这几天,我在Twitter上也刷到了不少人对千问的评价,比如一位叫骆逸的建筑师是这样说的——

500

我想,用户自然的口碑可能就是千问最好的背书。

四、挑战与未来:千问能走多远?

在过去,Qwen大模型虽然在技术上领先,但普通用户感知不强。

而千问的使命就是要扭转这种局面,打通Qwen大模型和C端用户之间的最后一公里。

这种定位,决定了千问的产品逻辑:不只是要聊得来,更要用得上。

它希望覆盖用户从创意到执行的全流程,成为用户工作、学习、生活中全能助手。

而这并不容易。

接下里的战争应该非常精彩,字节、腾讯、阿里还有DeepSeek和Kimi,到底谁能在长期的竞争中胜出,值得从业者认真观察。

千问的一个挑战就是——如何建立自己的场景心智?

我直观的感觉,从目前的产品定位来看,千问野心就是要做中国的ChatGPT,但这个C端用户的心智如何建立,可能需要时间。

我倒认为,千问可以抓住"AI生产力平台"这个定位空白,强化相关场景,从而实现差异化竞争。

这需要千问在传播和运营上,找到清晰的锚点和场景,让用户知道,在什么情况下,第一时间想到千问。

从我个人的角度,我很期待的一点是千问之后在Agent能力上的升级迭代。

据《晚点》对千问团队的采访,千问后续差异化竞争点在于Agent——

“阿里体系下有这么多 Agent,怎么基于场景把它们更好地串联在一起?用户很多需求使用的不是一个或者两个 Agent 的服务,比如说我想要规划一个团建,调用的不只是飞猪,可能还有很多支付、出行、购物等一系列能力,怎么把它们有机且丝滑得串联在一起。”

的确,从能回答的Chatbot到能干活的Agent,其想象空间要大不少,而阿里的生态恰好又是和用户日常生活联系最紧密的系统,因而会带来很大的想象空间。

据腾讯的财报电话会,微信之后也会推出AI Agent,阿里和腾讯在C端的Agent赛道有一次重逢。

二者在打法上有哪些差异化看点,值得行业持续关注。

结语

千问的推出,是阿里在AI时代的一次重要战略布局。

过去几年,阿里在AI领域布局很全——

从底层算力(阿里云)、到模型研发(Qwen系列)、再到应用层面(千问、夸克AI、钉钉AI)。

这是一个全栈的打法。

千问App的推出,是这个全栈在C端的集中爆发,而千问承载的,是阿里对"AI新质生产力"的理解。

而到底什么是"AI新质生产力",每一个行业玩家都应该严肃思考。

——End——

站务

最近更新的专栏

全部专栏