谷歌大脑之父钦点的AI突破口,又被钉钉先用上了?

明明是解放生产力的存在,结果却成了现在最拼命的行当。地表最卷行业 AI 大模型,最近又出现了一位新星。

就在前两天,前百度首席科学家、谷歌大脑之父吴恩达给出了个预测,他指出一个叫 AI 工作流的模式,将会是行业突破的新方向。

甚至他抛出了一个观点,认为 AI 工作流的贡献会超过下一代基础模型,并呼吁所有人都去关注这个方向。

500

AI 工作流其实并不复杂,就是一种最新的大模型应用模式。在吴恩达提出前,国内外的各种协同办公软件巨头就已经陆续在尝试,比如 Slack、Notion,还有扣子的 Workflow

其实不难感知到,每次 AI 领域一有新动向,协同办公软件总是嗅觉最灵敏,最先感知到的那一批人。因为它们离打工人的工作和生产,最为接近。像大模型最开始上线,办公软件里就跟上了文档润色、改写。

而作为国内协同办公的领头羊,钉钉自然也不会缺席行业的新热潮。

500

就在今天,钉钉宣布更新钉钉 AI 助理。既跟上了 GPT-4V 引发的多模态热潮,又首次加入了工作流模式的尝试。

500

知危编辑部体验下来,觉得钉钉的多模态输入已经可以说相当成熟。几乎把 AI 延伸到了你日常会使用到的所有场景和形式上。

之前就有的各项 AI 能力被全面加码,比如对图片的处理效果提升极大。先是识别更加精准,即便是风景照片都可以定位出位置,比如这张札幌电视塔的图。

500

而且,对内容的处理也更全面和细致。整理出这张商标的信息后,还不忘提醒其中缺少的信息,点出需要注意的地方。

500

强大的识别,再加上大模型的基础能力,很多没想过的任务都能交给它做。比如你可以甩出一张血液检测报告单,它能分项罗列出问题所在。

500

除了对原有能力的提升,也增加了很多 AI 能处理的内容格式。比如从文本处理,从 Dox、PDF 这种基础格式,拓展到了 Excel 和 PPT。

像编辑部每周的阅读量汇总表,后台导出来后直接传给 AI 助手。它自动生成了饼图,方便直观对照。

500

不过,比起图表识别,知危编辑部觉得钉钉这次升级的视频速读功能,对打工人来说更为实用。

图表还可以靠小工具辅助处理,但来一段内部分享的培训、演讲视频,处理起来就麻烦了。因为你没法快速获取视频里的文字信息,只能从头扒到尾。

所以,钉钉把本就很强大的 AI 会议处理能力,扩展到所有上传的视频上。点一下快速阅读,一份完整的概要就浓缩完毕。

500

如果感觉消化概要也很费时,你还可以和 AI 助理直接对话,它会基于视频内容来进一步解答。比如一条时间线,就把 OpenAI 创始人解雇风波理清了。

500

哪怕是 2G、几个小时的超长视频,3 分钟之内即可全篇速读。再结合钉钉功能强大的闪记,大大减轻了梳理的工作量,数小时的英文发布会,几分钟消化好。( 注:钉钉反馈,原理是基于视频中文案的语音转文字,进行摘要、解析;并非视频理解模型。)

500

点击智能纪要的各段,还能跳转到视频对应处

如果你在网上看到感兴趣的文章,或者是老板分享了某个平台的链接,让你学习领悟。你不用急着下载视频,甚至链接都不用点开。分享链接的右下角,自动会跳出一个【 快速阅读 】的入口。点进去,AI 就会自动总结链接里的内容。

500

知危编辑部选择的这个 10 分钟的中长视频,几乎是瞬间处理完毕。

当然,只有快是不够的,重点是它捕捉的信息够精准。视频里主要的几点疑问:淀粉肠是狗粮做的吗?鸡骨泥是什么?符合国家规定吗?

钉钉 AI 助理整理出的答案基本都符合,洗清了鸡骨泥和淀粉肠的嫌疑。

500

上面就是钉钉更新的几种多模态,从文字、表格到图片、视频,甚至链接,基本做到了我们工作生活全覆盖。

聊完这些基础的功能,就来到开头提到的 AI 工作流。

500

正式分析之前,知危编辑部先讲几个例子。比如我想要采购衣架,对 AI 输入一些需求信息,像是价格的上下限、采购的数量后,点击检索。

500

几秒钟后,符合要求的 6 个商品链接就被整理出来了。如果不满意,还可以选择换一批。

500

然后,我再让 AI 助理去扒取最新的新闻热点。比如 3 月 25 号,新能源车圈里有哪些值得关注的新闻。抓取速度也很快,马上就分点罗列好了。

500

能看出生成的效果都不错,检索结果也很精准。不过,生成结果并不是这次的重点其实这两个问题,知危编辑部分别用了自己建的两个 AI 助理。

我们能看到它们后台的执行逻辑是不同的,为了满足不同的结果,我们设置了不同的执行节点和内容。

500

商品检索的后台设置

500

新闻检索的后台设置

这些可以人为设置的节点,才是 AI 工作流的关键。

我们可以自己规定 AI 每一步要做什么,是要发起上网搜索请求,还是要创建待办、获取日期。

500

步骤的详细设置,会提高 AI 的工作效率和结果。以前我们让 GPT 写一篇文章,它像在黑箱里面工作,你无法得知它如何生成内容。

但现在,使用者可以让 AI 按照我们设定的流程执行指令。

依旧是写一篇文章,让它先根据主题和关键词,构建文章结构。生成大纲之后,再去网上搜索资料,将大纲填充成初稿。而后设置下个节点,让 AI 对初稿内容,进行错别字和语法的修订。最后,再对文章进行一次梳理和审阅。

上面这套流程,就是吴恩达进行过的操作,他发现让 AI 模仿人类的这套写作模式,可以极大提高模型生成的效果。在零样本的情况下,GPT-3.5  生成效果比 GPT-4 差了近 20%,但当它进入一个智能循环工作里,准确率能提高到 95.1% 。

500

目前,各家协同办公软件都还在磨合和尝试当中。或许未来我们就可以根据自己的工作习惯,设置一套新的流程,也可以接入需要的插件来改造它。

如果你没有编程基础,也无需担心。钉钉一向都是小白友好,里面自带了很多现成模板和插件,比如写微博爆文、查询各站新闻。

500

500

从钉钉 AI 助理种种表现,和对工作流模式这次的消化更新中,我们不难感受到钉钉稳扎稳打的模型能力。

更新后的 AI 助理,接入了通义千问 Qwen-VL-Max 视觉理解模型。在很多权威测评里,这个模型的中文处理能力均是顶尖的,其他成绩也都比肩谷歌的 Gemini Ultra 和 OpenAI 的GPT-4V。

正是有了可靠的地基,钉钉 AI 助理才能卷到更复杂的 AI 新模式上。

500

其实,钉钉 AI 助理刚上线的时候,知危编辑部就第一时间上手过。当时虽然框架已经有了雏形,却难掩青涩,生成结果时常不稳定。

但上线的短短几个月时间里,这个结论不断地被颠覆。钉钉的每次更新都能给出新惊喜,尤其这次,各项过硬的测试结果在证明着它肉眼可见的成熟。

只有钉钉这样的迭代速度,才能在这个行业里生存和长青。因为从慢慢失去热度的 GPTs 中,我们不难感受到这个行业的残酷和日新月异。

而钉钉可以在兼顾模型能力快速迭代的同时,还能精准捕捉最前沿的风向,并立马做出尝试。像这次它们给出的选择是:比起各种应用玩法,内嵌在实际工作中的实用型 AI 应用,更会脱颖而出。

不同的人、不同的工种,肯定更清楚自己这项工作到底什么样的流程效果最好、效率最高,那么设计出来的大模型工作流,也是最合理的。

正像吴恩达说的,这种迭代工作流也会比单次编写,生成效果更好。事实证明,像钉钉这样对新模式和方向的尝试和挖掘,其实跟砸入大量精力迭代大模型一样重要。

全部专栏