5年前曾对标谷歌Kaggle,中国数据科学产品如何炼成?

500

原创:谭婧

人类正从IT走向DT(Data Technology),这是个大背景。

企业处在数据产品和AI产品的红海,想活命就必须手持一本《AI避坑逃生指南》。

个人处在竞争与内卷的浪潮,数据思维和工具是护身符。

在上海市徐汇区虹漕路77号C8,我见到了和鲸科技创始人范向伟与首席产品官殷自强。

这是一家拥有近15万注册数据科学家社区的公司,这是一家在数据科学的江湖里无论如何也不会错过的公司。

我们曾经从2017年就开始“聊天”。

这次只是,无数次中的一次。

只是这次,忠实地做了记录。

500

和鲸早期网站

出发时,和鲸只是一家被称作“对标谷歌Kaggle”的公司。

到如今,和鲸是一家“走通”从竞赛到社区,再到产品的公司。

在中国,乃至全球,这条路,都是独一无二的。

彼时,美国有,中国抄。

那一轮,投资人拿和鲸和Kaggle做中美对标,数据竞赛玩家拿“中国版Kaggle”指代和鲸。

Kaggle是什么?

是全球最大的数据科学技术分享社区(在线分享代码、项目和数据集等),创立于2010年。“Kaggle大神”是数据科学竞赛界顶礼膜拜的江湖称谓,可见其地位之显赫。

2017年,Kaggle被谷歌收购,宣布收购消息是彼时谷歌云首席科学家李飞飞。消息漂洋过海,范向伟耳边都是:“卖给BAT,财富就自由”。

1.Kaggle被收购上岸,和鲸去向何方?

范向伟不想“卖”公司,因为他一开始就没有“抄”。办竞赛、搭平台、建社区、出产品,全套拳法,天人合一。

到今天,真相大白了。因为没得抄了,反而能看出来谁在踏踏实实做数据科学的产品。

500

2016年的创业团队

既然不被收购,那接下来,路在何方?

这个问题,范向伟这几年应该被问了无数次。

当年,有人说Kaggle可以推出SaaS产品,因为抓住了一群独特的、技术含量极高的、小众的群体。这群人的需求,比中情局的情报还珍贵。

四年过去了,Kaggle始终没有迈出这一步。被误称为“中国版Kaggle”的公司却做到了。

SaaS产品“数据科学云端协作工具”,并非诞生美国硅谷车库,而诞生在中国人自己的数据科学社区。如果它有口号的话,估计会和熊猫、雪豹、金丝猴“撞稿”:“我们诞生在中国。”

彼时,数据化浪潮开天劈地,数据竞赛风起云涌,范向伟从上海交通大学统计系的教室里缓步走出。他并不热心于完成硕士学业,而是心心念念数据竞赛。

兴趣是最好的开始,而同行者最是惺惺相惜。社区就是吸铁石,把同类人“吸”在一起。

500500

和鲸早期网站

数据竞赛社区高手云集,人气高,思路广,不乏大量活跃者,贡献算法、案例、数据集,吸引更多数据人才,武林高手齐聚光明顶,围攻“挑战性数据问题”。

数据竞赛社区中国不止一家,阿里巴巴、百度都有,是不是论规模,定输赢?

范向伟的答案是否定的。和鲸不只是数据竞赛举办方。

别人仅仅是办一场活动,和鲸团队则在打磨产品——先做竞赛系统,再把整个竞赛系统SaaS化。他们做到了从人力运营转换到竞赛产品。

范向伟说:“多年前,比赛客户就开始自办比赛了,我们只提供竞赛产品。比如华东师范大学,就是用和鲸的比赛系统直接办比赛。”

演化与进化都是悄然发生的。

歌手唱:《想爱谁你就去爱谁》

范向伟说:“想办竞赛你就去办竞赛”,下半句是:“给你工具就行了。”

中国移动、中国电信、南方电网、中华医学会、鹏城实验室、北京医保局都来找和鲸办数据竞赛,范向伟拿出产品——数据竞赛管理平台。

一面办比赛,一面产品化。这是一件很有趣的事儿。

数据竞赛不崇尚孤胆英雄,团队作战更为常见。

一起写代码,让“协作”成为参赛选手的刚需。

从那时开始,像种子一样的“协作”产品理念,已经发芽了。数据竞赛系统突出竞赛,数据科学云端协作工具突出协同,两个产品的底层模块有共同之处。

首席产品官殷自强说:“SaaS化是因为有抓手,我们才有机会摸索产品化的道路。”和鲸社区打磨产品的方法是独一无二的,类似开源软件的方法论,千手捉虫(bug)快,和真实需求的距离最近。

“有多近?”

“和鲸团队的办公室,是距离中国数据科学竞赛比赛现场最近的地方。”

打磨,是SaaS产品的必由之路。

殷自强说:“数据竞赛的价值是什么?这个问题我们思考了五年,这五年来,我们办了100多场比赛,100个不同的场景,100家不同的机构,处理100个人工智能需求,100个机器学习需求,共性在哪?”

“直接给到客户的,相当于为客户做定制开发。某一模块可能只是客户唯一需求。对于高速迭代的工具平台,这种先定制开发,再产品化的模式会遇到很大的挑战。”殷自强说。

“和鲸的做法是,某个产品模块上新,让社区先使用。”

社区,是和鲸得天独厚的宝地,是孙悟空的花果山,是哪咤的陈塘关。

“比赛结束,一切都结束了,那是活动营销公司的生意。” 殷自强补充说。

500

这时候,有人质疑,是不是和鲸的产品,只用于数据竞赛?

答案并不是。

产品要在场景无数次验证大规模的需求,数据竞赛就是这样的场景,证明产品是可以支撑千人同时在线编程。若论同时使用产品的人数,一家普通公司不可能比社区里的人多。所以,和鲸的产品对客户的服务,变成了降维满足客户需求。

和鲸社区里的各色需求都被提炼成产品的迭代需求。这既是一种“折磨”,也是一种“幸福”。折磨受得越多,产品越成熟。很多时候,在和鲸办公室里看见研发团队谁的神情最焦灼,那人便是殷自强。

但是他说这句话的时候充满自(fan)信(er)心(sai):“从来没有碰到过哪个公司的并发,把我们给卡住了。”

2. 准确判断AI的技术趋势

数据与AI的发展既强势,又混沌。做数据和AI产品要对主流技术趋势敏感,有判断力。

用范向伟的话说就是:“数据科学已经发展到第三阶段(3.0),数据类型、基础设施、分析工具和工程任务中的行为,发生巨大变化。” 一个软件版本用N年的时代,已经一去不复返了。

殷自强自问自答:“快速扩容是一个里程碑。10台变成100台,1000台变成10000台,这种变化不能影响服务。支持大规模工程的能力,业界迟早要有,且大家都会去选最好的。这件事情,为什么不是我们来做?”

当K8s刚出1.0版本的时候,CTO和技术团队敏锐地关注了。

第一是发现大厂都选K8s,主流的大厂进来,需求迅速变成现实。第二K8s表现强势,刚出来的时候还有一个叫Swarm的一套技术,也能解决弹性控制的问题,但还是被K8s快速淘汰掉了。第三K8s是开源的。人工智能界的好东西,很多都开源了。 判断结论有了:K8s有优势,会带来一波变化,那就抓住它。

产品好是一个大概念,有很多“诀窍”是外行人难以察觉的。

3.SaaS产品,不唯技术论英雄

江湖有一种迷信,似乎只要算法高超,就胜券在握。但是,传统机器学习算法和深度学习算法各有优势,各有用途。

大规模深度学习已是贵族游戏了,只有工业界的头部大公司才可以承受,鲤鱼跃龙门般的高门槛限制了创新探索和整体发展。比起深度学习,数据分析“身价平平”。

但是,江湖有云,欲练上乘剑法,不限招式多寡。

《倚天屠龙记》当中,孤鸿子和杨逍比武,杨逍夺走孤鸿子的倚天剑又扔还。杀伤力不大,侮辱性极强。杨逍拿着剑冷笑道:“倚天剑,好大的名气!在我眼中,却如废铜废铁一般!”

孤鸿子对兵器盲目迷信。杨逍就不信这个邪。

算法和产品都是工具,工具的存在,是为了解决问题。

在“解决问题”这个终极任务面前,人的智慧极为重要,不能过分夸大工具的威力。

范向伟说:“我们判断数据分析的场景价值更大一些,或者是说,要做AI,首先要从数据分析起步。单独看技术难度,数据分析肯定简单,但是不能说价值低,要做好数据分析,一样充满挑战,需要发掘人的价值、解决人的问题。”

倚天剑不能击败所有对手,深度学习也不能。

范向伟认为,在企业中,最难处理的问题,永远是人的问题。他坚信,人是一切问题的根源,也是一切办法的支点。

所以,当和鲸团队意识到这个问题的重要性的时候,产品逻辑了然于胸——数据科学云端协作工具,也就是和鲸的ModelWhale。

他说:“数据科学家彼此之间的协同,是权利责任、资源分配、分工协同、过程追踪、成果整合的问题。产品定位,立足于此。”

“人才和管理,是数据产品和AI产品落地过程中隐形大坑。”这句话应该写在《AI避坑逃生指南》的第一页。

明枪易躲,暗坑难防。

近几年,最知名的数据产品,莫过于数据中台。一个数据中台的实施与落地,牵扯企业组织变革、资源变革、流程变革……一场变革尚且穷尽其力,如此多的变革,让一款产品,难负其重。

这是数字化改革的“深水区”,触动了很多人的深层次利益。

某公司中层干部的内心独白是:“我们部门的私有数据,是私有资产,为啥要和隔壁部门共享。年终奖拱手让人嘛?”

数据工具的先进性,并不能解决人类思维的惯性。

产品逻辑的背后,是产品理念、企业的理念,以及创始团队的信仰。数据协作工具这一类型的产品猛地听起来,并不容易理解。而范向伟则认为这是最好的“工具”。

“数据思维”狠狠告别“原始年代”,也是个体的必然选择。培训拯救不了焦虑,数据科学唯有从动手开始。

500

殷自强说:“我们也在做拖拉拽系统,降低门槛,降低畏惧情绪。”“同时,也思考用户快速搭建分析框架(框架包括,观察数据分布、提取特征、测试模型、评估效果),完善代码,并调整成能提高模型准确率和业务相关性的成果(报告或模型)。”

门槛的高度是一个比较值,不是一个绝对值。自2017年起,范向伟就一直拿学英语这件事情打比方。

他说:“七八十年代,国民整体英语水平偏低,英语翻译很吃香。近十年,英语普及得较好,英语能力不再是一种稀缺能力。”

以前,学英语。

如今,学数据科学。

范向伟也谈到了5年以来的观察:

“5年前,用户绝大多数是计算机专业背景,因为编程是敲门砖。现在,很多社会科学学院、大气科学学院、商学院、医学院背景的人已经离不开数据科学的工具了。”

这个变化,符合几年前他的判断。

他说:“我们跟随行业的脚步,很多人在社区里成长,努力培养数据思维,学以致用。和鲸团队不相信,只靠类似AI全家桶的产品,就能解决产业里无法穷尽的问题。”

500

将视野放宽到行业,那些做数据科学产品与AI产品的中国SaaS厂商,帮客户把算法都搞定了,变成一个普通业务员工能去用的工具。

范向伟认为:这是过度“封装”,容易陷入局部最优的陷阱,长期看来,难以迭代,拓展和复用。

企业业务是动态变化的,数据的用法是动态变化的。

有,且只有:业务员越具备数据思维的时候,越利用得好数据,才会把数据的价值渗透到毛细血管级别的场景里面去。

《AI避坑逃生指南》认为:定位数据与人工智能类的企业级产品,有两个大坑。

一号坑位

工具类的产品都是赋能千行百业的,石油、电力、交通等,大多数情况下创业者自己不是核心用户,你满足的是别人的需求,无法得知客户的真实需求,容易踏进主观臆断的坑。

二号坑位

订单合同金额较高,碰到大的项目,客户必定有定制化的需求,标准化产品卖不进去。屈从定制,团队和人力就搭进去了,容易踏进人力资源外包公司的坑。

今天的和鲸,是国家气象信息中心国家级工程——气象大数据云平台(“天擎”)数据挖掘分析系统支撑方。和鲸做对了什么?第一,洞悉了客户需求的“水晶球”,第二,做到了产品通用性的厚积薄发。

(完)

《亲爱的数据》出品

500

随手点赞(这里应该有一个小桃心)

最近更新的专栏

全部专栏