5年前曾对标谷歌Kaggle，中国数据科学产品如何炼成？

谭婧在充电
谭婧在充电官方账号

偏爱人工智能（数据、算法、算力、场景）。 2021-01-22 14:11

原创：谭婧

人类正从IT走向DT（Data Technology），这是个大背景。

企业处在数据产品和AI产品的红海，想活命就必须手持一本《AI避坑逃生指南》。

个人处在竞争与内卷的浪潮，数据思维和工具是护身符。

在上海市徐汇区虹漕路77号C8，我见到了和鲸科技创始人范向伟与首席产品官殷自强。

这是一家拥有近15万注册数据科学家社区的公司，这是一家在数据科学的江湖里无论如何也不会错过的公司。

我们曾经从2017年就开始“聊天”。

这次只是，无数次中的一次。

只是这次，忠实地做了记录。

和鲸早期网站

出发时，和鲸只是一家被称作“对标谷歌Kaggle”的公司。

到如今，和鲸是一家“走通”从竞赛到社区，再到产品的公司。

在中国，乃至全球，这条路，都是独一无二的。

彼时，美国有，中国抄。

那一轮，投资人拿和鲸和Kaggle做中美对标，数据竞赛玩家拿“中国版Kaggle”指代和鲸。

Kaggle是什么？

是全球最大的数据科学技术分享社区（在线分享代码、项目和数据集等），创立于2010年。“Kaggle大神”是数据科学竞赛界顶礼膜拜的江湖称谓，可见其地位之显赫。

2017年，Kaggle被谷歌收购，宣布收购消息是彼时谷歌云首席科学家李飞飞。消息漂洋过海，范向伟耳边都是：“卖给BAT，财富就自由”。

1.Kaggle被收购上岸，和鲸去向何方？

范向伟不想“卖”公司，因为他一开始就没有“抄”。办竞赛、搭平台、建社区、出产品，全套拳法，天人合一。

到今天，真相大白了。因为没得抄了，反而能看出来谁在踏踏实实做数据科学的产品。

2016年的创业团队

既然不被收购，那接下来，路在何方？

这个问题，范向伟这几年应该被问了无数次。

当年，有人说Kaggle可以推出SaaS产品，因为抓住了一群独特的、技术含量极高的、小众的群体。这群人的需求，比中情局的情报还珍贵。

四年过去了，Kaggle始终没有迈出这一步。被误称为“中国版Kaggle”的公司却做到了。

SaaS产品“数据科学云端协作工具”，并非诞生美国硅谷车库，而诞生在中国人自己的数据科学社区。如果它有口号的话，估计会和熊猫、雪豹、金丝猴“撞稿”：“我们诞生在中国。”

彼时，数据化浪潮开天劈地，数据竞赛风起云涌，范向伟从上海交通大学统计系的教室里缓步走出。他并不热心于完成硕士学业，而是心心念念数据竞赛。

兴趣是最好的开始，而同行者最是惺惺相惜。社区就是吸铁石，把同类人“吸”在一起。

和鲸早期网站

数据竞赛社区高手云集，人气高，思路广，不乏大量活跃者，贡献算法、案例、数据集，吸引更多数据人才，武林高手齐聚光明顶，围攻“挑战性数据问题”。

数据竞赛社区中国不止一家，阿里巴巴、百度都有，是不是论规模，定输赢？

范向伟的答案是否定的。和鲸不只是数据竞赛举办方。

别人仅仅是办一场活动，和鲸团队则在打磨产品——先做竞赛系统，再把整个竞赛系统SaaS化。他们做到了从人力运营转换到竞赛产品。

范向伟说：“多年前，比赛客户就开始自办比赛了，我们只提供竞赛产品。比如华东师范大学，就是用和鲸的比赛系统直接办比赛。”

演化与进化都是悄然发生的。

歌手唱：《想爱谁你就去爱谁》

范向伟说：“想办竞赛你就去办竞赛”，下半句是：“给你工具就行了。”

中国移动、中国电信、南方电网、中华医学会、鹏城实验室、北京医保局都来找和鲸办数据竞赛，范向伟拿出产品——数据竞赛管理平台。

一面办比赛，一面产品化。这是一件很有趣的事儿。

数据竞赛不崇尚孤胆英雄，团队作战更为常见。

一起写代码，让“协作”成为参赛选手的刚需。

从那时开始，像种子一样的“协作”产品理念，已经发芽了。数据竞赛系统突出竞赛，数据科学云端协作工具突出协同，两个产品的底层模块有共同之处。

首席产品官殷自强说：“SaaS化是因为有抓手，我们才有机会摸索产品化的道路。”和鲸社区打磨产品的方法是独一无二的，类似开源软件的方法论，千手捉虫（bug）快，和真实需求的距离最近。

“有多近？”

“和鲸团队的办公室，是距离中国数据科学竞赛比赛现场最近的地方。”

打磨，是SaaS产品的必由之路。

殷自强说：“数据竞赛的价值是什么？这个问题我们思考了五年，这五年来，我们办了100多场比赛，100个不同的场景，100家不同的机构，处理100个人工智能需求，100个机器学习需求，共性在哪？”

“直接给到客户的，相当于为客户做定制开发。某一模块可能只是客户唯一需求。对于高速迭代的工具平台，这种先定制开发，再产品化的模式会遇到很大的挑战。”殷自强说。

“和鲸的做法是，某个产品模块上新，让社区先使用。”

社区，是和鲸得天独厚的宝地，是孙悟空的花果山，是哪咤的陈塘关。

“比赛结束，一切都结束了，那是活动营销公司的生意。” 殷自强补充说。

这时候，有人质疑，是不是和鲸的产品，只用于数据竞赛？

答案并不是。

产品要在场景无数次验证大规模的需求，数据竞赛就是这样的场景，证明产品是可以支撑千人同时在线编程。若论同时使用产品的人数，一家普通公司不可能比社区里的人多。所以，和鲸的产品对客户的服务，变成了降维满足客户需求。

和鲸社区里的各色需求都被提炼成产品的迭代需求。这既是一种“折磨”，也是一种“幸福”。折磨受得越多，产品越成熟。很多时候，在和鲸办公室里看见研发团队谁的神情最焦灼，那人便是殷自强。

但是他说这句话的时候充满自（fan）信（er）心（sai）：“从来没有碰到过哪个公司的并发，把我们给卡住了。”

2. 准确判断AI的技术趋势

数据与AI的发展既强势，又混沌。做数据和AI产品要对主流技术趋势敏感，有判断力。

用范向伟的话说就是：“数据科学已经发展到第三阶段（3.0），数据类型、基础设施、分析工具和工程任务中的行为，发生巨大变化。” 一个软件版本用N年的时代，已经一去不复返了。

殷自强自问自答：“快速扩容是一个里程碑。10台变成100台，1000台变成10000台，这种变化不能影响服务。支持大规模工程的能力，业界迟早要有，且大家都会去选最好的。这件事情，为什么不是我们来做？”

当K8s刚出1.0版本的时候，CTO和技术团队敏锐地关注了。

第一是发现大厂都选K8s，主流的大厂进来，需求迅速变成现实。第二K8s表现强势，刚出来的时候还有一个叫Swarm的一套技术，也能解决弹性控制的问题，但还是被K8s快速淘汰掉了。第三K8s是开源的。人工智能界的好东西，很多都开源了。判断结论有了：K8s有优势，会带来一波变化，那就抓住它。

产品好是一个大概念，有很多“诀窍”是外行人难以察觉的。

3.SaaS产品，不唯技术论英雄

江湖有一种迷信，似乎只要算法高超，就胜券在握。但是，传统机器学习算法和深度学习算法各有优势，各有用途。

大规模深度学习已是贵族游戏了，只有工业界的头部大公司才可以承受，鲤鱼跃龙门般的高门槛限制了创新探索和整体发展。比起深度学习，数据分析“身价平平”。

但是，江湖有云，欲练上乘剑法，不限招式多寡。

《倚天屠龙记》当中，孤鸿子和杨逍比武，杨逍夺走孤鸿子的倚天剑又扔还。杀伤力不大，侮辱性极强。杨逍拿着剑冷笑道：“倚天剑，好大的名气！在我眼中，却如废铜废铁一般！”

孤鸿子对兵器盲目迷信。杨逍就不信这个邪。

算法和产品都是工具，工具的存在，是为了解决问题。

在“解决问题”这个终极任务面前，人的智慧极为重要，不能过分夸大工具的威力。

范向伟说：“我们判断数据分析的场景价值更大一些，或者是说，要做AI，首先要从数据分析起步。单独看技术难度，数据分析肯定简单，但是不能说价值低，要做好数据分析，一样充满挑战，需要发掘人的价值、解决人的问题。”

倚天剑不能击败所有对手，深度学习也不能。

范向伟认为，在企业中，最难处理的问题，永远是人的问题。他坚信，人是一切问题的根源，也是一切办法的支点。

所以，当和鲸团队意识到这个问题的重要性的时候，产品逻辑了然于胸——数据科学云端协作工具，也就是和鲸的ModelWhale。

他说：“数据科学家彼此之间的协同，是权利责任、资源分配、分工协同、过程追踪、成果整合的问题。产品定位，立足于此。”

“人才和管理，是数据产品和AI产品落地过程中隐形大坑。”这句话应该写在《AI避坑逃生指南》的第一页。

明枪易躲，暗坑难防。

近几年，最知名的数据产品，莫过于数据中台。一个数据中台的实施与落地，牵扯企业组织变革、资源变革、流程变革……一场变革尚且穷尽其力，如此多的变革，让一款产品，难负其重。

这是数字化改革的“深水区”，触动了很多人的深层次利益。

某公司中层干部的内心独白是：“我们部门的私有数据，是私有资产，为啥要和隔壁部门共享。年终奖拱手让人嘛？”

数据工具的先进性，并不能解决人类思维的惯性。

产品逻辑的背后，是产品理念、企业的理念，以及创始团队的信仰。数据协作工具这一类型的产品猛地听起来，并不容易理解。而范向伟则认为这是最好的“工具”。

“数据思维”狠狠告别“原始年代”，也是个体的必然选择。培训拯救不了焦虑，数据科学唯有从动手开始。

殷自强说：“我们也在做拖拉拽系统，降低门槛，降低畏惧情绪。”“同时，也思考用户快速搭建分析框架（框架包括，观察数据分布、提取特征、测试模型、评估效果），完善代码，并调整成能提高模型准确率和业务相关性的成果（报告或模型）。”

门槛的高度是一个比较值，不是一个绝对值。自2017年起，范向伟就一直拿学英语这件事情打比方。

他说：“七八十年代，国民整体英语水平偏低，英语翻译很吃香。近十年，英语普及得较好，英语能力不再是一种稀缺能力。”

以前，学英语。

如今，学数据科学。

范向伟也谈到了5年以来的观察：

“5年前，用户绝大多数是计算机专业背景，因为编程是敲门砖。现在，很多社会科学学院、大气科学学院、商学院、医学院背景的人已经离不开数据科学的工具了。”

这个变化，符合几年前他的判断。

他说：“我们跟随行业的脚步，很多人在社区里成长，努力培养数据思维，学以致用。和鲸团队不相信，只靠类似AI全家桶的产品，就能解决产业里无法穷尽的问题。”

将视野放宽到行业，那些做数据科学产品与AI产品的中国SaaS厂商，帮客户把算法都搞定了，变成一个普通业务员工能去用的工具。

范向伟认为：这是过度“封装”，容易陷入局部最优的陷阱，长期看来，难以迭代，拓展和复用。

企业业务是动态变化的，数据的用法是动态变化的。

有，且只有：业务员越具备数据思维的时候，越利用得好数据，才会把数据的价值渗透到毛细血管级别的场景里面去。

《AI避坑逃生指南》认为：定位数据与人工智能类的企业级产品，有两个大坑。

一号坑位

工具类的产品都是赋能千行百业的，石油、电力、交通等，大多数情况下创业者自己不是核心用户，你满足的是别人的需求，无法得知客户的真实需求，容易踏进主观臆断的坑。

二号坑位

订单合同金额较高，碰到大的项目，客户必定有定制化的需求，标准化产品卖不进去。屈从定制，团队和人力就搭进去了，容易踏进人力资源外包公司的坑。

今天的和鲸，是国家气象信息中心国家级工程——气象大数据云平台（“天擎”）数据挖掘分析系统支撑方。和鲸做对了什么？第一，洞悉了客户需求的“水晶球”，第二，做到了产品通用性的厚积薄发。

（完）

《亲爱的数据》出品

随手点赞（这里应该有一个小桃心）

科技举报

谭婧在充电

偏爱人工智能（数据、算法、算力、场景）。 |

243篇文章 | 9124人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

5年前曾对标谷歌Kaggle，中国数据科学产品如何炼成？

谭婧在充电
谭婧在充电官方账号

谭婧在充电

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

5年前曾对标谷歌Kaggle，中国数据科学产品如何炼成？

谭婧在充电 谭婧在充电官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

谭婧在充电
谭婧在充电官方账号