别了,SAS |中国企业级数据科学行业还需努力
昨天,我朋友圈里不少人都在感慨:美国统计分析软件公司SAS 毫无征兆地彻底退出中国市场。不仅中国公司数百名员工突然收到通知被全部遣散,就连官网的简体中文内容也一夜之间清空,动作干脆得让人意外。
对我而言,SAS 在企业级解决方案领域是响当当的存在。一方面,我过去在惠普、IBM 的不少前同事,都曾加入过这家公司,甚至干到退休,不仅福利优厚、工作氛围不卷,还是较早推行订阅制收费模式的软件企业;另一方面,我自己或许算得上SAS 在中国最早的一批用户——早在 80年代末、90 年代初,我在大学学习统计分析、计量经济学等课程时,SAS 和SPSS 就是我们做时间序列预测、统计检验分析时最常用的工具软件。
不过在我看来,SAS 选择退出中国市场,对一家美国科技公司而言算是明智之举。此前IBM、Oracle 收缩中国业务后,都在资本市场收获了不错的表现。
而从行业影响来看,这对中国企业软件领域的冲击应该有限。反而,SAS 的离场可能为国产软件腾出更多发展空间,让本土厂商获得更多崛起机会。更何况,SAS 称得上数据科学领域的恐龙级软件,在中国市场,它确实已经到了需要被新力量迭代升级的阶段。
那么这些新力量究竟是谁?我认为近期行业有两个动态值得关注。
国外方面,美国的新一代数据分析软件行业正加速整合。比如知名科技投资机构A16Z—— 也就是最早倡导“现代数据栈”(Modern Data Stack,概念大致相当于国内所说的“数据中台”,参见我几年前写的《数字化转型的架构策略 | “栈”还是“台”》)的机构—— 就推动其投资组合中两家估值各达数十亿美元的创业公司完成合并。一家是做数据抽取工具的FiveTran,另一家是做数据转化工具的dbt,二者合并后直接形成了一家价值百亿的数据源技术公司。最近这些年在数据整合处理方面,不断产生新概念,继数据虚拟化、数据编织后,最新的动向是数据可观测性被整合到现代数据栈里。

国内方面,从前几年国内“数据中台” 行业一地鸡毛中突围的滴普科技成功上市,仅三天市值就攀升至370 亿元,远超第四范式这类同类数据技术公司。
但有意思的是,我身边真正这个领域的从业者,大多表示看不懂滴普到底是做什么的。这些年,它的市场定位一直在变:从数据中台到湖仓,再到今年热门的大模型智能体平台;一会儿说自己是“中国的Databricks”,一会儿又对标“中国的Palantir”。

其实这也不能全怪滴普的市场营销,毕竟在国内技术商业圈,无论是投资方还是企业用户,都没有一致、清晰的行业赛道的认知——所以就出来大而化之、笼而统之的“中台”这种名词,当你说不清楚自己专注在技术链条中哪个环节的时候,你就说自己叫“中台”——厂商很多时候只能靠对标成熟市场的公司来给自己贴标签。
SAS是最早的统计分析软件,是数据科学软件领域的鼻祖。数据科学是一门融合统计学、计算机科学与业务知识,通过数据采集、清洗、分析、建模等全流程,从结构化与非结构化数据中挖掘洞见、解决业务问题的交叉学科与方法论体系。统计分析是数据科学的基础方法论,机器学习是数据科学实现从数据到预测/ 决策的核心技术手段,人工智能则是机器学习的延伸与高阶形态,聚焦于模拟人类智能。

企业应用中的数据科学与机器学习,主要可归为五大技术流派:
1、统计推断流派
以概率统计为基础,通过数据样本推断总体规律,聚焦数据间的关联、因果关系与显著性。其目标是解释现象,而非单纯预测结果,是数据科学的理论基石。80年代起,SAS、后被IBM收购的SPSS等统计分析工具便已流行;进入大数据时代,贝叶斯推断、因果推断等新技术更广泛应用于各行业决策验证,比如消费品行业的促销归因分析、制造业的设备故障诊断等场景。
2、预测建模流派
聚焦用户特征、销售金额、工业传感器数值等结构化数据,通过算法学习数据规律以精准预测结果——例如“预测某类及某个SKU商品下季度销量”、“判断贷款客户是否会违约”,是企业中落地最广泛的AI方向之一。90年代,面对小样本数据,企业已广泛应用决策树、随机森林、支持向量机(SVM)等早期机器学习算法;2010年后的大数据时代,梯度提升树算法兴起,凭借高准确率与易解释性,成为结构化数据预测的行业标配。
3、高级感知流派
在上述流派的基础上,针对图片、音频、视频、文本等非结构化数据,通过深度学习模拟人类视觉、听觉、语言理解等感知能力,从复杂数据中提取有价值的信息。典型场景包括“识别工业制造中的质量缺陷”、“解读客户投诉文本或社交媒体情绪”,如今的大模型正是这一流派的最新演进。
4、决策控制流派
核心是在不确定环境中寻找最优行动策略:70年代兴起的优化与运筹学,聚焦静态场景的资源分配,例如“如何将客户需求分配至多个工厂,在最快交付与最低成本间权衡”、“投资组合中股票与债券如何配置,平衡收益与风险”;近十年兴起的强化学习,则侧重动态序贯的决策优化,典型如“机器人自主学习抓取物体”、“金融高频交易策略优化”。
5、系统集成流派
打通物理世界与数字世界的数据流,在数字空间构建工厂、城市、社会等物理实体的动态镜像,实现“建模-仿真-监控-优化”的闭环,提升系统可控性与运行效率。系统动力学、离散事件仿真、基于智能体的个体仿真等静态真实世界仿真技术,早年间已开始应用;而随着物联网与各类AI技术的发展,数字孪生、世界模型等实时动态的系统集成方案,目前仍处于方兴未艾的阶段。例如,半导体企业、光伏企业如何预测明年市场,怎样找对产品并规划产能,就是典型系统集成式AI的课题。
这些技术流派并非孤立存在,而是在实际应用中深度协同。数据科学家始终面向具体业务问题,会将求解复杂问题拆分为多个子问题,针对不同子问题选用适配的算法与工具,通过多技术融合解决诉求。
随着大语言模型的发展,数据科学家的推理、问题拆解、工程落地等能力,未来可能部分被大模型替代。
因此,SAS所代表的传统统计分析工具时代已成为历史。如今的企业级数据科学解决方案,更聚焦端到端数据处理,以及模型开发、部署、运维、服务一体化的机器学习自动化平台(AutoML)。基础统计分析与机器学习工具,也从SAS、SPSS、Alteryx(我七年前加入BCG时,学会的第一个工具便是这个数据分析工具)等商业软件,演进为以R语言、Python工具集、Jupyter Notebook为代表的开源软件,以及TensorFlow、PyTorch等开源框架。
从行业趋势来看,数据处理、数据管理、数据安全与隐私保护、模型开发与服务、用户应用开发等数据科学工具链,正朝着整合化方向发展。
SAS退出中国市场,对中国企业软件产业而言是一次重要机遇。但要把握这一机会,还需国内产业界推动上述技术栈的标准化,充分利用并积极投入开源生态,同时让市场真正理解数据、机器学习、人工智能的核心概念与应用逻辑。
我念大学时学的SAS统计学软件,线性和非线性规划软件,以及系统仿真软件,到我大学专业就是数据科学的儿子这一辈都不用了,都是应用各种开源工具和框架来处理,而面向企业级应用产生价值的,不是这些工具,而是企业级的数据科学和人工智能平台,这才是第四范式、滴普这些公司要向社会科普的——不是乱七八糟发明各种让人似是而非的“颠覆”、“炸裂”、“中台”这些市场营销名词。
企业应用的技术科普,是KPro的使命。



企业知识开源计划创始人




