数据工业会成为中国经济和就业的新增长点吗

晨枫
自由撰稿人

古今多少事，都付笑谈中9小时前

据说中国东北和贵州在发展数据工业，很有意思。这会成为中国的新兴经济增长点吗？

AI是未来科技增长点之一，发展前景不可限量。但在可预见的将来，AI还是数据驱动型的。也就是说，从人类活动的已有数据训练的“归纳型”AI大模型为主，而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个：

1、人类活动积累了海量数据，能做到“模仿人类、有限推理”已经是非常大的突破，就可预见的将来，天花板之高目视不可见，根本不用担心发展触顶

2、人们对人类推理机制并未有足够深刻的理解，尤其对“急转弯”的突变思维缺乏理解，模仿深入不下去，让机器推理独立于人类推理独立发展也有太大的失控危险，步子不敢迈得太快

ChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”，网络数据鱼龙混杂，还有因果混淆的问题。比如说，到底是观点带动舆论，还是舆论凝聚成观点，这个因果性不搞清楚而不分青红皂白喂进模型训练的话，训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据，他们自己根本没法AI化，但专业公司也有局限。

专业公司对AI模型的技术细节熟悉，熟谙训练中的各种技巧，但对数据预处理不在行。对于数据有用性，真是隔行如隔山。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地，甚至邪压过正，那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉，但总是教鹦鹉脏话，鹦鹉就肯定脏话连篇，因为鹦鹉是不知道好话、脏话的，学什么就说什么。AI专业公司就是那只鹦鹉。

其实没有“好数据”、“坏数据”，关键是什么数据都要标注明白这是在什么情况下得到的，意味着什么，然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用，因为不仅知道正常时候该是什么行为，在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上，已知异常包括产品转产、设备开停车、检修（还要分清检修类型）等等，真正需要“抓出来”提出警示的是不属于已知的意外情况，以为正常或者处在已知异常状态，实际上跑偏到不知道什么地方去了，这才是要特别注意的。意外跑偏大多是坏事，但也可能是好事。商务数据分析和科技发现里，发现意外跑偏就是抓住新苗头的开始。

但专业公司的人对于具体行业数据里正常、已知异常不懂，行业里的人来做数据预处理最好，但实际上他们根本没有这个时间。这又不是他们的主业，人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。

中国现在每年毕业约1000万大学生，其中理工科不知道具体比例，假设一半吧，这也是500万。现在找工作不容易，每年这500万中有100万人找不到工作的话，就是很大的社会问题。

但是换一个角度，他们受过基本的理工科训练，从事数据工业的话，具体项目知识由用户公司集训2-4个星期，在很多情况下就可以胜任基本的数据分类、标注工作，然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家，或者校核，这人家应该乐意配合。这样，大量的行业数据需要大量的理工科人手从事数据预处理，有理工科基础，入手商务数据也比较快。

这些理工科人手不需要太专深的专业知识，只需要对相关工业有足够的一般了解，并得到具体问题的集训提高。还要坐得住，耐得住寂寞，因为他们的工作结果是别人的开始，他们自己是看不到最终结果的。但这是“劳动力密集”产业，需要的初级理工科人手不是三五百、三五千、三五万，随着AI工业的发展，这可能是几十万、几百万人的大规模，而且需要处理的数据在可预见的将来根本看不到头。

中国和外国的公域数据已经海量，中国还有海量的私域数据。由于数据安全和不得出境，这活还只有中国人干得了，不可能外包到境外。当然，同样的理由，外国的私域数据也难外包到中国人。他们怎么解决他们的初级理工科人才就是他们的问题了。

几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据，还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具，还有自然语言输入和分析工具，但驾驭这些工具依然需要理工科人手。同样，不需要太专深的理论基础和经验，在很大程度上是“白领劳动力密集”，但不能是“理工盲”。

数据工业的数据集可以来自具体项目和具体公司，也可以是广泛收集的行业共享数据。有的时候，行业成员有动力共享技术和商业数据，供跨越具体业界成员的行业测评（benchmarking）公司使用。一种做法是只公布最后统计分析的结果，这样谁都可以自己和行业标杆相比较，比如能耗、劳动生产率、单位排放、资金周转速度等等。只要公布数据里不包含具体公司，就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司，同样抹去具体公司信息，供成员公司进行自己的分析。

类似的做法可供AI-数据工业借鉴。

这只是在“进”的一头。AI模型训练完毕，还需要模型测评，确保符合实际。这里，再次需要大量初级理工科人手，他们甚至可以来自数据预处理的同一批人，当然用于训练的数据集和用于测评的数据集要分开，保证数据的独立性。

对于中国来说，发展AI-数据工业还有一个好处：无所谓地理条件和自然资源，不需要多少基础设施，有电，有网，有吃，有住，就够了。传统工业陷入瓶颈的老工业城市，水电网信交通发展起来但还是缺乏增长点的三四线小城镇，都是适合数据工业发展的好地方。老少边穷没问题，东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”，都行。贵州等地已经在大力发展数据中心，但这只是数据仓库，存储大量“数据矿石”。数据工业好比冶炼厂、化工厂，把矿产和资源转化为中间体，供最终制成品工厂使用。

数据工厂那里能吸引足够的年轻人吗？哪里都有足够的年轻人，愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业，但比排队考公不会差。

入门门槛不太高，不是非985、211不可，入门后还适合自己拉出来单干，客户大小公司咸宜，适合远程和网络化办公，发展天花板很高，发展潜力和速度很大，还等什么？

当然，滥竽充数是不行的，糊弄事害人害己，但认真做，这是值得重视的新赛道。

科技社会财经举报

晨枫

古今多少事，都付笑谈中 |

3333篇文章 | 41768人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

数据工业会成为中国经济和就业的新增长点吗

晨枫
自由撰稿人

晨枫

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

数据工业会成为中国经济和就业的新增长点吗

晨枫 自由撰稿人

热点

站务

最近更新的专栏

风闻最热

全部专栏

晨枫
自由撰稿人