2%的人拥有80%的财富?警惕人工智能时代的数据幻觉

500

昨天,跟招商银行有关的一组“财富数据”冲上了热搜第一,震惊了很多人——“2%的银行客户,拥有80%的银行存款”。

数据来源是这样的,招商银行占2.35%的私人银行、金葵花等客户资产高达10.82万亿,而招行整体个人存款总额是13.32 万亿。从数据上看,给人的感觉是——“2%的人占据了80%的财富”,但真实情况是,招行的私人银行业务是行业龙头,国内很多资产超千万的人,都把钱集中存到了招行等少数几个私人银行业务强大的银行里,所以这个数据并不具有普遍性;如果你去分析地方银行的“存款结构”,同样可能得出相反的结论——大家都普遍穷的很稳定,社会基尼系数很低。

其实,我们的生活有非常多这样以偏概全的“数据”。人工智能时代,也是数据的时代,很多数据都有苛刻“前提条件”,如果人工智能时代的数据管理出现混乱,大量这样“二次加工”的数据被广泛传播,就会出现“2%的人占据80%社会财富”的误判。

如果任由这样的信息传播下去,“社会舆情”就会密集出现,中国版的“阿拉伯之春”也可能会被别人用心的国家策划出来。

今天就借此聊一聊数智文明时代、人工智能时代的“数据治理”话题。

人工智能时代的数据治理,不是数据越“多”越好,也不是数据被“处理、加工的次数”越多越好,而是要遵循数据的基本规律,否则人工智能提供的信息可能就会错乱,并影响到人们的日常生活。

如何做好数智经济时代的数据管理呢?作为《数智经济》作者,我认为要做好以下三点:

第一,尽量使用原始数据。

不要对数据进行非必要的整合,数据在每加工一次就会失真一次。人们已经发现,人工智能在训练一段时间时候会“变傻、变笨”,因为在后期很多都是训练的它自己生产的数据;自己吃自己生产的数据,这在生物学上相当于“近亲繁殖”,人工智能上叫“模型漂移”,我们用国内主流AI大模型,就会发现一个问题,它们置信区间比较宽,回答的内容有很多错误,需要你去仔细甄别。

第二,标注数据条件。

数据绝对不是通用的,就像人类的科学研究一样,每一个公式都有严格的“时空条件”限制,脱离特定的时空环境,它就不是科学了,而是谬论。我们随便举一个牛顿的公式、爱因斯坦的公式,没有一个是普适性的,脱离了具体的“时空条件”设定,牛顿、爱因斯坦、波尔的科学都是“伪科学”。所以,任何数据都是有条件的,人工智能调用数据的时候,也要把数据条件同步调用过去,否则人工智能就不可信,国内AI大模型出现的回答“错漏”,主要原因就在于“数据调用时出现了超出数据条件”的问题。

第三,要用区块链保存连续数据。

区块链保存的是有时间戳的连续数据。宇宙、事物都是动态的、变化的,动态的数据才能反映真实,而用新的数据覆盖旧的数据的做法,是不可取的,脱离了事物发展的本质。关于这一点,“易经思维”可以说是人工智能时代的数据科学之母,因为易经处理数据的思维是“变化的、动态的、连续的”,易经是处理“不确定性”的科学思维,它不是在静态数据中抽取“常道”,而是在连续数据中找到“非常道”。

未来,人工智能聪不聪明、可不可信,表面上取决于算法、算力,但本质上取决于数据,如果引用的数据都是错误的、不连续的、非原始的和超出数据条件的,人工智能就不可能正确,而且还可能因为数据错误调用而越来越笨,它自己都跟自己都会“打架”。

我们现实生活中,一定要养成这样一个良好的习惯——当你看到一组“数据”的时候,不要立刻就相信它,而是一定要对它有三个追问:它的原始数据是什么?它的数据条件是什么?这个数据是怎么变化的?三个问题都问清楚了,才能确认数据是否则真实、准确,越是在人工智能时代,越不要轻易相信被多次“加工”过的数据,数据每加工一次,就会失真一次。

未来的人工智能,进行伦理管理是有必要的,但同样也要进行信用管理,当一个人工智能,频繁对人类进行错误引导、输出错误的信息,就应该给它“黄牌”“红牌”“圈小黑屋”。当下,对人工智能进行“伦理管理”是很多人公认的,但我可能是第一个呼吁对“人工智能”进行“信用管理”的人,我也把它写进了即将在今年出版的《数智文明》这本书中(“数智跃迁”最终将改名“数智文明”)。

500


| 科技道,数智经济第一人(代表作《数智经济》《数智经济100大生产力跃迁(筹)》)

| 商业道,资产轻量化导师(代表作《轻资产时代》《商业向心力》《末端爆发》)

| 公关道,公关三十六计玩咖(代表作《金牌公关人》《无公关,不品牌》)

站务

全部专栏