李青龙:NLP技术将在数字化转型到智能化的过程中发挥重要作用|实录

【编者按】2019年10月27日,由清华大学国情研究院主办,《文化纵横》编辑部协办的“未来已来,第四次工业革命与中国未来学研讨会”在公共管理学院302会议室举行。不同学科学者以及业界的实践者,围绕如何理解第四次工业革命及其带来的影响,以及未来学的可能性展开跨界讨论。

智慧星光总裁李青龙作了题为“从智慧星光数据应用谈对第四次工业革命的认识”的主题发言。以下根据李青龙先生现场发言整理,已经本人审定。

Li Qinglong, president of Beijing Wisdom Star IT Co., believes that the core tenet of the 4th Industrial Revolution is digitalization and intelligence. The current society are digitalised in the machinery production process, the Internet public data, the inherent internal data stored in various sectors, and the behavioural data. Li Qinglong argues that unstructured data will have more application scenarios in the era of artificial intelligence. In the long run, NLP technology (natural language processing technology) will play a very important role in the transformation process from digitalisation to intelligence in the future. Internet public data is a key element in the 4th Industrial Revolution, because the virtual society embodied in it is the mapping of real society on the Internet—beacuse it is social-perceived data. Through an in-depth analysis of this type of data, one can evaluate and understand the actual response of a policy or an event in society.

500

各位老师好,各位业界的专家好,谢谢前面两位的分享。智慧星光相比前两位来讲很小,是立足于做To Business业务的。在这里,我将从智慧星光的工作实际,谈一下对于第四次工业革命的浅显认识,不到之处请大家批评指正。

第四次工业革命的核心要旨第一是数字化,第二是智能化。第四次工业革命的基础就是把整个社会、整个发展、整个过程全面进行数字化,进而让整个社会发展能够有一些智能化因素。数字化过程包括人工智能、物联网、云计算、大数据和智能制造等技术和应用的融合,这些融合说到底是希望把一切社会的过程进行全面的数字化。数字化也是智能化的基础条件。

我们谈一下当前的社会到底有哪些可以进行数字化的,基本上是这四个方面。

第一个方面是机器设备生产过程的数字化。

第二是典型的互联网公开数据的数字化,智慧星光从事的就是这部分工作。

第三是在政府企业各个领域当中存有的固有的内部数据

第四是行为数据,行为数据可能最大是运营商和各个平台。

数据的类型可以分为结构化、半结构化和非结构化。结构化数据很好理解,但是实际上现在存在大量的数据,都是非结构化数据,比如说快手的视频就是以非结构化为特征的典型代表。实际上80%以上的数据都是非结构化数据,我们日常所看的单条信息资讯,一篇文章,一个图片,一段语音,或者是一段视频,看上去只是带给我们某种信息,但是实际背后蕴藏着很多可以挖掘出来的数据价值。

何总刚才讲短视频可能是未来整个人工智能的核心,我们有不同理解,我认为可能非结构化数据在里面有更多应用场景。现实场景当中可能视频的解析很重要,但就未来长期来看,我们认为NLP技术将在未来数字化转型到智能化的过程中发挥非常重要的作用。

大家通用的关于数字化过程的基本理解,包括浅层和深层两个方面。浅层层面上就是把人和物、和生产关系进行数字化的过程。现在我们做的很多工作,比如一个企业OA系统和各种办公系统的自动化、信息化程度已经比较高了。

但是这些系统的问题在于,基本上仅是完成了办公流程的系统化,不能称之为数字化,并且一个企业或者一个组织足够大,会发现多个系统之间有严重的信息不对称现象,系统之间不能够进行数字的互通,需要有一个工具和方式能够把数字互通。其实目前我们看到的市面上的2B企业大部分还是在这个领域,即把数字鸿沟打通,把数据放在一起,建立一个数据宽表,进行联合查询、联合应用的过程。

在未来,可能需要推进深层次的数字化,包括智能基础设施、智能生产线、智能物流以及智能应用等,最终带来生产方式和生活方式的智能化,提高人们的生活满意度。

第一个案例,我们在2007年年初的时候和中央电视台经济频道做了“再小的声音也听得见”主题的栏目,实际上是一个社会民意大调查,其中有一个特别重要的话题是关于“二胎政策”的社会分析。

我们知道当一个政策发布之后,对整个社会都会产生非常大的影响,但是到底社会对这个政策的反馈和表现形式是什么?很多状况之下很难有一个准确的测量。以往的做法往往是设计整套调查问卷,通过线上、线下不同的渠道把调查问卷散发出去,最后通过大量的人工统计分析得出结论。这个时长往往在半个月到一个月以上。同时,数据的样本量非常有限,线下调查的样本量一般情况超过2000个就是很难的事情了,在线的一般是10万、20万也非常多了。

通过互联网大数据,我们统计之后发现,互联网上大家对于二胎政策的评价数据是过亿的,我们可以对将近亿条关于二胎政策的言论进行统计分析,并且是实时的。这也是为什么我们提到,互联公开数据是第四次工业革命中很关键的要素,就在于它本身所体现的虚拟化社会,很大程度上就是我们现实社会在互联网上的映射,我们更想把它称为社会感知型数据

通过对社会感知型数据的深入分析,可以评测、了解某个政策或者某个事件在社会中产生的实际反响。

第二个案例,是我们在国家区县融媒体中心建设的大背景下,做的关于延庆区融媒体建设的案例。我们提出来“世界眼中的延庆”这么一个概念,为什么提到这样一个概念?因为延庆在过去的世园会以及将要到来的冬奥会,本身就要树立在世界眼中的形象的问题。但是在以往,对这种形象的树立进行比较科学的、公正的评测的很难的。基于实时监测相关的互联网大数据,我们构建了一些模型,对它进行评价,比如说和索契、平昌的比较。然后辅助他们怎么更好地把延庆作为一个世界级的活动的举办方的声音传播出去。当然我们提出来的“世界眼中”,还包括在国内人民眼中的形象,以及北京人民眼中的形象,都能够通过实时数字化的方式得到可视化展现。

第三个案例是关于招聘网站的。我们知道如果有人在一个平台发一条问题,但这个平台没有足够的人群在线的时候,就会发生这个问题没有人回复,就冷场了,所以需要智能化的推荐系统,及时解答发问人的疑惑,提高人们的存留和粘性。近期的乌镇互联网大会上,李彦宏提出了一个概念“所有的问题都会有一个智能化的答案”,这也是我们所认可的。

第四个案例是关于12345平台的应用,以往工单处理都是单线的,当接收到某个诉求后会形成一个工单,再分配到相应的职能单位里去,是单链条的。全面的数字化能够帮助其获得很好的人群画像及诉求处理图谱,提高工单的处理效率。

智慧星光在其中做的工作,第一个就是把互联网上所有公开的文本、语音、视频内容进行了全部实时数字化,从我们看似不可计算的文本内容中获得一些数字化资源。目前总量已经超过了2000亿条,每天新增4亿条,是一个比较好的社会感知数据。

第二是我们建了一个文本超脑中台,可以对应所有数据,包括机构内部数据进行实时的结构化处理,同时建立了一个数据关联关系知识谱的图谱引擎。在未来,我们希望能够把智慧星光的数据和数据计算能力,形成一些基本的供给能力,供所有希望在这里面创造价值的人员应用。谢谢大家!

文字整理|刘皓琰

英文编辑|王其珍 王弘书

全部专栏