原来,知识图谱是“找关系”的摇钱树?

500

图文原创:谭婧

全文审核专家:朱小坤

知识图谱,英文名Knowledge Graph,是一种非结构化数据,属于图数据。

这里被称为“图”的东西,不是图画的图,而是图论的图。知识图谱数据模型的数学基础源于“图论”。

简单说,是把零散的信息有效地组织起来,把纷繁复杂的数据变成有用的知识,这是知识图谱的意义。

下图为,中文医学知识图谱示意。

500

知识图谱有顶点(Vertex)和边(Edge),是关联数据的高度抽象。

顶点和边可以带有属性,能表示出不同的“关系”。

500

(一)如何“”知识图谱?

 

建大型知识图谱,可是个系统工程。

人类学知识也是从词汇开始,机器也一样,词汇本身也是比较简单的“知识”。

从信息中“抽取”知识,一定得是一个自动化技术,靠人工太累了。

500

500

从文本中抽取,用自然语言处理技术(NLP)。

为了提高性能,技术能力强的厂商,会用到NLP大杀器——“预训练大模型”。

而除了文本之外,企业有很多数据,图片,音频,视频,交易记录等,会用多模态技术,这种技术的能力更强一些,技术难度也更高。

简单讲,计算机视角下,图片和文本,都是不同的“模态”,所以是“多模态”。

 

500

从多模态信息中得到一批非结构化数据(文本、图像、视频、语音)中包含的信息,自动抽取并建立关系,形成知识图谱。

知识图谱上阵后,机器认识了“全面屏”手机,也能认识“曲面屏”手机。

机器能在电影的上下文里认出《长津湖》是影片名,在歌手李健的上下文里理解《贝加尔湖畔》是歌名,虽然这两个词又都是地名。

这时候,机器学会了举一反三。

(二)电商公司,怎么干活?

 

500

电商痛点之一是商品,用户等关系刻画不准确。

巧了,知识图谱能精准刻画属性和关系,令运营和管理精细化。

 

电商建知识图谱先得“看懂”“商品,锅碗瓢盆都分不清,很尴尬。

为了看懂商品,引入“商品标签”。

500

商品标签是“知识理解”后的产物,也是对上面说到的多模态数据的提炼和抽象。

标签是商品知识的一部分,标签为商品之间“建立关系”贡献了力量。

那些有相同标签的商品就能连起来了,也就有了“关系”。商品标签越多,知识越丰富。

 

除了标签之外,商品之间会有一种天然的关系,是“品类”,而且商品类别会有多级。

500

举一个真实的例子,京东商城的品类太多了,会用到一种黑科技:用热门品类的标注数据,迁移到冷门品类。

黑科技背后会有顶级学术会议的论文来支持。也就是说机器理解了一些常见热门商品品类,接着,又“有如神助”般地多学会了一些少见的商品品类。

这样,机器成为了认识“商品品类”的小能手。

 

看懂商品名称是基本功,若连商品标签都不够准确和精细,后续的电商运营策略和方法很难做好,成了“拔错萝卜,带错泥”。

日后会被电商运营同学吐槽:我厂AI技术水平有待提高。

其实,算法工程师没闲着,一日复一日,年复一年,都在用算法提高准确度,尽量把模型设计的“聪明点”。

500

(三)知识图谱+深度学习技术,什么原理?

 

知识图谱离不了数学方法。

通过图表示学习的方法,把顶点和边都用数值化的向量来表示,映射到欧式空间里面计算距离。

 

用距离衡量“关系”,

距离近,关系近。

距离远,关系远。

 

这样,可以把一些隐藏关系给找出来。

头部国内电商企业对知识图谱的应用大约五六年前起步,均在2021年左右建成超大规模电商知识图谱。阿里巴巴有“藏经阁知识引擎”,京东有“知识大脑”。

如今,国内头部电商动不动好几亿用户,50亿以上商品相关实体,知识图谱能够达到非常大的规模,能做到覆盖零售全站商品和用户。

连这个研究方向博士也惊叹:“之前,没处理过这么大的图”。

500

构建大规模、高精度的知识图谱,需要投入很大的人力物力财力,但是用好了能创造很大的商业价值。

假如一个电商收入一百亿,利用知识图谱提升1%的收入,就是多赚一个亿,摇钱树,非他莫属。

最后补一点,其实,知识图谱技术,很多人天天在用。

因为搜索引擎早已离不开知识图谱了,当你轻点鼠标,查找某个问题,搜索会结合知识图谱技术。

500

  

有两本好书推荐:

1.《知识图谱:概念与技术》(肖仰华等著)一书,多位专家推荐给我。

2.《图深度学习:从理论到实践》(颜伟鹏,包勇军,朱小坤,姚普主编)。

这本书中的作者们,会在我之前一篇文章中《京东零售:北极星永远指北》见到他们。

500

(完)

全文审核专家:

500

最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

还想看我的文章,就关注“亲爱的数据”。  

500

站务

全部专栏