专访中国计算机学会常务理事、拓尔思知识图谱研究院院长臧根林：知识图谱是从大数据到人工智能的台阶大数据硅谷需要一本“大湾区词典”

2019-11-06 07:00:00　 21世纪经济报道翟少辉

知识图谱近年的“火起来”始于谷歌公司于2012年推出“谷歌知识图谱”，并利用其来增强搜索引擎的功能。这开启了大规模知识图谱在互联网语义搜索中应用的同时，也将“知识图谱”这一概念正式推向了前台。

在中国计算机学会常务理事、拓尔思知识图谱研究院院长臧根林看来，知识图谱的关键在于从“知识”到“图谱”的降维，它“火起来”与人工智能的发展直接相关。“知识图谱其实就是从‘大数据’走向‘人工智能’的一个台阶。”他对21世纪经济报道记者表示。

过去数年，5G、物联网、人工智能、云计算等一批新兴技术经历了从“前沿技术”到“落地应用”的发展，在这批新兴技术的驱动下，更多功能更为强大的应用也正紧随其后不断涌现，新一轮“科技革命”的呼声已日渐高涨。相较以往的数次工业革命，这一次的科技浪潮带来的是“大数据”时代。5G、物联网等技术以及相应的应用所涉及到的数据产生、采集、传输和处理环节将带来超乎想象的数据吞吐量。

尽管大数据的火热已持续数年并几乎深入各行各业，但中国科学院院士、中国人民解放军军事科学院副院长梅宏近日在一场演讲中表示，当前大数据的应用尚处于初级阶段，根据大数据分析预测未来、指导实践的深层次应用将成为未来发展的重点。他还指出，中国的数据总量预计到2020年将占全球数据总量的21%，但核心技术仍然薄弱。

谈及中国市场和这一波新兴科技潮流，不少跨国公司的负责人都曾提到丰富的应用场景，以及对大数据、人工智能等新兴事物较高的接受度。作为聚集了大量制造业公司的制造业大省，在大数据、物联网驱动智能制造升级的背景下，广东在大数据领域更是拥有广泛的应用前景。

2019年2月公布的《粤港澳大湾区发展规划纲要》中就明确提出，要推进“广州-深圳-香港-澳门”科技创新走廊建设，探索有利于人才、资本、信息、技术等创新要素跨境流动和区域融通的政策举措，共建粤港澳大湾区大数据中心和国际化创新平台。随后在7月，广东也进一步明确提出，要携手港澳建设粤港澳大湾区全球大数据硅谷和国际数据经济创新中心。

“数据硅谷”具体该如何建设仍值得探究。

臧根林认为，大湾区的建设对于广东、香港、澳门乃至全国，都是极其重大的机遇，不过目前对数据层的规划和融合仍有所欠缺。他坦言，粤港澳大湾区“一个国家、两种制度、三种货币、四种语言”的特征带来了复杂的情况为数据层面的融合带来不少障碍。在他看来，解决或许应从标准入手，例如“大湾区词典”的制定。

知识图谱如何搭建从大数据走向人工智能的台阶，其构建的核心要素是什么，在这些技术背景下一本“大湾区词典”可以如何为粤港澳大湾区的发展发挥作用？就上述话题，臧根林近日接受了21世纪经济报道记者的专访。

“贝克汉姆”和“碧咸”

《21世纪》：对大湾区大数据中心的建设有什么思考？

臧根林：粤港澳大湾区有四种语言，这种复杂情况全世界少有。如今很多建设都需要以数据为基础，大湾区要实现技术融合，首先需要数据融合。但实际上数据融合存在很多障碍。比如，很简单的一个例子，我们叫“贝克汉姆”，在香港是叫“碧咸”。有很多类似的人名、地名翻译的标准都不一致。所以，我建议应从标准入手。

知识图谱研究中有一项技术叫“图谱消歧”。假如几个人名字看上去不同，但其实是同一个人，就把它归并到一个主关键词，其他写成别名或曾用名，图谱中就有唯一性。但是，粤港澳大湾区不能用这样的技术，同一个人，在香港就是“碧咸”，在内地就是“贝克汉姆”，不能要求数据库中只有一个。整个架构需要和现在的技术不一样，知识图谱平台需要专门设计一套符合大湾区特点的架构，不是消歧，而是把不同的名字连成平等地位，香港用户看的时候就是“碧咸”，内地用户看就是“贝克汉姆”。

这种架构需要标准的支撑，需要国家来推动，从规范层面对内地、香港、澳门以及英语中的叫法进行等同的对照。这就需要一个清单，相当于一本“大湾区词典”。用它来支撑这个架构，这个架构才能支撑大湾区的数据共享。

《21世纪》：该如何着手去做？

臧根林：这实际上就是一个知识图谱平台，只是和以往不同。过去，图谱里的一个东西就是一个点，现在可能要分解成对应的多个点。这需要重新设计，需要专门的人力、物力的投入。我觉得，可以先从民间开始推动。如果民间先做出这样一个大湾区知识图谱的原型，建立一个初步的支点，作为原型看看是否能够得到全国的认可。如果得到认可，就可以再探讨后续的投资、数据中心落在哪里，以及产权等问题。

大数据走向人工智能的台阶

《21世纪》：知识图谱是如何“火起来”的？

臧根林：人工智能“火了”，它的很多模型要在大数据基础上运行，而完全依靠原来的大数据结构很多模型是转不起来的。知识图谱其实就是从大数据走向人工智能的一个台阶，其思路就是，把一些计算机现在还无法理解甚至人自己都整理不出来的复杂的维度剔除，降维到能够理清的程度，就是“知识降维”。

我常说，人工智能就比如一条狗。狗明白包子能吃，训练时，它叼过棍子来就能吃到包子，这它也能明白；但加上时间维度，叼棍子过来明天能吃包子，它就很难明白。为了将狗训练成警犬，需要把知识梳理成它能够明白的。我们需要训练狗，因为它的嗅觉、速度等“硬件”比我们强；计算机则是存储能力、计算能力远胜我们。把知识的三要素，实体、属性、关系理清楚，让计算机能够明白，它就可以为我们服务。

例如，人工智能目前的一大应用是人脸识别。如果我觉得你像某某，这个判断是一个非常复杂的过程，计算机是无法模拟的。它只能降维到对人脸的照片各个点来计算，相似度达到比如90%以上，得出你们长得像的结论。计算机只能模拟可计算的部分。人的感觉它还无能为力，而这正是知识图谱首先要剔除的。

《21世纪》：所以是为了适应计算机？

臧根林：是的，我们投入精力去整理这些知识，就是为了教会它。重复告诉它哪样错了、哪样对了，它就会越学越厉害，思维接近我们的要求，这个过程就是有监督机器学习。

智能需要投入人工训练

《21世纪》：知识图谱该如何构建？

臧根林：知识图谱的构建相当于把知识先提取出来，再把他们之间的关系属性找出来，这个过程有一套规则，也就是对事物属性的定义，不同知识图谱之间规则可能完全不同。

目前知识图谱主要分两大类，一类是谷歌、百度等在做的通用知识图谱。其核心之一是入口。用户提问时可能很模糊，或是自己也不知道精确问题，这就需要语义分析。二是组织数据和知识，给你呈现出想要的结果。

另一类就是我们拓尔思在做的领域知识图谱，它将很多东西简化掉。例如，公安部门拿来破案的知识图谱，使用者都是办案警察，清楚自己要查什么，也就无需在入口处花费很大力气。这个知识库会更“干脆利落”，问题直接、答案直接、功能强大。

通用知识图谱什么都有也就意味着难以计算，而领域知识图谱最终会能够进行“智能计算”。本来靠人会很模糊的事情，找到合适的模型，按照属性可统计、可计算，很多甚至原本想不到、判断不出的内容都可以量化。

《21世纪》：是否需要行业专家的参与？

臧根林：领域知识图谱一定需要这个领域的专家参与，只有技术是不能落地的。有个说法就是，人工智能，有多少智能就要投入多少人工。没有人来训练，所谓的智能其实很傻。

例如对文章的分析，靠计算机去采集，用一些语义分析的软件将文章分析出来。文章里的关键词提炼出来之后，就从“非结构化”变成“结构化”了，变成可计算了，变成了一种知识图谱架构。技术这边只能提供平台支持，我们不知道到底要提取哪些关键词，这就需要相关领域的专家参与。再之后如果提出更高的要求，增加一些智能化，比如自动打分。这也需要行业专家和技术人员一起来设计模型。

数据垃圾分类：未来需要数据清洗和优化

《21世纪》：能否举例哪个行业应用比较多、比较成功？

臧根林：实际上在中国，政府领域用得很好的是公安系统。公安领域自2014年应用大数据，它早已改变了警察的工作方式。

例如，过去传销过千人就叫大案，而现在网络时代，大家都有智能手机，传销会病毒式蔓延。例如“云联惠传销案”，全国涉及到500多万人；e租宝，受害者过百万。这样数据量的案件，不用大数据是很难办理的。

中国开始讲大数据是在2012年，2013年就有应用出现。到现在实际只有五六年时间，但已几乎应用于各行各业。大数据已经从“高大上”的技术，变成了“基础技术”。也正是因此，才引发了“大数据怎么走向人工智能”的问题。

《21世纪》：知识图谱的标准化方面有什么进展？

臧根林：拓尔思参与到了IEEE（电气和电子工程师协会）的一个知识图谱标准设计单位。但实际上，大数据、知识图谱如这类应用层面的内容，都不是学术界在前，而是企业在前。前几年很多大学设立大数据专业、成立大数据学院，但是他们甚至难以找到合适的教材。应用技术，大家往前推的过程中是倒过来提炼、提炼出来再往前推这样一个迭代的过程。

《21世纪》：随着5G、物联网等技术的发展落地，数据大爆发的时代会有哪些挑战？

臧根林：原来是缺数据，大家都在拼命要数据。但是当数据太多之后，整理数据或是要产生结果就会很麻烦。现在还比较少有人去研究怎样把没用的数据剔除、清理掉，这一块将来成本一定会很高。

这就像之前饿肚子，生活改善之后，一开始一定会大鱼大肉拼命吃，但过了那个阶段就要开始减肥和健身。这其实就是知识图谱要做的事情，今后数据一定会有一个优化的过程，这会是一个很大的挑战。目前的数据清洗实际上还是想办法往里进，而未来的数据优化过程中，清洗相当于是垃圾分类。数据多了一定会带来数据垃圾，完全丢掉又可能会带来损失，这就需要数据垃圾的分类。