知识工程的概念是图灵奖获得者费根鲍姆(Feigenbaum)于1977年在第五届国际人工智能联合会上首次提出的,被认为是解决需要专家知识才能应对的应用难题的重要手段。知识工程的发展经历了三个主要阶段:第一阶段是中小规模的知识工程,这个时期研制出DENDRAL等专家系统,标志着知识工程研究方向的诞生;第二阶段是大规模知识工程,以1984年道格·莱纳特(Doug Lenat)开发的CYC大型知识库为代表;第三阶段,即当前的基于大数据的超大规模知识工程时代。这一阶段以IBM沃森(Watson)、谷歌知识图谱、微软Probase等为代表的基于公开可访问资源的超大规模知识工程产品,并已在产业界开始大规模部署和应用。
知识工程在国内的研究集中在计算机科学与人工智能领域。中国科学院院士陆汝钤研究员于20世纪80年代设计并主持开发了知识工程语言TUILI,继而主持完成了知识工程平台“天马专家系统开发环境”,这两个成果目前均已推广应用。随着互联网的快速发展,网页规模达到数百亿个。陆汝钤指出互联网已成为知识获取的主要来源,网上知识工程成为主要生长点。
当前,国内已有一些科研机构着力于基于大数据的知识工程研究。其中,中国人民大学的数据工程与知识工程实验室围绕数据工程、知识工程两大领域,主要开展信息资源管理、数据挖掘与互联网知识管理等方面的应用基础研究。复旦大学数据与知识工程实验室致力于大数据机器学习与数据挖掘、海量知识库构建与推理、基于知识的需求管理等技术的研究及其在科学与工程领域中的应用[3~5]。吴信东教授牵头的合肥工业大学教育部创新团队近年来致力于机器学习、海量数据处理与服务、普适医疗与个性化计算等方面的研究,提出了大数据知识工程(Knowledge Engineering with Big Data, BigKE)[6]的HACE定理[7]和理论框架。西安交通大学智能网络与网络安全教育部重点实验室以开放知识源为对象,研究了碎片化知识的抽取、关联挖掘以及组织管理、在线教育等问题[8]。中科院数学与系统科学研究院由陆汝钤研究员与张松懋研究员牵头的团队在知识工程和基于知识的软件工程方面做出了系统性、创造性的工作[9]。中科院计算所研究员程学旗、靳小龙等人于2011年提出开放知识网络概念,通过对海量网络数据的开放式获取,体系化、结构化组织,以及自适应推断,构建了具有自我更新能力和自我学习能力的开放网络知识库,有效解决了传统知识库构建人力投入成本高、知识相对封闭、扩展性较差等问题[10]。企业方面,百度、搜狗等公司也已开发了知识工程产品,包括百度知心、搜狗知立方等。
同时,海量数据的收集和大数据知识工程已经应用到多个领域。在科学研究方面,天文学研究中海量数据的收集和应用已经非常普遍。在其他领域,移动终端、文化领域也都受到了大数据的影响。大数据精准的预测和分析手段,对用户行为模式和偏好行为的挖掘,对商业和金融决策的意义,以及在信息安全方面都能给现有的数据和信息处理模式带来变革[11]。然而,现有的数据处理手段难以发挥出大数据真正的价值, 大数据的本质特征为我们在分析和应用上带来了一系列的问题。如何从海量的多源异构数据中提取和分析出有价值的知识, 从而满足越来越多样化的对个性化服务和知识导航的需求,已经成为大数据知识工程的重要发展趋势。
大数据知识工程的目标与
研究纲要
大数据知识工程是我国学者提出、引领大数据分析走向大知识研究和应用的一个国际前沿研究方向。2014年1月,吴信东教授等提出了大数据在异构、自治、复杂、演化环境下的HACE定理。2015年9月,吴信东与郑南宁院士、陆汝钤院士等基于HACE定理提出了大数据知识工程的顶层设计与研究纲要。
大数据知识工程的基本目标是研究如何利用海量、低质、无序的碎片化知识进行问题求解与知识服务。不同于依靠领域专家的传统知识工程,大数据知识工程除权威知识源以外,知识主要来源于用户生成内容(User-Generated Contents, UGC),知识库具备自完善与增殖能力,问题求解过程能够根据用户交互进行学习。大数据知识工程有望突破以专家知识为核心的传统知识工程中的 “知识获取”和“知识再工程”两个瓶颈问题。
大数据知识工程的研究将以我国经济社会发展对大数据知识工程的战略需求为牵引,以多源海量碎片化数据到知识的“在线学习-拓扑融合-知识导航”转化为主线,针对知识碎片化引发的知识表示、质量、适配等问题,围绕“探索碎片化知识发现、表示与演化规律”、“揭示碎片化知识拓扑融合机理”,“构建个性化知识导航的交互模型”三个科学问题开展基础理论和关键技术研究,建立一套大数据知识工程的理论体系,突破碎片化知识发现、融合、服务的核心技术,研制出碎片化知识融合与导航服务原型系统,开发出具有高附加值的面向碎片化知识的处理工具。
科学问题与研究方向
大数据知识工程的研究旨在建立大数据知识工程的基础理论,形成利用海量、多源、低质、无序的碎片化知识构建新型知识服务平台的方法学体系,突破新时期知识工程瓶颈,满足医疗、教育、商业等各领域提出的巨大需求。围绕这一目标,以碎片化知识的表示、质量、适配问题为切入点,拟通过“在线学习-拓扑融合-知识导航”三个阶段,根据人工智能的发展和应用对大数据知识工程的启示,利用人工智能的方法来解决如何将知识更有效地传递给机器,对非完整的信息进行处理,实现碎片化知识的“量-质-序”转化与应用问题求解,解决“碎片化知识发现、表示与演化规律”、“碎片化知识拓扑融合机理”、“个性化知识导航的交互模型”三个科学问题。
寻求碎片化知识发现、表示与演化规律
碎片化知识表示和挖掘是大数据知识工程的关键问题,也是非结构化知识发现的难题。海量碎片化知识具有多源分布、高维稀疏(难以描述数据分布特性)、低质(存在真实性、自洽性、完备性等问题)、分面(知识的多维度)等特性,其动态表示与在线学习成为巨大的挑战。
大数据流具有时序性和连续性特点,因而,在构建碎片化知识和知识簇表示模型的基础上,针对碎片化知识构建融合时序特征的同步演化模型是需要解决的关键问题;而针对数据流的多变性、快速性问题,如何实现概念漂移和演化学习,针对碎片化知识的分面特性,如何进行碎片化知识多维度协同学习,也是需要解决的关键科学问题;进一步,数据的多源复杂特性,决定其存在数据项缺失或噪音问题,提升知识演化模型的鲁棒性也是需要解决的关键科学问题。
揭示碎片化知识拓扑融合机理
知识融合能消除碎片化知识的不确定性,实现量-质转换与增殖,其依据是碎片化知识间的语义关联。然而,知识源的自治特点与碎片化知识的不完备性导致碎片化知识间的语义关联高度稀疏且隐式存在(仅有不到0.1%的碎片化知识间存在显式关联),其挖掘是典型的“大海捞针”。此外,碎片化知识存在真实性、自洽性、完备性等问题,是一种不确定性知识(tentative knowledge),如何通过融合消除其不确定性以提升可用性也是一个难题。主流的“One Result List”、“实体-主题”等融合模型都很难适用于海量低质且多源分布的碎片化知识。
如何依据“拓扑影响机理”这一普适原理,分析碎片化知识间语义关联的拓扑特性与涌现机理,设计动态挖掘与推理算法,实现碎片化知识的拓扑融合是大数据知识工程中的关键科学问题。
构建个性化知识导航的交互模型
个性化知识导航的交互模型通过用户与知识库间的交互优化求解路径,实现知识的动态适配。然而,传统知识库上的寻径主要是针对专家知识,鲜有考虑用户的多粒度和多维度的情景,适应性较差。因此,用户情景感知成为构建个性化知识导航交互模型的首要问题。此外,由于难以衡量用户再学习和反馈机制的收敛性,理解知识适配的作用机理成为一项难题。
如何感知用户情景,探索知识适配机理,优化知识适配模型是大数据知识工程的一个关键科学问题。
围绕上述三个科学问题,拟通过“在线学习-拓扑融合-知识导航”三个阶段,实现碎片化知识的“量-质-序”转化与应用问题求解。需要重点研究如图1 所示的八个研究方向:
1.碎片化知识表示/知识簇表示
碎片化知识表示是知识挖掘、融合的前提。针对碎片化知识的高维、稀疏、低质、分面等特性,拟采用深度学习方法对碎片化知识与语义联系进行建模,实现分布式环境下可溯源的碎片化知识和知识簇表示。
2.碎片化知识在线挖掘和协同学习
拟构建基于稀疏表示的概念漂移和演化模型,解决概念漂移学习时间窗的时空代价问题;研究概率图模型稀疏分布的共享优化,实现碎片化知识的多维度协同学习。
3.基于时序特性分析的知识演化模型
针对碎片化知识的更新和动态变化特点,需要研究融合时序特征的演化模型变结构学习。为提升模型精准性,需要研究知识演化下的噪音清洗方法。
4.碎片化知识语义关联挖掘与涌现特性分析
碎片化知识融合的依据是知识之间的语义关联,拟设计关联拓扑与深层语义特征相结合的关联挖掘算法,生成知识簇;在此基础上,分析关联拓扑特性的涌现规律,为知识融合提供理论支撑。
5.基于可靠子图发现的知识动态融合
旨在融合碎片化知识,实现量质转换与增殖。拟将融合过程看作从知识簇对应的不确定图中发现可靠子图的过程,研究知识簇中可靠子图发现与变粒度语义推理方法,并基于量子概率对融合结果进行置信度评估。
6.交互式情景感知
知识导航的前提是感知用户情景。拟综合多数据源、多维度的统计特征,构建融合交互行为、情感和偏好等属性的情景感知模型。
7.需求驱动的知识寻径
用户情景具有多分面、个性化特点,导致从知识库中规划出匹配用户情景的知识导航路径是一个多元约束满足问题。拟提出基于群体智能的知识导航路径规划算法,并设计基于上下文和焦点的导航路径可视化方法,引导用户知识寻径。
8.交互情景下知识适配的优化
依据交互式情景的“人人参与”和“逐步求精”的特点,研究知识适配的作用机理,利用空间变换理论和元学习理论寻求优化知识适配的模型。
支撑项目简介
针对大数据研究和应用过程中的问题与挑战,国家科技部于2016年启动了国家重点研发计划项目“大数据知识工程基础理论及其应用研究”,旨在建立大数据知识工程基础理论,形成利用海量、低质、无序的碎片化知识构建新型知识服务平台的方法学体系。
该项目设置了碎片化知识建模与在线学习、基于溯源和评估理论的知识演化规律研究、碎片化知识拓扑融合、基于情景感知的知识导航以及知识导航中的交互机理五个课题。项目研究由合肥工业大学、西安交通大学、华东师范大学、中国科学技术大学、中国科学院数学与系统科学研究院等15家单位联合承担。
该项目的预期收益体现在以下四个方面。
理论方法突破
通过将大数据与知识领域的研究工作深度融合,该项目有望建立利用海量、低质、无序的碎片化知识构建新型知识服务平台的理论与方法学体系,突破传统知识工程中“知识获取”和“知识再工程”两个瓶颈问题,缓解大数据知识工程中数据体量庞大与专家知识稀缺之间的矛盾。研究成果将形成一系列高水平学术论文、著作、专利、软件著作权等形式的知识产权,有望创建我国在大数据知识工程领域的先发优势,为建立知识密集型的新型知识发现与服务平台打下坚实的基础。
系统平台构建
该项目将以医疗健康知识网站(如丁香园)、在线教育网站(如MOOC中国)以及其他开放知识源为对象,通过碎片化知识挖掘与融合,建立具有增殖、适配、群智特点的PB 级数据与知识中心,并研制出具有碎片化采集、挖掘、分析、融合、导航等功能的系列化工具软件,为研究成果的应用提供技术支撑。
示范效应形成
该项目将选择普适医疗、远程教育、“互联网+旅游”三个知识密集型应用领域开展成果示范。在普适医疗领域,将选择糖尿病、痛风、高血压等疾病,开展面向辅助诊断的示范应用,建立基于大数据知识工程的认知医疗新模式。该模式不再仅依赖医护专家的知识,也依赖患者病历、医学文献等相关数据中的碎片化知识;另一方面,该模式强调患者本身对医学过程的反馈,能寻找到针对个体的个性化诊断结果,实现精准医疗。在远程教育领域,该项目将建立基于大数据知识工程的网络化认知模式,该模式能够将多源分布的低质碎片化知识进行融合,形成符合人类认知特点的结构化组织形式,降低学习者认知负荷。另一方面,该模式能够基于知识关联实现知识导航,有望克服碎片化知识离散、无序性导致的认知迷航问题。在“互联网+旅游”领域,将利用大数据知识工程,对用户生成内容中与旅游有关的海量碎片化知识进行融合与重构,结合游客属性、行为、旅游景区或目的地的偏好度进行分析,将海量碎片化知识形成可行动的智慧,实现传统的旅游服务向具有“智慧推送、精准服务”特点的个性化服务模式转变。
人才队伍建设
该项目将形成一支结构合理、有竞争力的、稳定的科研队伍,努力培养出包括国家杰出青年基金、优秀青年科学基金获得者、长江学者等的年轻学术带头人和优秀学术骨干,推动我国在大数据知识工程领域的研究走在国际领先行列。
通过研究,实现基础理论上的突破、关键技术上的创新、重大应用上的贡献,使我国在相关领域的研究成果走在国际领先行列,并在基础研究与相关产业发展的结合方面形成特色;培养和建立一支学术水平高、创新能力强的研究队伍,获得一系列关键技术的发明专利,形成自主知识产权,为我国在未来十年内建立新型知识发现与服务平台打下坚实的基础。