CCF@U1153:CCF数据库专委走进南京航空航天大学
CCF走进高校第1153场
敬请关注
由中国计算机学会(CCF)主办,CCF数据库专委、南京航空航天大学承办的CCF走进高校活动,将于2024年11月1日在南京航空航天大学召开,敬请关注。
活动时间:2024年11月1日(星期五)14:00-18:00
活动地点:南京航空航天大学将军路校区图书馆报告厅
会议主题:数据要素、智能系统及产业应用
会议日程:
时间 | 内容 | 说明 |
14:00-14:10 | 嘉宾和参会者入场 | 发会议手册 |
14:10-14:18 | 开幕式 | 1. 嘉宾介绍 2. 南京航空航天大学致欢迎辞 3. 数据库专委致辞 |
14:18-14:20 | 会议现场合影 | |
14:20-14:50 | 主题报告:数据管理:从突破对数据的认知开始 Data Management: Start by Breaking Through the Cognition on Data | 报告人:周傲英 华东师范大学教授、CCF会士 国家杰青、长江学者 |
14:50-15:10 | 专题报告1:分布式数据库架构探索与实践 | 报告人:付新 达梦数据技术(江苏)有限公司总经理 |
15:10-15:30 | 专题报告2:知识融合技术及应用 | 报告人:胡伟 南京大学教授 |
15:30-15:50 | 专题报告3:基于稀疏轨迹的复杂骑行地图构建 | 报告人:毛嘉莉 华东师范大学教授 |
15:50-16:00 | 茶歇 | |
16:00-16:25 | 专题报告4:多模态大数据管理与计算:挑战与机遇 | 报告人:高云君 浙江大学教授、国家杰青 |
16:25-16:50 | 专题报告5:面向大模型的向量数据管理前沿技术 | 报告人:童咏昕 北京航空航天大学教授、国家杰青 |
16:50-17:10 | 专题报告6:Towards Next-Generation Columnar Storage Formats | 报告人:张焕晨 清华大学教授、国家青年人才 |
17:10-17:30 | 专题报告7:面向海量视频数据的查询优化 | 报告人:张志威 北京理工大学教授、国家级高层次人才 |
17:30-17:50 | 专题报告8:极大动态图k条最短路线分布式搜索问题研究 | 报告人:于自强 烟台大学副教授 |
17:50-17:55 | CCF 数据库专委秘书长活动总结 | 发言人:陈跃国 中国人民大学教授 |
报告信息:
报告题目:数据管理:从突破对数据的认知开始
Data Management: Start by Breaking Through the Cognition on Data
报告摘要:数据是第五生产要素,这一论断彰显了我们对于数据的认识达到一个新的高度。与作为第三生产要素的资本相比,我们对数据的认识还处于初级阶段。回顾历史,二十多年来互联网的发展使我们认识到数据的重要性。数据之于数字化,正如电力之于电气化,数据是人类文明史上位列汽力、电力之后的第三个重要的动力,将把人类带入数字文明时代。只有在认知层面把数据从“副产品”提升到“新要素”,才能把数据库人无意识的“变废为宝”变成互联网人有意识的“价值释放”。重新认识数据才能有效推进数字化转型的,对数据认知的提升是新时代数据管理理论和实践的基础。发挥数据的威力是发展新质生产力的前提,新质生产力的一个重要特征就是生产力的数量级提升。
报告嘉宾:
周傲英,华东师范大学数据学院教授,中国计算机学会会士、常务理事、数据库专委会主任,教育部长江学者特聘教授、国家杰青。主要研究兴趣包括数据库、数据管理、区块链、数字化转型、金融科技、教育科技等。现担任上海市计算机学会理事长、上海市人工智能与社会发展研究会会长、《计算机学报》副主编。曾任复旦大学计算机系主任(1999-2002)、华东师范大学副校长(2016-2023);获得过国家科技进步二等奖、国家教学成果二等奖以及多项省部级一等奖。
报告题目:分布式数据库架构探索与实践
报告摘要:回顾数据库架构发展历史,分析现有分布式数据库架构不足,重点介绍下一代分布式数据库架构和主要特性,并对数据库后续发展方向进行展望。
报告嘉宾:
付新,毕业于华中科技大学计算机学院,现担任达梦数据技术(江苏)有限公司总经理,主要研究方向为分布式数据库,先后主导研发了图数据库、缓存数据库、文档数据库以及时序数据库等产品,目前正负责分布式原生多模数据库产品研发工作。
报告题目:知识融合技术及应用
报告摘要:
知识来源广泛、表示形式多样。知识融合将多源异构知识融合为统一、一致的形式,为使用它们的应用程序间的交互建立互操作性。知识图谱以结构化的方式描述客观世界中的概念、实体及其间的关系,提供了一种良好组织、管理和理解知识的方式。本报告首先面向知识图谱的融合问题,介绍一种实体和模式联合的深度主动对齐方法。近年来,大语言模型技术飞速发展,已经成为人工智能领域的基础设施。通用大模型往往缺乏准确的专业领域知识,导致生成不准确、不可靠,甚至难以实际落地,而知识图谱是一种大模型知识增强的有效方式。本报告接下来面向大模型与知识图谱的融合问题,介绍一种使用知识适配的大模型微调方法,将知识图谱高效注入到大模型中。最后介绍上述技术在配置翻译方向的应用情况。
讲者简介:
胡伟,南京大学计算机学院教授、博士生导师,兼职南京大学健康医疗大数据国家研究院。研究兴趣为知识图谱、数据库、智能软件。先后于阿姆斯特丹自由大学、斯坦福大学、多伦多大学访学。主持4项国家自然科学基金项目,在高水平会议和期刊上(例如,SIGMOD、VLDB、ICDE、ICML、NeurIPS、AAAI、IJCAI、KDD、WWW、SIGIR、ICSE、ASE、ACL、EMNLP、NAACL、ISWC、CIKM、TKDE、VLDBJ、TSE、TNNLS)发表60余篇论文,Google Scholar引用5千余次,还获得过ISWC、JIST、CCKS、CHIP最佳论文奖或提名、阿里巴巴达摩院优秀学术合作项目奖等。担任数据库专委会委员、语言与知识计算专委会委员、万维网联盟W3C南京大学学术代表等。
报告题目:基于稀疏轨迹的复杂骑行地图构建
报告摘要:
随着遍布于城市路网的骑行轨迹的大规模采集,基于轨迹数据的骑行地图推断成为可能。由于城市不合理的道路空间分配以及骑行者的违规骑行方式,利用骑行轨迹推断地图面临严峻挑战:轨迹数据存在大量噪声与不完整段、不同道路轨迹的形态复杂、不同规模路口的转向位置明显不同、小型路口及其近邻路段的轨迹稀疏、平行道路之间彼此邻近且方向相似等。鉴于此,本报告将深入探讨基于轨迹数据的骑行地图构建方法,包括基于形态感知的骑行地图推断、基于生成对抗网络的轨迹恢复、多尺度特征融合的路口检测以及基于近邻道路差异性对比的道路推断。
讲者简介:
毛嘉莉,华东师范大学数据科学与工程学院教授、博士生导师,兼任《大数据》编委、CCF数据库专委执委、CAAI智能融合专委会常委和信息系统专委会常委。主要研究方向为:时空数据管理与分析、数据驱动的物流决策优化等。近年来主持国家自然科学基金、企业横向课题等8项科研项目,以第一/通讯作者发表高水平学术论文五十余篇,出版英文学术专著1部,获授权国家发明专利9项。曾获上海市科技进步一等奖、教育部技术发明一等奖、CCF科技进步一等奖、吴文俊人工智能科技进步二等奖、数据库领域国际顶级会议ICDE 最佳论文亚军与《软件学报》高影响力论文奖等。
报告题目:多模态大数据管理与计算:挑战与机遇
报告摘要:
大数据时代,规模庞大、结构复杂的多模态数据已成为重要的战略资源和生产要素,受到了世界各国或地区的高度重视。不同模态数据之间相互补充,易于更全面、精确的特征表示,为多模态大模型、向量数据库等方向的研究和智慧城市、智能制造等领域的应用提供了多样且丰富的数据支撑。然而,多模态大数据仍面临数据管理难、智能计算弱等挑战,亟需展开多模态大数据管理与计算研究。本报告先从多模态大数据的管理与计算两个角度分析当前的挑战,而后介绍面向多模态大数据管理与计算的主要科学问题及相关代表性工作,最后展望该方向未来可能的突破点。
讲者简介:
高云君,浙江大学求是特聘教授,博士生导师,国家杰出青年科学基金获得者(2020)、国家优秀青年科学基金获得者(2015)。研究方向为数据库、大数据管理与分析、DB与AI融合,已发表CCF A类论文160余篇,出版专著4部,授权专利20余项,登记软著4项,并获VLDB、ICDE等会议最佳/优秀论文6次,省部级或全国性学会科技进步特等/一等奖3项。现为ACM SIGSPATIAL中国分会副主席,全省大数据智能计算重点实验室主任,浙江大学软件学院副院长。担任TKDE、JCST、FCS、《计算机研究与发展》等期刊编委/副编辑,VLDB、SIGSPATIAL、WISE等10余个顶级/重要国际学术会议程序委员会/Workshop/Tutorial/宣传/出版/本地(共同)主席,SIGMOD、VLDB、ICDE、SIGKDD、SIGIR等会议(资深)程序委员会委员。培养多名博/硕士生获省部级或全国性学会优秀博/硕士学位论文奖9次以及KDD Cup 2022风电预测赛道全球冠军。
报告题目:面向大模型的向量数据管理前沿技术
报告摘要:
随着GPT和Llama等大模型的快速发展,如何有效地存储、查询和管理大模型的高维向量数据已成为大模型推理的重要挑战之一。本报告首先回顾向量数据管理技术的发展历程,并阐述其与大模型的关系;其次,结合产业应用需求与本团队的研究进展,介绍向量数据管理的前沿技术与典型案例;最后,报告将剖析向量数据管理技术在面向大模型的信息检索等行业的应用示范,并对该领域未来发展进行展望。
讲者简介:
童咏昕,北京航空航天大学计算机学院教授,博士生导师,国家杰青、优青基金获得者。2014年于香港科技大学获计算机科学与工程学博士学位,随后留校担任研究助理教授,2015年入选北京航空航天大学“卓越百人计划”。主要研究方向包括:联邦学习、时空大数据管理与挖掘、向量数据管理与数据库系统等。近年先后主持国家自然基金重点项目、国家重点研发计划课题等科研项目。共发表学术论文百余篇,谷歌学术引用1.2万余次。曾获中国电子学会自然科学一等奖(排名1)、首届阿里巴巴达摩院“青橙奖”和多个国际一流学术会议/竞赛的最佳论文与冠军等奖励;担任《Frontiers of Computer Science》期刊的执行编委、《IEEE TKDE》与《IEEE TBD》等国际期刊编委;作为数据库领域重要国际会议DASFAA 2024会议的程序委员会共同主席(Co-PC Chair)和多个CCF-A类会议程序委员会领域主席(PC Area Chair);也是CCF杰出会员和杰出讲者、CCF会员与分部工委副主任、CCF走进高校工作组组长。
报告题目:Towards Next-Generation Columnar Storage Formats
报告摘要:
Columnar storage formats such as Apache Parquet and Apache ORC have been widely adopted for data analytics systems. These formats, however, were developed more than a decade ago. Both the hardware and workload landscapes have changed since then. In this talk, I will discuss the lessons learned from our comprehensive benchmark on Parquet and ORC to provide insights for developing next-generation column-oriented storage formats.
讲者简介:
Huanchen Zhang is an Assistant Professor in the IIIS (Yao Class) at Tsinghua University. His research interest is in database management systems with particular interests in indexing, data compression, and cloud databases. He received his Ph.D. degree from the Computer Science Department at Carnegie Mellon University. Before joining Tsinghua, he worked at Snowflake as a Postdoctoral Research Fellow. He is the recipient of the SIGMOD Jim Gray Dissertation Award (2021) and the SIGMOD Best Paper Award (2018).
报告题目:面向海量视频数据的查询优化
报告摘要:
随着视频采集设备的大量使用以及多媒体数据分析需求的增加,多媒体数据的规模呈现爆发趋势。我国全部监控摄像头每小时即可产生约130PB视频。计算机视觉算法和深度学习的出现促进了多媒体分析应用程序的发展。大量的应用无法直接采用模型获得结果,而需要经过数据查找、过滤等一系列处理之后,才可利用模型的进行计算。因此,高效的海量多媒体数据管理和分析受到了越来越多的关注。多媒体数据管理存在诸多挑战,以降低对多媒体数据查询时所需访问的数据范围;如何选择大量的低开销低精度与高开销高精度的模型执行方式,以达到高效的执行查询分析任务等诸多方面。目前针对多媒体数据库的研究主要分为对查询的优化和对存储的优化。针对查询的优化方法主要集中在面向模型的选择与执行计划以及数据的分割压缩。其中,面向模型的执行优化主要通过选择、排列和组合模型和算法提升查询性能。而面向数据规模的优化方法主要通过过滤、缩减和分段等方式以降低需处理的数据规模。针对存储的优化方法主要包括多粒度多副本存储和基于语义的数据整合。本报告通过分析实际应用中多媒体数据的分析任务特点,介绍现阶段视频数据管理的难点与挑战,并介绍针对上述挑战的技术。
讲者简介:
张志威,北京理工大学计算机学院教授,博士生导师,2019年入选国家级高层次人才计划。张志威教授于2010年获中国人民大学学士学位,2014年获香港中文大学博士学位,2014至2015年在香港中文大学从事博士后工作,并于2016年加入香港浸会大学。2019年加入北京理工大学计算机学院。主要研究方向为大规模数据管理与分析、分布式计算、湖仓融合系统、区块链等。曾主持参与包括自然科学基金委青年项目、面上项目、重点项目、重点研发计划课题、香港研究资助局RGC计划等科研项目。已发表计算机学会(CCF)推荐A类论文多篇,其中包括顶级会议ACM SIGMOD,KDD,ICDE及顶级期刊VLDB Journal等。多次担任如ACM SIGMOD,VLDB,AAAI等国际学术会议程序委员会委员。
报告题目:极大动态图k条最短路线分布式搜索问题研究
报告摘要:
基于位置服务领域的一个基本问题是在给定的道路网络中,搜索起点和终点之间的多条最优路线,该问题可抽象为图的k条最短路线(K Shortest Paths, KSP)搜索问题。如果道路的通行时间看作图中边的权重,根据道路交通状况,边的权重则随时间不断变化。此时,道路网络演变为权重不断变化的动态图。因此,面向动态图的KSP搜索问题对基于位置服务领域的若干应用极为重要。现实中,基于位置服务的相关应用通常面临大规模路网上的高并发 KSP 查询,急切需要KSP查询的分布式解决方案以提高查询效率和扩展性。然而,大多数现有方法是研究静态图(权重固定)的KSP查询问题,限制了它们在分布式环境中的可扩展性和适用性。为此,该报告提出一种动态图KSP分布式查询算法。该算法将动态图划分为若干子图,然后将KSP 查询问题转化为多个子图内的局部 KSP查询问题,使其易于在分布式计算环境下并行处理。最后通过对各子图的局部KSP进行拼接,得到最终的k条最短路线。
讲者简介:
于自强,烟台大学计算机与控制学院副教授、学科带头人。主要研究兴趣包括时空数据计算、图数据计算、分布式计算、视频数据结构化查询等。主持国家自然科学基金面上项目/青年项目、CCF-华为胡杨林基金、山东省重点研发计划等研究课题。在SIGMOD、VLDB、TKDE、EDBT、《软件学报》 等发表论文30余篇。获得山东省人工智能自然科学二等奖(1/4)、ACM 学术新星奖(济南)、ACM 优博奖(济南)、WAIM 最佳论文奖。担任TKDE、VLDB Journal、Information Sciences等期刊审稿人以及SIGKDD 2025 Proceeding Co-Chair,AAAI、CIKM等国际顶级会议程序委员会委员。
CCF微信公众号,欢迎关注