摘要:双语文本挖掘是当今机器翻译藉以获取更多机器学习数据的主要手段,大至网上挖掘,小至句子和词的对齐。前者主要是双语网页配对,在这方面我们开创了不依赖先验知识的网址键合模式(URL pairing pattern)自动发现技术,简单而实用,精确率高;后来又利用几种链接分析技术,例如匹配键的局部和全局可信度、网站权威度等,进行弱键救回、深网页挖掘和双语网页增量发现等,进一步扩充,在确保精确率>94%的情况下,能增挖20%以上的正确网页对。在句子对齐对其方面,已有研究无不基于单调性假设(monotonicity assumption),即假设双语两边的句子顺序是一致的,不考虑真实双语文本中的句序不一致即非单调性(non-monotonicity)问题。我们近年首次探讨了这一实际问题,基于两大观察:1. 用已有词汇资源作出的初始(或种子)对齐可资利用;2. 在一语言中具有高相似度(affinity)的句子,它们在另一语言中的对应句也同样相似。我们把这两大约束(constraints)引入半监督学习(semisupervised learning),导出一个全新的可普适于单调性和非单调性句对齐的方法。用不同领域的数据以及用端对端机器翻译所做的评测显示,以往的单调性句子对齐的代表性方法,均严重受制于非单调性,非单调性越高,受制越大,而我们的方法,无论非单调性高低,均保持一个稳定和富于竞争力的表现。 揭春雨副教授,著名计算语言学家、诗人,现任香港城市大学翻译及语言学系副教授,博、硕士导师,获终身教职,主要从事计算语言学和机器翻译等教研工作。1985年清华大学计算机系毕业,考读中国社会科学院应用语言学硕士,较早履足于中文信息处理研究领域,参与国家分词规范起草,后经香港留学美、英,完成香港城市大学语言学哲学硕士、美国卡内基-梅隆大学计算语言学硕士和英国谢菲尔德大学计算机博士。其研究领域包括计算术语学、中文信息处理、机器翻译、文本挖掘、心理语言学、计算诗学以及太极哲学。已在各大学术期刊(包括Information Sciences, International Journal of Corpus Linguistics, Journal of Artificial Intelligence Research, Journal of Computer Science and Technology, Law Library Journal, Literary and Linguistic Computing, Machine Translation, Terminology 和《中文信息处理》等)和重大国际会议(包括ACL, COLING, CoNLL, EMNLP 和 IJCAI等)上发表论文过百篇,有数章收入《语言的起源、习得和演变》、《语言学》、《The Routledge Encyclopedia of Translation Technology》等专著。 摘要:Vietnamese morphological analysis (VMA) is a challenging basic issue, and corresponding tokenization algorithms can be used in many applications of natural language processing. We investigate the VMA problem and propose a supervised ensemble learning (SEL) framework as well as a SEL-based tokenization (SELT) algorithm. Supported by the data structure of syllable-syllable frequency index, the SELT algorithm combines multiple weak tokenizers to form a strong one. Within the SEL framework, we also investigate the efficient construction problem of a weak tokenizer. We suggest two prediction methods to select a suitable dictionary, and efficiently implement two weak tokenizers by the simple dictionary-based tokenization algorithm. The experimental results show that the SELT algorithm integrating our weak tokenizers can achieve state-of-the-art performance in the VMA task. 刘伍颖博士,广东外语外贸大学博士,研究方向为计算语言学、自然语言处理和人工智能。已在SIGIR、AIRS、LREC、KAIS、《计算机研究与发展》等国内外学术会议和期刊上发表论文40余篇,其中SCI检索4篇、CPCI-S检索5篇、EI核心检索15篇,出版学术著作2部,主持和参加科研项目30余项,获得计算机软件著作权4项。主持开发具备完全知识产权的软件系统20余个、大型语言资源10余个,其中“银河摘星”智能摘要软件、高效能幂律分类器、“星汉传思”机器翻译软件、智能语义搜索引擎、“哲译通”英汉双向术语词典等系统和同文术语矩阵、星汉词库、星汉句库、“东盟十国”语言库、“一带一路”倡议语言库等资源已在搜索引擎、跨境电商、机器翻译、网络空间安全等应用领域广泛部署,实用效果理想,经济效益显著。 摘要:计算语言学基础研究的中心任务之一是自然语言结构的形式化以及结构处理的算法化。过去计算语言学对于自然语言结构的研究主要在词、词组和句子的层级上,目前正在向篇章发展。但是,句子的概念并不清楚。从操作的角度看,比较容易弄清楚的层级是小句和小句复合体,它们是词组到篇章之间的最重要的层级。我们说的小句是广义指称成分和它的述谓成分的组合,小句复合体是小句基于成分共享关系和逻辑语义关系的组合。我们在英汉两种语言的文本考察中发现,英语和汉语的小句复合体结构不同,但结构类型的体系却大体相同且并不复杂。这一发现对于机器翻译等跨语言转换应用的研究有重要意义。它提出了一个重要的研究方向,即小句复合体不同结构的取用和转换的特征和规律。由于这种结构的类型体系对不同语言大致相同且并不复杂,因此对相关特征和规律的把控是可行的。 宋柔教授,北京语言大学教授,广东外语外贸大学云山讲座教授。计算机应用和应用语言学方向博士生导师。近二十年主要研究方向是语言文字的形式化处理及其应用。在汉语自动分词、机助校对、词语属性检索、字形计算、词类研究、文本话题结构分析等方面取得成果,在计算机科学和语言学的重要刊物和会议上发表论文100余篇,在国内外重要学术会议上作特邀报告,研制并技术转让计算机软件多项,领衔获省部级科技进步二等奖2项,获专利2项。2002年获国务院颁发政府特殊津贴,2006年评为北京市优秀教师。
CCF Young Computer Scientists
走在时代前沿的广州,如何发展计算语言学、又如何应用计算语言学促进行业发展? CCF广州邀请高校知名专家学者就以上问题,做专题学术报告共同探讨计算语言学的前沿发展。
2016年5月28日,让我们相聚在广东外语外贸大学,一起探讨计算语言学的前沿发展!诚挚邀请各位同仁参加,期待您的光临!特邀报告1:网上双语文本挖掘和非单调性句子对齐
特邀报告2:Efficient Vietnamese Morphological Analysis
特邀报告3:自然语言结构的重要层级—小句复合体
会场地点:广东外语外贸大学大学城校区行政楼1楼第一会议室