随着中国“一带一路”倡议的提出,东盟地区基于地缘政治、地理优势和人文基础成为“一带一路”建设的重点地区,中国与东盟合作迎来历史大机遇。而当前不断优化的东南亚非通用语言AI技术是否能为跨境电商等东盟的经贸合作提供更进一步的助力?对此,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州分论坛学术委员会与桂林分论坛学术委员会于2022年11月12日联合举办了“东南亚非通用语种AI技术,如何助力东盟经贸合作?”技术论坛。论坛邀请领域专家进行了深度解读,对自然语言及与其相关前沿技术、未来发展及产业化等方面进行了深入思辨,共论小语种NLP助力东盟经贸发展之路。
本次论坛由CCF主办,CCF YOCSEF广州学术委员会、CCF YOCSEF桂林学术委员会与广东外语外贸大学信息科学与技术学院/网络空间安全学院共同承办, YOCSEF广州学术秘书姜思羽(广东外语外贸大学)和YOCSEF桂林学术秘书蓝如师(桂林电子科技大学)共同担任执行主席,YOCSEF广州AC委员黄培涛(广州唐邦信息科技有限公司)担任微论坛主席,来自中国社会科学研究院、中山大学、华南理工大学、华南师范大学、华南农业大学、广东外语外贸大学、广西科技大学、桂林电子科技大学、桂林理工大学、广州大学、广东技术师范大学、仲恺农业工程学院、广州唐邦信息科技有限公司、软通动力信息技术集团等多家高校及企事业共200余人参加了本次论坛。广州唐邦信息科技有限公司为此次活动提供了赞助支持。
图1 论坛背景
论坛首先由广东外语外贸大学信息科学与技术学院王常吉院长代表承办单位致辞。王常吉对与会嘉宾表示了欢迎,并对广东外语外贸大学信息科学与技术学院/网络空间安全学院的学科及专业情况以及论坛举办的背景和意义进行了简要介绍,期待论坛可以围绕自然语言技术及其未来发展进行深入思辨,并预祝论坛取得圆满成功。
图2 王常吉院长代表承办单位致辞
随后,论坛进入引导报告环节。本次论坛邀请了桂林电子科技大学黄永忠教授、天津大学智能与计算学部熊德意教授、昆明理工大学李英博士、广东外语外贸大学信息科学与技术学院蒋盛益教授作为引导报告嘉宾。
黄永忠教授以“东盟多语言大规模知识库构建与应用”为题,介绍了我国对东盟语言的国家战略和应用需求、构建东盟多语种大规模知识库的方法和模型,并讲述了知识图谱、深度学习、认知智能等工具对自然语言处理的积极推动作用。黄永忠教授认为,亚洲低资源语言处理技术是未来自然语言处理领域的研究热点,对亚洲低资源语言处理的研究即将步入黄金时期。
图3 黄永忠教授作引导报告
熊德意教授以“面向资源稀缺语言的大规模多语言神经机器翻译”为题,讲述了当前多语言神经机器翻译存在的问题与挑战,提出了基于语言类型学的多语言神经机器翻译的多种解决方案,随后探讨了多语言神经机器翻译模型的容量问题,并介绍了面向小语种机器翻译的平行语料库构建方法的当前研究进展。
图4 熊德意教授作引导报告
李英博士以“跨领域依存句法分析方法研究”为题,介绍了其团队在依存句法分析基础模型上的工作,随后从少样本与零样本两个方面讲述了其在依存句法分析领域移植任务上的工作,并分享了在面向东南亚语言依存句法分析研究上的探索工作。
图5 李英博士作引导报告
蒋盛益教授以“面向低资源语言的命名实体识别研究”为题,阐述了面向低资源语言的NER研究的背景及意义,介绍了基于双重判别器的自训练NER框架和基于双边分支网络和自蒸馏的跨语言NER框架。蒋盛益教授指出,当前该领域有关工作可在寻找更有效样本比例控制策略以及融入更多目标语言信息的异源跨语言NER模型等两个方面展开更多研究与探索。
图6 蒋盛益教授作引导报告
在引导报告之后,论坛进入思辨环节。与会嘉宾围绕“自然语言处理助力东盟经贸发展,着力点应在官方英语NLP还是多语种NLP?”“自然语言处理(NLP)/机器翻译(MT)技术在东盟经贸合作中有哪些创新应用场景?”以及“如何驱动小语种NLP为东盟经贸提供更多助力?”等议题展开观点思辩,论坛邀请了桂林电子科技大学李俊博士、广东外语外贸大学张新猛副教授、广东外语外贸大学王连喜教授担任思辨特邀嘉宾。
议题一:自然语言处理助力东盟经贸发展,着力点应在官方英语NLP还是多语种NLP?
(衍生议题:官方英语NLP与小语种NLP瓶颈各在于何处?)
针对此议题,桂林电子科技大学李俊博士表示,当前NLP领域对英语的研究更为成熟,落地更易,因此着力点应以官方英语NLP为主。同时,东盟多语种NLP也有其重要性,当前其发展仍处于起步阶段,未来蕴含有很大潜力。另外,对于未来的东盟经贸发展,中文NLP也可提供很大的助力。
YOCSEF广州主席、华南农业大学黄栋副教授则认为着力点应以多语种NLP为主。东南亚许多国家以英文为官方语言,而其民间则有各自的本地语言,例如马来语、印尼语等。英语NLP一方面技术更成熟,另一方面相关人才也更多,在涉及官方英文之处,有不少问题是能以较为充足的英语人才解决的。而相较而言,当前多语种人才较少、技术较不成熟,正是未来更应着力之处。
CCF广州分部秘书长、华南师范大学郝天永教授指出,官方英语NLP与多语种NLP二者皆应重视。英语是许多东盟国家的唯一官方语言,理应重视。而对于个体而言,在与其经贸发展时难免涉及多语言,因此也有其发展必要性。两者并不矛盾,应当同时发展。
对于衍生议题,YOCSEF广州AC委员、中山大学胡建芳副教授表示,官方英语NLP与小语种NLP瓶颈均在于数据与模型。英语NLP虽然已研究多年,但解决部分困难问题的能力仍有限,瓶颈既在于数据也在于模型。而小语种NLP的瓶颈则主要是在数据,或许还未到达模型瓶颈。广东外语外贸大学王连喜副教授指出,当前小语种NLP的瓶颈除资源层面,还有合作层面,不同学科人士的学科背景有所不同,理解也有所不同。此外,相关人员对该领域研究意愿也是另一瓶颈,小语种NLP相对于英语NLP要取得成果较为不易。
议题二:自然语言处理(NLP)/机器翻译(MT)技术在东盟经贸合作中有哪些创新应用场景?
(衍生议题:小语种AI翻译可否替代人工?替代“哪些”人工?)
针对此议题,广东外语外贸大学张新猛副教授认为,语言互通是经贸合作的基础。许多东南亚国家的官方语言为英语,而民间却多有其本土语言。研究小语种工具,知其本土语言,有助于交流。同时,有关资料的翻译,语言的交流,商业的分析,跨境电商的服务,均为潜在创新应用场景。
来自广东外语外贸大学东方语言文化学院的肖莉娴教授指出,当前国内众多电商平台希望引入东盟国家产品,而怎样对有关产品展开介绍与推广,往往有赖于人工翻译。若可实现相关语言的机器翻译,或可减轻人工翻译成本。
郝天永教授进一步指出,结合近期有关报道,中国与东盟合作的重点领域,涉及制造业、农业、数字经济、绿色经济等,围绕这些重点领域,例如智慧农业、数字经济等可以产生众多创新应用场景。
对于衍生议题,张新猛副教授认为,小语种NLP目前尚难完全替代人工,机器翻译时或可传达大致含义,但许多文化内涵或难以传达。网络时代下,新词汇新用语的出现,也令原有模型难以应对。因此,机器翻译可作“粗”加工,减轻人力翻译工作量,但需专业人员进行“精”加工。此外,对于翻译质量要求不高的领域,例如娱乐领域、日常交流平台等,机器翻译也可部分替代。YOCSEF广州副主席、广州大学曾衍瀚副院长表示,东南亚传统文化与中国文化关联较为紧密,NLP可促进东南亚文化与中国文化的“重新走近”,通过NLP技术可让东南亚民众更深入了解中国文化,同时也对经贸发展有促进作用。
议题三:如何驱动小语种NLP为东盟经贸提供更多助力?
(衍生议题:如何培养符合市场需求的小语种与计算机复合型人才,未来如何突破?)
针对此议题,王连喜副教授表示,东盟是中国的重要贸易伙伴,也是重要对外投资目的地,NLP技术可为之助力。在合作过程中也会遇到许多问题与挑战,一是不同国家、不同地区之间的数字鸿沟,二是技术与人才问题,三是人工智能赋能的场景需要深化与细化,在跨境旅游与电商等垂直领域会有更多新的需求与应用。对于NLP助力东盟经济,数据、技术、人才培养、应用场景等方面均可有所作为。
YOCSEF桂林主席、广西科技大学王欢副院长认为,与东盟合作,数字经济是一大重点领域。在数字经济与互联网背景下,小语种NLP需求较大。在人才培养方面,广西的人才培养目前已覆盖东南亚许多小语种,但NLP与小语种人才培养之间结合仍有待加强。
对于衍生议题,王连喜副教授指出,小语种NLP研究具有跨学科交叉特点,当前具有多学科交叉背景的人才较少,不同学科人员的思维方式有差异。进一步,王连喜以广外经验为例,介绍了广外不同学科背景的教师与学生多年合作的经验,学院内部进行创新、开设特色班已有多年,以计算机专业学生选修小语种课程,可令其更了解相应所处理的语言。YOCSEF广州副主席、广东技术师范大学李春英副院长认为,对于小语种人才培养,一种方式是推动计算机人才以计算机技术处理小语种数据,另一种方式是对小语种专业的人才进行培养,加强其计算机技能,使之两面皆通。而相关人才的未来发展,或与市场息息相关。有足够大的产业需求,即可为其研究提供推动力。
图7 与会嘉宾在线热议
此次论坛历时近四个小时,最后,YOCSEF广州学术秘书姜思羽对此次论坛进行了总结。此次论坛围绕东南亚非通用语言AI技术如何助推东盟经贸合作展开了深入思辨,亦探讨了其未来趋势与发展方向,相信可以为相关领域人员提供重要的参考与借鉴。最后,论坛在一片热烈的讨论氛围中圆满结束。