完成单位:北京大学计算语言学研究所
主要完成人:俞士汶、穗志方、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明
综合型语言知识库(简称CLKB)属于文理结合的"中国语言文字信息处理"学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。
2011年申报国家奖的CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。
语言知识库是CLKB的主体,包括:
现代汉语语法信息词典,含8万词的360万项语法属性描述;
汉语短语结构规则库,含600多条语法规则;
现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库,其中精加工的有5200万字(《人民日报》1998年和2000年 两年的全部原始语料),标注义项的有2800万字(1998年1月份的和2000年全年的);
多语言概念词典,含10万个以同义词集表示的概念 ;
平行语料库,含对译的英汉句对100万 ;
多领域术语库,有35万中英对照术语。
CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界规模最大且获得广泛认可的汉语语言知识资源,具有完全的自主知识产权。
CLKB于2007年通过中国教育部组织的技术鉴定。鉴定意见对CLKB的评价是:"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。
CLKB已产生广泛的学术影响、巨大的社会效益与可观的经济效益。规范和论著被广泛引用,两篇全国优秀博士学位论文在这里产生。免费用户数以万计。此外,CLKB的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港、澳门,包括从事相关研究的著名企业、大学和研究所。自1996年开始应用起,直至2017年,这22年来,CLKB作为语言信息处理技术与产业的基础设施,为机器翻译、智能搜索、语音处理、信息提取、人机会话等各方面应用提供了支持。CLKB也为中国少数民族语言处理、聋人手语自动翻译、汉语国际传播做出了卓有成效的贡献。CLKB生命期之长在IT领域实属罕见。
CLKB所获主要奖励有:
2016年,北京大学优秀教材奖;获奖项目:俞士汶主编、常宝宝、詹卫东撰稿之《计算语言学概论》,2003年商务印书馆出版。此书是基于综合型语言知识库研究实践编写的。
2013年,北京大学首届产学研合作特别贡献奖;获奖项目:“综合型语言知识库”。
2011年度,中国国家科学技术进步奖二等奖;获奖项目:“综合型语言知识库”; 获奖人:俞士汶、穗志方、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明。
2011年,中国中文信息学会 终身成就奖;获奖人:俞士汶* 。
2010年度,中国电子学会电子信息科学技术奖一等奖;获奖项目:“综合型语言知识库”; 获奖人:俞士汶、穗志方、孙 斌、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明。
2008年度,北京技术市场金桥奖项目二等奖;获奖项目:“综合型语言知识库”;获奖人:俞士汶、段慧明、孙 斌、朱学锋、常宝宝。
2007年度,教育部科学技术进步奖一等奖,获奖项目:“综合型语言知识库”; 获奖人:俞士汶、段慧明、孙 斌、常宝宝、刘 扬、朱学锋、 张化瑞、陆俭明、于江生。
2007年度,中国科学技术协会第四届中国科协期刊优秀学术论文奖: 获奖论文:《北京大学现代汉语语料库基本加工规范》(刊于《中文信息学报》,2002年第5,6期);获奖人:俞士汶、段慧明、朱学锋、孙斌。
1998年度,教育部科学技术进步奖二等奖,获奖项目:现代汉语语法信息词典; 获奖人:俞士汶、朱学锋、陆俭明、王惠、郭锐。
值得补充提及的是,以《现代汉语语法信息词典》为基础的综合型语言知识库中的各项语言知识资源自1996年开始起对外进行协议转让,直至2017年,整整延续22年,从未有一年间断过。在信息技术领域,一项研究成果有如此长的生命力,还是相当罕见的。
基于语言工程实践,俞士汶主编的《计算语言学概论》于2016年获北京大学优秀教材奖励。
此外,北京大学计算语言学研究所还有多项没有参与报奖的语言知识库,择其要者:
1) 现代汉语语义词典——现代汉语语法信息词典的继承与扩充
2) 合成词结构数据库——用于未登录词的识别
3) 缩略语数据库——用于缩略语编码与解码的研究
4) 现代汉语虚词知识库——与郑州大学合作
5) 成语知识库 —— 与台湾元智大学典故资料库连接
6) 隐喻知识库——与北京语言大学合作
……
CLKB 是开放的,发展的!
欢迎询问,洽谈合作,共谋发展!