跳转至主要内容
综合型语言知识库(CLKB) (北京大学计算语言学研究所)
分享数据空间

分享该数据空间到您最喜欢的社交媒体网络。

完成单位:北京大学计算语言学研究所

主要完成人俞士汶、穗志方、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明

综合型语言知识库(简称CLKB)属于文理结合的"中国语言文字信息处理"学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。

2011年申报国家奖的CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。

语言知识库是CLKB的主体,包括

  • 现代汉语语法信息词典,含8万词的360万项语法属性描述;
  • 汉语短语结构规则库,含600多条语法规则;
  • 现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库,其中精加工的有5200万字(《人民日报》1998年和2000年 两年的全部原始语料),标注义项的有2800万字(1998年1月份的和2000年全年的);
  • 多语言概念词典,含10万个以同义词集表示的概念 ;
  • 平行语料库,含对译的英汉句对100万 ;
  • 多领域术语库,有35万中英对照术语。
  • CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界规模最大且获得广泛认可的汉语语言知识资源,具有完全的自主知识产权。

    CLKB于2007年通过中国教育部组织的技术鉴定。鉴定意见对CLKB的评价是:"其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平"。

    CLKB已产生广泛的学术影响、巨大的社会效益与可观的经济效益。规范和论著被广泛引用,两篇全国优秀博士学位论文在这里产生。免费用户数以万计。此外,CLKB的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港、澳门,包括从事相关研究的著名企业、大学和研究所。自1996年开始应用起,直至2017年,这22年来,CLKB作为语言信息处理技术与产业的基础设施,为机器翻译、智能搜索、语音处理、信息提取、人机会话等各方面应用提供了支持。CLKB也为中国少数民族语言处理、聋人手语自动翻译、汉语国际传播做出了卓有成效的贡献。CLKB生命期之长在IT领域实属罕见。

    CLKB所获主要奖励有

  • 2016年,北京大学优秀教材奖;获奖项目:俞士汶主编、常宝宝、詹卫东撰稿之《计算语言学概论》,2003年商务印书馆出版。此书是基于综合型语言知识库研究实践编写的。
  • 2013年,北京大学首届产学研合作特别贡献奖;获奖项目:“综合型语言知识库”。
  • 2011年度,中国国家科学技术进步奖二等奖;获奖项目:“综合型语言知识库”; 获奖人:俞士汶、穗志方、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明。
  • 2011年,中国中文信息学会 终身成就奖;获奖人:俞士汶* 。
  • 2010年度,中国电子学会电子信息科学技术奖一等奖;获奖项目:“综合型语言知识库”; 获奖人:俞士汶、穗志方、孙 斌、常宝宝、刘 扬、段慧明、朱学锋、孙 斌、吴云芳、李素建、陆俭明。
  • 2008年度,北京技术市场金桥奖项目二等奖;获奖项目:“综合型语言知识库”;获奖人:俞士汶、段慧明、孙 斌、朱学锋、常宝宝。
  • 2007年度,教育部科学技术进步奖一等奖,获奖项目:“综合型语言知识库”; 获奖人:俞士汶、段慧明、孙 斌、常宝宝、刘 扬、朱学锋、 张化瑞、陆俭明、于江生。
  • 2007年度,中国科学技术协会第四届中国科协期刊优秀学术论文奖: 获奖论文:《北京大学现代汉语语料库基本加工规范》(刊于《中文信息学报》,2002年第5,6期);获奖人:俞士汶、段慧明、朱学锋、孙斌。
  • 1998年度,教育部科学技术进步奖二等奖,获奖项目:现代汉语语法信息词典; 获奖人:俞士汶、朱学锋、陆俭明、王惠、郭锐。
  • 值得补充提及的是,以《现代汉语语法信息词典》为基础的综合型语言知识库中的各项语言知识资源自1996年开始起对外进行协议转让,直至2017年,整整延续22年,从未有一年间断过。在信息技术领域,一项研究成果有如此长的生命力,还是相当罕见的。

    基于语言工程实践,俞士汶主编的《计算语言学概论》于2016年获北京大学优秀教材奖励。

    此外,北京大学计算语言学研究所还有多项没有参与报奖的语言知识库,择其要者:

    1) 现代汉语语义词典——现代汉语语法信息词典的继承与扩充

    2) 合成词结构数据库——用于未登录词的识别

    3) 缩略语数据库——用于缩略语编码与解码的研究

    4) 现代汉语虚词知识库——与郑州大学合作

    5) 成语知识库 —— 与台湾元智大学典故资料库连接

    6) 隐喻知识库——与北京语言大学合作

    ……

    CLKB 是开放的,发展的!

    欢迎询问,洽谈合作,共谋发展!

    特色数据空间

    为了使用此功能,您必须至少有一个已发布的数据空间。

    发布数据空间

    您确定要发布数据空间吗?一旦如此,他将一直保持“发布​​”状态。

    发布数据空间

    该数据空间不能发布,因为它的祖先数据空间尚未发布。

    删除数据空间

    您确定要删除您的数据空间吗?此操作不能“撤销”。

    查找 高级搜索

    11 to 20 of 34 结果
    application/msaccess - 51.2 MB - MD5: e0b026271e823f00edc62f3444c1057a
    application/msaccess - 8.7 MB - MD5: f59c9537f69d6b7e79e4917d848fb6d7
    application/msaccess - 12.4 MB - MD5: 04196e991f005b3fac2ca7e8cf1af0a4
    MS Excel - 338.0 KB - MD5: 27c84b62ad69f52c73434a652c030c2d
    Adobe PDF - 338.9 KB - MD5: 41745314dc07a0eed466d2fd5ee93430
    Adobe PDF - 120.0 KB - MD5: e4858ffb21985b104c49900b21cb1590
    Adobe PDF - 266.2 KB - MD5: 47b9bdc79e80d332bf006fb7c7f32660
    Adobe PDF - 746.8 KB - MD5: 75b49b2613cb9572e6cbbdaa2ffb0c0a
    application/msaccess - 420.0 KB - MD5: 38f483ba314b2254432b9db975640020
    Adobe PDF - 153.2 KB - MD5: 690e29e09d1098308bcfcfd7cb49a43c
    添加数据

    您需要注册登录来创建数据空间或添加数据集。

    链接数据空间
    重置修改

    您确定要重置选定的元数据字段吗?如果你这样做,你所做的任何定制化(隐藏的、必需的、可选的)将不再出现。

    联系 Peking University Open Research Data Platform 支持

    Peking University Open Research Data Platform 支持

    请填写这个以证明您不是机器人。

    + =
    发送消息