首届全国高校数据驱动创新研究大赛成果展示
基于引文信息的论文查重算法与实验
作 者:
北京大学,祝晗; 北京大学,刘千慧; 北京大学,德德玛; 北京大学,蒋天骥;
年 份:2018
学 科:图书馆、情报与档案管理
数据链接: http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/3C468Q
奖 项:优秀奖
指导教师:北京大学信息管理系,王继民
年 份:2018
学 科:图书馆、情报与档案管理
数据链接: http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/3C468Q
奖 项:优秀奖
指导教师:北京大学信息管理系,王继民
[目的/意义]近年来,学术规范受到越来越多的重视。作为其中一项关键内容,论文查重以基于内容的检测方法为主流。但是随着数据量的加大,基于论文内容的算法在时间、空间开销上均过大,效果不理想。本文利用基于论文的引文信息,如共引文献数量、引文位置和顺序等,提高论文查重的效率,帮助初步筛选疑似抄袭的论文。[方法/过程]通过阅读国内外基于引文信息的查重检测相关论文,针对中文文献,构建文档解析器、引文信息数据库、引文重合探测器,对现有的若干算法加以实现和创新。[结果/结论]通过现有数据集对基于引文信息的检测方法进行评估,结果表明实现的七种检测方法都可以用于论文查重,其中算法LCCS的检测效果最好。