您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于文本空间表示模型的文本相似度计算研究

基于文本空间表示模型的文本相似度计算研究

来源:保捱科技网
2013年2月 第33卷第2期 ・现代情报 Journal ofModemII】f0 0n Feb.,2013 Vd.33 No.2 理论探索・ 基于文本空间表示模型的文本相似度计算研究 张文萍 黎春兰2 (1.武汉科技大学管理学院,湖北武汉430081;2.武汉大学信息管理学院,湖北武汉430072) [摘要】在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表 示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集 并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。 [关键词】文本相似度;文本空间表示模型;段落;算法 DoI:10.3969 iSsn.1008—0821.2013.02.O05 [中图分类号]TP391.1 [文献标识码]A [文章编号)1008—0821(2013)02—0021—03 Using Text Space Representation Model in Text Similarity Computing Zhang Wenping1 Li Chuman2 (1.School of Management,Wuhan University of Science and Technology,Wuhan 430081,China; 2.School of Information Management,Wuhan University,Wuhan 430072,China) [Abs缸act]Based onthe analysis ofexistingtext representationmethods,a newmodelfortext representationthat decompose text to paragraphs,serltenees and phrases hierarchically is introduced in this study contrast with the inadequacy ofexi ̄illg text rep- resentation methods.With the help ofthis model we propose a text similarity computing method ON the unit of paragraph of text. The following experiments carried on the testing set proved a better effect by this method. [Key words]text similarity;text space representation model;paragraph;algorithm 文本相似计算具有重要作用和广泛应用,它主要应用 于基于著作权保护的文本相似检测、信息检索以及自动文 本摘要等领域。在文本复制检测方面,相似文本的检测可 保护创作者的合法权益免受他人侵犯;在信息检索领域, 进一步将段落分解为语句,语句又分解为若干词语的集合, 以此构成三维的文本空间表示模型。只要在语句和段落维 度上发现被检测的两个文本存在相似处,则判定被检测对 象存在相似之处。最后利用已有的测试集检测算法执行结 果。 相似文本的检测可以略去大量冗余信息;在自动文本摘要 领域,主要为web页面自动生成摘要,便于web信息检 索u j。目前文本相似计算在信息检索以及自动文本摘要 1相似度判定的层次分析 从文本属性这个角度来看,文本相似检测可以从两个 层面进行:内容相似和语言表达相似。对于任意一个文本 而言,内容与语言表达并非相互的两个方面 5。内容 相似的文本,其语言表达形式并不一定就相似,例如以下 两个例句:“大年三十晚上,街上冷冷清清,看不见一个人 影”,“除夕夜晚,马路上空空荡荡,一片寂静的景象”,二 领域应用较为普及,在文本复制检测领域的主要实现方法 是对整个文本进行词汇抽取,利用关键词顺序匹配的方法 实现相似文本的检测【3-4J。 对于一个大型数据集,当给定任意一个待检测文本, 相似文本计算算法应该能够以较短的计算时间完成相似性 检测任务,即:发现与该文本在语言表达上有一定相似度 的文本,如果系统中事先存在这样的文本的话。基于算法 者要表达的内容是一样的,但表达所使用的语言词汇却又 执行时间和执行效率的考虑,本研究将文本分解为段落, 收稿日期:2012—11—07 很大的不同;而语言表达相似的文本——包括词汇以及词 基金项目:本文系湖北省教育厅人文社科项目“云计算环境下图书馆信息服务模型研究”(2O12Q190)研究成果之一。 作者简介:张文萍(1976一),女,讲师,研究方向:情报学,发表论文8篇。 一21— 第33卷第2期 2013年2月 基于文本空间表示模型的文本相似度计算研究 单位则是词语,如图1所示。 Feb.,2013 Vd.33 N0.2 汇间的相对次序相似,其内容在很大程度上则是相似的。 现今搜索引擎采用同义词技术,如:“大年三十”和 “除 夕”、“夜晚”和“晚上”等,能将包含检索词的同义词或 近义词的文本搜索出来,所以信息检索更多的是从内容相 似这个角度进行相似文本计算;而基于著作权保护的文本 相似检测则是从表达相似这个角度进行文本相似计算-6J。 现今的著作权法只保护作者思想的外在表达形式,并不保 护作品反映的思想或观点,因而本文将从表达相似这个角 度探讨文本相似检测的思想和算法。 从文本结构这个角度来看,相似文本检测可以从多个 词语 层次进行:全文、段落、语句、词语。不同层次上的相似 度检测可用于不同的研究领域,如:判定词语间的相似度 计算可用于机器翻译领域【’ ;判定词语与句子或段落之间, 或者句子与段落之间的相似度计算可用于信息检索领域。 例如:我们在检索信息时,通常输入的是若干个词语或者 是一个句子,其将作为查询向量输入检索系统,并与文本 库中的文本向量进行距离计算;段落与段落之间、全文与 全文之间的相似度计算则主要应用于基于著作权保护的文 本相似检测领域。上述3个检测层次的对象粒度依次递增, 而处于较高粒度层次的相似度检测是建立在较低粒度层次 相似度检测基础之上的。本研究对于文本相似的计算建立 在段落与段落间的相似度计算基础之上。之所以选择段落 为计算单位,除了上述因素外,还因为发生全文相似的概 率相比较发生段落相似的概率小得多,并且段落相似的计 算结果完全能够包含全文相似的计算结果。而语句相似多 数情况下则包含了正常的文献引用情况。 2文本的结构化表示法 2.1现有的文本表示法 在探讨文本相似性计算方法之前,首先回顾现有的文 本表示方法。在信息检索领域内,文本的表示主要是采用 向量空间模型表示法 8。其思想是:将某个搜索系统中索 引项的集合r表示为:T:{t0,t1,…t ”t .1},/1,为索引 项的数目;文本集合D表示为:D={d0,d -., 一1},m 为文本的数目, 是文本集合D中的一个文本;则di可表 示为:di={di.0, ll’…,d1. ,…di. 一1},其中文本向量中 每个分量 , 为索引项 在文本 中的权重。 .,的值由相 应索引项‘,是否在文本中出现以及它在文本中的词频矿与 逆文本频率 决定。该表示法运用于相似性计算中存在的 问题是:一是文本向量的维度过高,且包含大量值为O的 分量;二是文本向量中不包含与文本段落结构相关的任何 信息。基于上述问题,本研究提出三维的文本空间表示模 型法。 2.2文本的空间表示模型 通过分析文本的组成结构,我们可以知道文本的基本 组成单位是段落,而段落的组成单位是句子,句子的组成 ~22一 , 12 tk 图1文本组织结构的树状层次图 rdl=(Pl,P2,…Pi,…p ) {Pi=( l,s2,… ,… ) L =(tl’t2,…t‘,…tI) P3 段落(P) 图2文本 的三维空间表示模型 从图2中可以看出:一个文本可以表示为一个三维空 间模型,三维空间中的每一个结点在文本中均有一个词语 与之对应,结点在空间中的位置其实包含了相应词语在文 本中的位置信息,即:该词语在文本中所处的段落、句子, 以及在句子中的位置。每个段落可表示为一个二维向量平 面 ,i∈{1,m};平面中的每一个列向量&, ∈}1,,l}, 对应于该段中相应的一个句子;句子 中包含若干个词语 t ,i∈{1,k}。由此可见,组成三维空间模型的3个分量分 别是:段落(P)、句子(5)和词语(r)。 3文本的相似度计算算法 3.1算法描述 现有任意两个文本dl、如,其表示如下: d1=(Pl1,Pl2,…P1i,…Plm) (1) d2=(p21,p22,…p2i,…p2 ) (2) 2013年2月 第33卷第2期 现代情报 Journal of Modern Information Feb.,2013 .33 No.2 p1 、P2i分别为dl、d2中的某一段落,m和n分别为 : 两个文本包含的段落数目。我们比较这两个文本的相似程 I1! ,g< (12) 度是通过判断段落间的相似度来确定的。设d12为d1、d2 的相似度矩阵,则d12可表示如下: 当31l 321的值为0,则认定sl1与s2l相似,当值为1,则 认定sl1与s2l不相似。设 为语句相似度阈值, ∈(O,1), 的取值因判定相似的严格程度而定,这里不再赘述。回 纽;‰ 到表达式(7)中来,矩阵中元素的值或者为O,或者为1, :{p12=P 笠… … … I p“p p p … p p l J } (3) 计算出其中值为0的元素所占比例r,则r是衡量两个段落 相似程度的关键因素。当r≥ ,认定两个段落相似, 是 段落相似度阈值,其值的选取同表达式(12)中的 一样, (4) 设Pli和p2f分别表示如下: P1i=(sl1,s12,…s“,…s1m) 视应用环境和要求而定。有关相似度阈值设定的方法请参 P2i=( 2l’s笠,…s2‘,…s2n) (5) ¥1i和¥21分别为段落p1i和p2‘中的句子,每个句子中又 包含多个词语t,故而Pli又可表示为: S1 S2 … ill t21 ’‘¥nl t12 t22 … P1i t13 t23 … (6) … : ● tln t2m … 矩阵的每一个列向量就是段落P1‘中的一个句子 ,毛 中元素t。i是该句中的一个词语,同样段落p2l也可表示成上 述形式,这里就不再列出。矩阵中元素tl 的取值方式与信 息检索系统中有所不同,信息检索系统为每个索引词取一 个与词频相关的量化值,这里将t1 的值设定如下:该词语 在索引系统中的索引号,能够唯一标识该词语的一个编号 或标识符。 令(3)式中任意一项PlfP2 (p1f) ×p2‘,则由式 (4)、(5)可以得到表达式(7): p。iP :(p。 )r×p:i:{f 。 ?笠笠 … … 。 坦 l  ““1}( 7) 。 … J 取式(7)中任意一项,如:¥11s21来分析,设: sl1=(fI,‘2,… ,… ) (8) 32l=( , ,… ,… ) (9) 若/11,≠n,则将包含词语数目较少的向量扩充,补充 I m—tl,1个0元素。令: 311s21={t Jt = 0 ,iE[1,max(m,n)]} (1O) 其中: ‘ ti ̄¥ g rl=i1, ≠ ( 11) 如果ti或 与0进行0运算,将值设为l。则¥11321的 值是一个由n18】【(m,,1)个0、1组成的一维向量,设0元素 的个数占整个向量元素总数的百分比为g,最终将s。。s21的 值设定为: 考文献[9—10]。 表达式(3)中,文本d1、d2的相似矩阵dl2中任一元 素的计算值如果能认定相应的两个段落相似,则认为d。、 如之间存在文本相似之处。 3.2实验计算结果 实验步骤如下:在某个期刊检索系统中,用“文本” 和“相似”这两个检索词检索出同一领域的若干篇论文, 从中挑出部分文本构成实验测试文本集 。 中包含5O个 文本,另外选择其中两个文本作为被检测对象dl,d2,分 别进行两次实验。实验目的是:在 中分别查找与d1,d2 至少存在段落相似的文本。当然以先验信息可知: 中同 时存在与d1, 相似以及不相似的文本。 设 =O.7, =0.7,采用上述算法将 中每一个文本 逐个与d1,d2进行相似度计算。首先选用文本处理工具对 测试集中每个文本以及d ,d2进行词汇抽取,对每个词语 建立数字化的索引项,并以段落为单位建立索引矩阵,如 表达式(6),这样每个文本将包含多个段落索引矩阵。运 用Matlab将文本d1逐一与 中文本 进行相似度计算, 可得出 中与文本d1的段落Pf相似的段落数目。同样的 计算过程在如与测试集文本之间再次执行。计算结果如表 1所示,由于篇幅所限,这里只列出文本dl, 中的部分 段落,并且相似段落所在文本这里不再列出。从实验中可 知: 和占的取值至关重要,适当减/b---者的值,表1中 相似段落数目可能会增加;如果适当增大其值,表中相似 段落数目则会相应减少。 表1 T中与文本dl。d2的段落Pl相似的段落数目 d1 pl p2 P4 ps P6 n pt p9 plo 相似段落数目 2 0 1 0 0 2 0 0 0 0 d2 pl P2 p P^Ps p6 p1 p|p9 plo 相似段落数目0 0 2 0 0 0 0 0 0 0 4结语 本文介绍了一种以段落、语句、词语为层次结构的文 本表示法——文本空间表示模型,并在此基础上研究以文 本段落为单位的文本相似计算算法。文中(下转第124页) 一23一 爿; 鬻 浅谈科技情报(信息)类事业单位改革与科技情报管理创新 vFdeb.3.3, N201o3. 2  4.2加强科技情报专业人才队伍建设,提高服务 科技情报机构的交流合作。4.5积极推进科技情报机构内部运行机制改革 水平 加强科技情报队伍的建设,加强创新型科技人才培养, 创造良好的人才成长环境和条件,通过引进招聘高学历人 才或专业技术人才,定期组织科技人员积极参加学术交流 和国内外业务活动,提高科技人员的业务水平,培养具有 全面提高科技情报机构内部的管理水平和服务质量, 在人事制度改革中,引入企业管理机制,按需设岗以岗定 责,开展双向选择,竞争上岗,努力形成人尽其才、 能上 能下的用人机制;在分配制度上要遵循“效率优先、多劳 素质优秀的科技信息服务的专业化人才,充分调动专业科 技情报信息人才工作的积极性和主动性,提高科技情报机 构的竞争力。 多得、兼顾公平”的原则,实行工资报酬与个人贡献挂钩 的分配机制。在机构内部建立工资报酬与个人贡献挂钩的 分配激励,促进科技情报信息事业的进步。 总之,如何形成一套完整合理的科技情报机构管理体 制和运行机制,是改革成功的重要标志。 4.3加强基础设施和基础数据库建设,构建数字 化科技情报服务的环境 加大基础信息资源和信息基础设施建设投入,抓好信 息化网络服务平台的建设,提高信息网络整体技术水平 搞好信息资源服务平台建设,为各地科技创新、经济发展 提供强有力的信息资源保障;各地和部门还应在信息 网络资源建设、文献资源、公共技术等方面增大经费投入, 只有这样才能促进我国科技情报(信息)类机构向良性循 环的新发展。 参考文献 [1]贺德方.我国科技情报行业发展战略与发展路径的思考[J]. 情报学报,2OO7,(8):483—487. [2】王洪林.论科技情报信息机构性质的定位[J】.云南科技管 理,2003,(1):19—20. [3]缟辑部.科技情报改革的发展扣方向[J].水利电力机 械,1986,(5):1—2. 4.4加强各科技情报机构间的交流合作,实现资 [4】郑晓林.我国科技情报改革的发展趋势【J].技术与市 场,1989,(5):27—29. 源共享,发挥情报行业的整体优势 我国各级科技情报机构之间,通过交流、协同与合作, [5]宋家升,董晓明,石惠刚,等.地市级科技情报(信息)机构 利用本地信息资源和优势,加强合作,共同建设高效率、 现代化的科技信息集成服务平台,实现情报机构间资源共 享,做好信息的集成服务;各地市级科技情报机构还应增 强与国家、省级科技信息机构的合作,共同创建网络环境 下的科技信息工作开放、合作的新模式;还应加强科技情 改革发展展望[J】.现代情报,2006,(7):37—39. 【6]张建军.科技情报信息服务与创新体系建设的探索[J】.山西 科技,2O02,(1):19—20. [7]祝毓.科技情报机构从事业单位向非营利组织的改革研究 [D].上海交通大学。2010. 报信息服务业的统一标准规范,与国际接轨,加强国际间 :::::::::::::::::::::::::::::::::::::::: :::::::: (本文责任编辑:王涓) (上接第23页) for evaluation expression and eontem similarity[J】.h0o地 the 涉及到文本分词及建立索引等技术均采用现有成熟技术, 故而不再详述。将文本分解为文本空间表示模型中的段落、 语句、词语的思路较为直观,易于计算实现,为相似文本 检测系统的设计和实现提供了方法支持。文章不足之处在 于实验文本集的覆盖面较小,被测试文本的选择随机性不 强,这些不足之处有待于进一步改进;另外相似度阈值的 选择对计算结果的影响程度的研究也没有涉及,这些都将 是下一步研究工作的重点所在。 参考文献 37th Hawaii International Confer ̄ee m System Science*.2OO4. [5】Sun z,Etmmi M, ngT,Rmard C,Choradia N。et a1.Symem- c Characterizations ofTe ̄tSimilarityinFullTextBiomedicalPuhllea- irms[J】.(012o) 吨:f ONE5(9):e12704. 【6】LMek ̄A.,Mujum ̄A.et ai.Automatic text sunnnarimfim lls・ GA—GP【J】.Inten ̄fional Journal 0f BIgiIle盱iIlg Re- search andApplieatim,2012,2(2):1551—1555. [7】Islam A.,Inkpen D.Semantic text ̄ailatity Il8iIlg eorp ̄一bE1日。d word similarity nnd string siⅡInarity[J].ACM COY.Data.July 20o8. s.Knowi.Dis- 【8】SoltonG.。WongA.,YangC.S..A vector spacemoddfor珊ll0mat・ [1]Y础0 V.A.,VishnyakovT.N.Amethodfor evaluatingmodel'n sys・ ie iIld llg[J】.Cammunieatim the ACM。1975,l8(11):613 —terns of automaticte啦sunm ̄zation[J】.In:Automatic D0cIlrr ta. d∞andMathematical Lingu/ ̄cs.20∞,41(3):93—103. 62O. ‘ [9】力力.王丽坤,陆玉昌,等.计算文本相似度阁值的方法 [J].清华大学学报:自然科学版,20O3,43(1):l08—111. [2]金博,史彦军,滕弘飞。基于语义理解的文本相似度算法 [J].大连理工大学学报,2O06,45(2):291—296. [3]Mihale ̄R.。 哪P.TextR ̄:B ̄ing Order into Texts[M】. Deparl ̄nent 0fComputer ScienceUniversity ofN饵tIlTexas。20o4. [10]宋韶旭,李春平.基于非对称相似度的文本聚类方法【盯. 清华大学学报:自然科学版,2OO6。(46)7:1325—1328. (本文责任编辑:王涓) 【4】Ozlem Uzuner,Randall Davis。BOl ̄¥Katz.Using e.n ̄irieal methods 一124一 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务