您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于特定领域的加权语义相似度算法研究

基于特定领域的加权语义相似度算法研究

来源:保捱科技网
第34卷第3期 20 1 5年 9月 成都大学学报(自然科学版) Journal of Chengdu University(Natural Science Edition) V_01.34 NO.3 Sep.2015 文章编号:1004—5422(2015)03—0259—03 基于特定领域的加权语义相似度算法研究 高蕾娜 ,史延枫 ,李艳丹 (1.成都大学机械工程学院,四川成都摘610106;2.华中科技大学机械学院,湖北武汉430074) 要:信息检索模块是自动问答系统中的主要组成部分.实现问题检索的关键问题是句子相似度计算问题. 提出的基于特定领域的加权语义相似度算法,首先计算FAQ库中某问句关键词的权重,再利用语义相似度方 法,分别计算目标问句各分词与FAQ库问句关键词的相似度矩阵,最后求得2个句子的最终相似度.逐一计算 和比较目标问句与FAQ中每个问句的相似度,在大于一定阈值时,最大相似度所对应问句答案输出给用户.由 于考虑词语语义和权重2方面信息,实验表明其具有较好的匹配效果. 关键词:自动问答系统;信息检索;相似度;语义;词语权重 中图分类号:TP391.3 文献标志码:A 0引 言 自动问答系统的主要功能是让计算机能用自然 1算法原理 基于特定领域的加权语义相似度计算方法建立 在2个词汇具有一定的语义相似性当且仅当它们在 概念间的结构层次网络图中存在一条通路(主要是 语言来回答人们所提的问题.近年来,随着网络和信 息技术的快速发展,结合人们快速获取信息的愿望 更进一步促进了自动问答技术的发展_1].自动问答 系统一般包括3个主要部分:问题分析、信息检索和 答案抽取.通过问题分析而得到的关键词集需要提 上下位关系)这一假设的基础上_5 ].分属于不同概 念领域的2个词汇之间不存在交集,因此它们之间 的语义距离应为无穷大,其相似度为0.对于位于同 一交给信息检索模块来查找相关的文档,检索系统的 任务就是在已有的文档库中搜索和关键词集相关的 文档.为了保证对任何问题都能找到相关的文档,文 档库必须足够大.文档库也可从互联网上下载,此时 检索模块返回的是一堆相关的网页.自动问答系统 中的信息检索模块所用方法通常是计算候选问题集 中每个问句和目标问句之间的相似度,对应的相似 度最大的问句就是要找的句子.目前常用的句子相 似度计算方法分为2种_2I4J:一种是基于向量空间 模型的词频一逆向文件频率(Term Frequency—Inverse Document Frequency,TF—IDF)方法,一种是基于语义 语义树的2个义原,综合考虑义原树的深度和密 度因素的影响,可计算出2个义原的相似度【7].用户 问句中不同词语对于整个问句的贡献是不同的,通 常给主要词语赋予较高权重,次要词语赋予较低权 重_8 J.一般而言,一个词在一篇文档中出现的频率越 高,其权重越大;文档集中出现该词的文档越多,其 权重越小.词语权重的计算公式为, ( ):— g=1 _,) (1) ^/∑[TF(dy, )*log(Ⅳ/ +0.5)] ( ∈D,1≤f≤Ⅳ) 相似度的方法.第一种算法基于词频,没有考虑语 义,适用于大规模语料库;第二种算法反映了语义间 差异,但通常没有考虑到词语的权重信息.基于此, 本研究将两者结合,提出一种基于特定领域的加权 语义相似度算法.由于该算法不仅考虑词语语义,还 式中,W( ,t )为文档 中词语f 的权重, ( , t )为文档 中词语t 的词频,Ⅳ为文档集的文档 数, 为含有词语t 的文档数,分母为规一化因子, 目的是将值限定在[0,1]中. 设用户问句,Q={q。,q ,…,q },q 为句子Q 考虑FAQ库词语在句子中的权重信息,因而由此方 法计算得到的相似度更具有合理性,并使查准率有 所提高. 收稿日期:2015—05—13. 含的词语,1≤i≤m;设FAQ库中任一问句,p = {q 1,g 2,…,q },q 为句子Q 的词语,1≤ ≤ . 根据相关的词语权重计算方法可以得到序列,W: 作者简介:高蕾娜(1978一),女,博士,讲师,从事计算机应用与智能答疑系统研究 成都大学学报(自然科学版) 第34卷 {W ,W ,…, },其中W 为g ,对应的权重.利用 基于语义相似度方法,计算Q和Q 中词q (1≤i≤ m)和g ,(1≤J≤n)之间的相似度用s(g ,g ,)来 表示,从而得到一个m× 的矩阵, M(Q,Q ) 『s(q ,q )s(q ,q :)…s(q ,g )] =I : i I (2) L ( ,q 。)s(‰, )…s(‰, )J 则句子Q中所有词语与句子Q 之间的相似度 S(Q,Q )为, S(Q,Q ) ∑zmx{s(q ,q'1),s(qi, ),…,s(qi, )} :上 ———————————————一(3) 同样,以用户问句Q为参照,计算Q 和Q中词 q'j(1≤J≤n)和q (1≤i≤m)之间的相似度用 s(q ,q )来表示,从而得到一个17,×m的矩阵, M(Q ,Q) =[M(Q,Q,)] f_s( )s( q2)…s( ‰)] =I ; : I (4) L 5( ,q )s(q ,q:)…s( ,‰)-j 矩阵M(Q ,Q)是M(Q,Q )的转置阵,且 s(吼,q )=s(q ,q ).句子Q 中所有词语与句子 Q之间的相似度S(Q ,Q)为, S(Q ,Q) ∑z‘I*Ⅱ掀{s(g;,q1),s( ,g2),…,s(g , ) .。.. . —————— 一 n (5) ∑ wi =1 最后将两值求平均就可以得到2个句子最终的 相似度Similarity(Q,Q ), Similarity(Q,Q,): (6) 2实验算例与分析 假设高血压领域FAQ库中有3个句子: d1,高血压每一期的眼底动脉症状有哪些? d2,高血压导致脑血管破裂造成眼底动脉硬化 该怎么办? 3,高血压对眼底动脉有影响吗? 用户问句Q:高血压分为3种危险程度,眼底动 脉在不同阶段有什么表现? d1包含的词有:{高血压,每一,期,眼底动脉, 症状,有,哪些}; d2包含的词有:{高血压,导致,脑血管,破裂, 造成,眼底动脉,硬化,该,怎么办}; d3包含的词有:{高血压,眼底动脉,有,影响}; Q包含的词有:{高血压,3种,危险,程度,眼底 动脉,不同,阶段,有,什么,表现}. FAQ库所有问句包含的所有词有:{高血压,每 一,期,眼底动脉,症状,有,哪些,导致,脑血管,破 裂,造成,硬化,该,怎么办,影响}. TF.IDF和语义相似度计算的详细过程可参考 文献[9],对于本研究提出的基于特定领域的加权语 义相似度计算方法的具体步骤为: d1可表示为向量, 1=l0.1761,0.5441,0.5441,0.1761,0.5441, 0.3010,0.5441]; d2可表示为向量, 2=l0.1761,0.5441,0.5441,0.5441,0.5441, 0.1761,0.541,0.5441,0.5441]; d3可表示为向量, 3=[0.1761,0.1761,0.3010,0.5441]. 根据式(1)计算得到词语权重, W1=[0.1523,0.4706,0.4706,0.1523,0.4706, O.2603,0.4706]; W2=l 0.1205,0.3724,0.3724,0.3724,0.3724, 0.1205,0.3724,0.3724,0.3724]; W3:l0.2629,0.2629,0.494,0.8123 J. 易知,Q与dl的语义相似度为, s(Q,d1):业 =0.54, dl与0构成相似度矩阵为, (dl,Q)= 1与Q的语义相似度为, S(d1,Q) f 0.1523*1+0.4706*1 4-0.1523*1+\ \0.4706*0.6 4-0.2603*1 4-0.4706*0.8/ 一 f 0.1523 4-0.47o6 4-0.4706 4-0.1523+\ \0.4706 4-0.26o3 4-0.4706 , =0.6923。 l 0 OO 0 00 0 00 0 00 0 00 0 00 0 l0 0 O0 0 O。o 0|第3期 高蕾娜,等:基于特定领域的加权语义相似度算法研究 ・261・ 2个句子最终的相似度为, .s(Q'd1): =0.6162. l O O 0 O O O O 0 表1 3种相似度计算方法结果比较 同理,Q与d2的语义相似度为, |s(Q,d2)= =o. 0 2,O 0 O O O 0 0 0 O 0 O O 0 O O 0 O d2与Q构成相似度矩阵, 显然与实际情况矛盾.对于语义相似度与加权语义 0 O 0 O O 0 O 0 0 O 0 0 O O 1 0 O 相似度方法计算得到的结果符合实际情况,而加权 语义相似度相对于前者,提高了与dl的相似度,而 0 对于不太相关的问题d2,反而减少了其相似度结 O 0 O O O 0 O 0 0 0 O 0 O 0 O O M(d2,Q)= O O O O O O 0 0 O 0 0 0 0 0 0 0 O 0 0 O O O O O O d2与Q的语义相似度为, S(d2,Q) (0.1215*1+0.1ff15*1) 一f1 0.1205+0.0.1205+0.3724+0.3724+0.3724+0.3724+0.3724+0.3724 3724+\J  =0.0846。 2个句子最终的相似度为, s(Q,d2): } :0.1423. 同理,Q与d3的语义相似度为, s(Q,a3): =0.32, d3与Q构成相似度矩阵, 『1 o 0 0 o 0 o o 0 o] 砌3 : l0 0 o o 0 0 0 0 o o三言吕三暑:三 . d3与Q的语义相似度为, S(d3,Q) f0.2629*1+0.2629*1+0.4494*1+\ \0.8123*0.2 , 一 (0.2629+0.2629+0.4494+0.8123) =0.6365, 2个句子最终的相似度为, .s(Q,a3): :0.4783. 3种相似度计算方法的结果如表1所示. 由表1可以看出,与用户问句Q最为接近的 FAQ文件应为d1,而在表1中TF-IDF方法这一列, Q与d3计算的相似度大于与d1计算得到的结果, 果.通过上述分析可知,加权语义相似度可获得较为 正确的匹配结果. 3 结 论 自动问答系统充分利用网络技术和人工智能的 优势,使得用户疑问既能够得到及时有效的解答,又 能节省时间、提高效率,而相似度匹配算法是信息检 索模块的核心.本研究提出的基于特定领域的加权 语义相似度计算方法由于考虑了词语语义和权重2 方面的信息,因此可获得较好的匹配结果. 参考文献: [1]郑实福,刘挺,秦兵,等.自动问答综述[J].中文信息学 报,2002,16(6):46—52. [2]王洋,秦兵,郑实福.句子相似度计算在FAQ中的应用 [EB/OL],[2014—03—16].http:Ilk.hit.edu.cn/phpwebsite/ index.php?module=documents&JAS—DocumentManager一叩 =downloadFile&JAS—File—id=17. [3]Voorhees E.The TREC-8 question answering track report[C]// Proceedigns of the 8th Text Retrieval Conference. d】ersbⅢ芎, MD:NIST,2OO2. [4]王品,黄广君.信息检索中的句子相似度计算[J].计算机 工程,2011,37(12):38—40. [5]Rada R,Mili H,Bicknell E.Development and application of o metr/c On semant/c nets[J].T—EE—E Trans Syst Man Cybem,1989, 19(1):17—30. [6]李文清,孙新,张常有,等.一种本体概念的语义相似度计 算方法[J].自动化学报,2012,38(2):229—235. [7]葛斌,李芳芳,郭丝路,等.基于知网的词汇语义相似度计 算方法研究[J].计算机应用研究,2010,27(9):2808— 2810. [8]张桂林.中文文本自动分类系统的研究与实现[D].吉林: 吉林大学,2007. [9]高蕾娜.老年慢性病无线监控远程关怀系统关键技术研 究[D].武汉:华中科技大学,2OO9. (下转第274页) 0 O O 0 ・274・ 成都大学学报(自然科学版) 第34卷 Image Stabilization Technology Based on DSP LUO 啦 ,TANG Q ∞ (Sehod ofElectronics andInformationEngineering,Chengdu University,Chengtlu 610106,China) Abstract:Due to the human visual limits,if the video jittered ferquently,the accuracy of the acquired im— age information would be affected.In order to reduce the jitter on the video image captured on the display due to the random jitter of het device itseff or the camera and to enhance the quantity ofthe image informa— tion acquired and its accuracy,the paper did a r ̄search on the image stabilization technology based on DSP.The program adopted the gray projection to achieve stabilization,low computation and hi gh accuracy. Key words:electronic image stabilization;gray projection;DSP6748;debounced (上接第261页) Weighted Semantic Similarity Algorithm Based on Specific Area GA0 Leina ,SHI 咖ng ,L/Yandan (1.School of Mechanical Engineering,Chengdu University,Chengdu 610106,China; 2.Information&System Technology Institute,Huazhong University of Science and Technology,Wuhan 430074,China) Abstract:Information retrieval module is a major component in the automatic question-answering system. The key problem in the realization of question searching is the sentence similarity calculation.This paper presents a weighted semantic similarity algorithm based on speciifc area.It firstly calculates the weihtgs of some quesiton keywords in he tFAQ library,and then the siilmariyt matrixes are obtained by using semantic similariy tmethod to calculate the similarity matrix between the separated keywords of target question and the question keywords from FAQ library.Finally,the siilmarity between two sentences is obtained.After cal— culating nd acomparig nhte siilmarity between he ttarget question and each question in FAQ,it’s found that when the siilmarity is greater han ta certain hrteshold value,the answer o the tquestion f ohe tcorresponding maximum similariyt will be output to he tuser.In terms of se ̄tics and weihtgs,he expteriment shows that he tbetter atmching effects can be achieved. Key words:automatic question—answering system;information retrieval;siilmarity;semantic;word weight (上接第265页) becomes very frequent.Hence,fi the conventional strategy for reading and writing database is adopted,the efficiency of rnass data processing will be very low,which will fecta the implementation progress of the en— tire text mining pmject.In order ot improve the efficiency of data processing,based on the appearance of het candidate words among the new words in text mining,this paper does research Oil the optiizatmion of he tconventional strategy or freading nd awriting atdabase,and hen tdesigns and implements the optiized smtrat— egies for eadirng and writing database.he experTiments show that the eficifency ofthe optimized strategies for reading and wriitng database is hiher ghatn the conventional strategy. Key words:text mining;mass data;strategy for reading and writing database;optimization sudy t

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务