您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于词语相关度的微博新情感词自动识别

基于词语相关度的微博新情感词自动识别

来源:保捱科技网
Journal of Computer Applications ISSN 1001.9081 2016—02.10 计算机应用,2016,36(2):424—427 文章编号:1001—9081(2016)02—0424—04 CODEN JYIIDU http://www.joca.cn DOI:10.11772/j.issn.1001—9081.2016.02.0424 基于词语相关度的微博新情感词自动识别 陈鑫 ,王素格 ,廖健 (1.山西大学计算机与信息技术学院,太原030006; 2.计算智能与中文信息处理教育部重点实验室(山西大学),太原030006) ({通信作者电子邮箱wsg@SXU.edu.cn) 摘要:针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对 于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利 用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指 导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014 (第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离 (MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微 博新情感词效果优于其他五种方法。 关键词:情感词识别;词语相关度;词向量;排序算法;微博 中图分类号:TP391 文献标志码:A Automatic identiifcation of new sentiment word about microblog based on word association CHEN Xin .WANG Suge 。.LIAO Jian t1.School ofComputer and Information Technology,Shanxi UR ,Taiyuan Shanxi 030006,China; 2.Key Laboratory of Computational lntelligenee and Chinese Information Processing of Ministry of Education(Shanxi University), Taiyuan Shanxi 030006,China) Abstract:Aiming at new sentiment word identiifcation an automatic extraction of new words about microblog was proposed based on the word association.Firstly,a new word which was incorrectly separated into several words using the Chinese auto-segmentation system,should be assembled as the candidate word.In addition,to make full use of the semantic information of word context,the spatial representation vector of the candidate words was obtained by training a neural network. Finally,using the existing emotional vocabulary as a guide,combining the association-sort algorithm based on vocabulary list and the max association—sort algorithm,the final new emotional word was selected from candidate words.The experimental results on the task No.3 of COAE201 4 show that the precision of the proposed method increases at least 22%,compared to Pointwise Mutual Information(PMI),Enhanced Mutual Information(EMI),Normalized Multi·word Expression Distance (NMED),New Word Probability(NwP),and identiifcation of new sentiment word based on word embedding,which proves the effectiveness of the proposed method. Key words:sentiment word recognition;word association;word vector;sort algorithm;microblog 0 引言 向为正面,而分词过程将其错分为“给/p力/n”,使其对于句 子级和篇章的情感分析过程产生不良影响。另外,新词的出 微博作为当前社交媒体中的重要组成部分,以短小、精 现也给命名体识别、机器翻译、问答系统等任务造成了很大的 悍、快捷的特点博得大众的厚爱,它承载着海量的数据,涉及 困扰。在第六届中文倾向性分析评测(COAE2014)将自动识 范围广泛。博主为了表达自己的情感意愿,往往不断创新,从 别微博新情感词作为其任务3。 而产生了大量的新词。所谓新词,是随着时代的发展而新创 在新词识别方面,已有基于规则自动识别方法 、基于 造或旧词新义的词…。据国家语委语言应用研究所统计,平 统计自动识别方法和基于机器学习的自动识别方法。在基于 均每年有800个新词出现。 统计的方法中,词语关联度量被广泛应用。张艳辉等 提出 由于中文词与词之间没有空隙,中文分词成为中文信息 一种基于点互信息(Pointwise Mutual Information,PMI)的微博 处理的重要步骤,而新词在分词过程中造成的错误超过了 新词发现算法,点互信息可以度量两个词之间相互依赖程度, 60% J。在情感分析方面,新创词也为情感分析带来很大的 但对于两个不对称同现词之间的关联程度却表现不理想。 挑战。例如:“给力”作为新词,含义为“牛、酷、棒”,其情感倾 Zhang等 为了度量两个词同现的最优化关联,对PMI进行 收稿日期:2015-08—29;修回日期:2015—09—13。 基金项目:国家863计划项目(2015AA015407);国家自然科学基金资助项目(61175067,61272095,61432011,61573231,U1435212);山西 省科技基础条件平台计划项目(2015091001—0102);山西省回国留学人员科研项目(2013.014)。 作者简介:陈鑫(1992一),女,山西长治人,硕士研究生,CCF学生会员,主要研究方向:文本情感分析;王素格(1964一),女,河北定州人,教 授,博士,CCF会员,主要研究方向:自然语言处理;廖健(1990一),男,湖北鄂州人,博士研究生,CCF学生会员,主要研究方向:文本情感分析。 第2期 陈鑫等:基于词语相关度的微博新情感词自动识别 425 了改进,得到增强互信息(Enhanced Mutual Information, EMI)。另外,Bu等 提出一种配合词语之间的距离度量,即 多词表达距离(Normalized Multi-word Expression Distance, NMED),这种词语间的度量不限定组合的长度。Huang等 利用单个字成词的概率,提出一种新词构词程度的度量方法, 即新词语概率(New Word Probability,NWP),该方法可以去 除频繁出现但又不是新词的候选词。唐波等 和杨阳等 则利用词语关联度及其左右灵活度识别新词。还有一些统计 方法不仅利用了词语同现信息,还将其上下文信息融入到新 词识别的方法中 。在基于机器学习方法中,Li等 将 新词识别问题看成一个二分类问题,使用支持向量机 (Suppo ̄Vector Machine,SVM)识别新词,这种方法的缺点是 需要花费大量的人力选取特征及标注大量语料。 在新情感词识别方面,目前主要使用两种思路。一种思 路是先识别出所有的新词,然后从中筛选出新情感词。唐波 等 基于副词的模板识别新情感词;杨阳等 J贝0利用词向量 之间相关性从新词中获得新情感词及其倾向;付丽娜等 基 于分类的思想,利用单类别支持向量机(One—class Suppo ̄ Vector Machine,OC—SVM)对新词进行分类,获得新情感词。 另一种思路是基于Bootsrapping方法识别新情感词。Huang 等 从小种子集出发,通过词语之间的关联度扩充种子集, 获得最终的情感新词。 本文借鉴了基于统计方法中词语相关度的方法,使用 Word2Vec表示词向量,利用词之间的相关度识别微博中的新 情感词 1 新情感词识别方法 新情感词属于未登录词,分词软件常常将其错分为两个 或多个词语。针对这一问题,首先将分词处理后的语料相邻 的两个词语进行合并作为新情感词的候选词。设S=(s , …,s 一,S )为经过分词后的微博集合,其中s =(W 一, 一,W );对于每一个句子S ,将W ,W (i=1,2,…, 一1) 两个词合并成一个词,获得候选新情感词集合CW。在此基础 上,利用词语间的关联度的排序算法,计算每个候选新词与外 部词典情感词的相关度。其相关度越大,候选词为新情感词 的概率越大,反之越小。新情感词自动识别过程见图1所示。 预处理 原始数据产叫数据预处理(去噪、分词) 句子集 候选词 l 旦量 箜卜 量/ 获取 匝亟亘 查匝耍 外部词典 基于词表集合 新情感 关联度排序算法 词获取 基于最大关联度 排序算法 图1新情感词自动识别方法流程 1.1基于词表集合的关联度排序方法(SumofCos) 由于候选新情感词集CW中存在大量的噪声数据,为了 从中筛选出新情感词,本文使用已有词表作为指导,计算候选 新情感词与词表所有情感词之间的关联程度。由于关联程度 越大,候选新词是新词的概率就越大;反之,越小。因此,利用 候选词的关联程度排序,可以筛选出最终新情感词。 对于Google提供的基于神经网络的Word2Vec,可以度量 词语之间的关联程度。本文采用Word2Vec获得所有词语的 词向量。对于两个词” 和W:,计算词向量v 与v 的均值: l 2:(avg( , )l,avg( , )2,…, avg( 1, )f ) 其中:avg(v ,v ) = : +w2:( + )/2(k=1,2,…, I v 1),即获得候选词c (CW =union(w , ))的向量 vWl 2;再计算情感词CW 与基准词表中的所有词的相关度 COS(见式(1));最后按照相关度值对所有候选新情感词CW 排序。 SumofCos(c )=∑c6 E os(。 ( , ), ) (1) 本文采用大连理工大学的情感词表与分词后的语料取交 集,得到最终的基准词表BW。 1.2基于最大关联度排序方法(MaxofCos) 在1.1节中,利用式(1)计算的关联度是候选词与所有 基准词表的情感词的综合关联度。然而,这种度量将降低一 部分只与词表中关系密切的候选新情感词的关联性,掩盖了 最有可能成为新情感词的词。因此,利用已有词表的情感词 作为指导,计算候选情感词与词表中情感词的词向量的最大 相关度,筛选出与部分情感词密切关联的候选词,用于弥补 1.1节中方法的不足。本节构建基于词表的候选词最大关联 度排序算法。最大相关度计算方法见式(2)。 具体过程只需将1.1节中的式(1)替换为式(2),得到最 大相关度的得分,再根据其得分排序,获得最终包含最大相关 度的词集MCV。 MaxofCos(CW )= max(c…o5(avg( 1, ” ), 0)) (2) 1.3基于融合关联度的排序方法(BlendAssociation) 由于1.1节选出了与外部情感词表综合相关度高候选 词,而1.2节选出了与外部情感词表中相关度最大的候选词。 本节将融合1.1节和1.2的方法给候选新词打分,自动抽取 情感新词,融合得分计算见式(3)。 Score(CW )=OL norm(SumofCos(CW ))+ (1一 ) norm(MaxofCos(CW )) (3) 其中:CW ∈CW;d∈[0,1];norm( f)表示 的归一化,由 式(4)计算得到。 ,、 —min( ) … ∞ , (4 其中: X,min(X)代表 中最小值,max(X)代表 中最大 值。 2 实验结果与分析 2.1数据集与评价指标 1)实验数据集。实验使用COAE2014(第六届中文倾向 性分析评测)任务3微博数据集,总计9999 626条数据,其中 涉及到体育、娱乐、汽车、游戏等多个领域。 2)评价指标。由于使用的语料规模较大,没有完整的答 案集,无法使用传统的召回率(Recal1)、准确率(Precision)和 F值对实验效果进行评价。因此,本文使用P@N方法对最终 结果进行评价,P@N代表在前Ⅳ个词中准确率P。 2.2语料预处理 1)去噪。由于使用的语料涉及范围广泛,部分语料中包 含繁体字(如“跳水俱”)、网址(如“http://t.cn/zlmFdNB”)、 表情符号(如“00(3”)等其他噪声信息。为了提高词性组合 的准确率及其效率,将语料中繁体字转换为简体字,用符号 426 计算机应用 第36卷 “&”代替非中文字符。 2)分词。使用中国科学院计算技术研究所汉语词法分 析系统(ICTCLAS2015)对数据集进行初始分词,作为词合并 的原始语料S。 3)词向量表示。Word2Vec是通过神经网络训练语料得 到词向量,其拥有固定维度,避免了维数灾难;并且每个维度 都是实值,解决了大数据中数据稀疏问题;另外,最终得到的 词向量中含有潜在的语义信息,可以为计算词表与候选词之 间相关度提供重要的指导。因此,本文使用Word2Vec训练 分词后语料S,得到词向量集合 。 2.3实验方案设计 为了验证本文提出方法的有效性,设计了两组对比实验, 具体实验方案如下: 实验1 参数值 的确定。为了发现BlendAssociation最 理想的 参数值,本实验设置Ot=0,0.1,0.2,…,0.9,1。 实验2验证本文提出方法有效性。将1.3节提出的融 合方法与PMI[ 、EMI[ 、NMED[ 和NWP[ 以及文献[9]的 获取新情感词的方法进行对比实验。对于文献[9]的方法, 文中并没有明确给出阈值,本文采用词频阈值a :3,点互信 息阈值a =10~,左邻接熵阈值a =3和右邻接熵的阈值 a4=4。 2.4结果及分析 2.4.1 实验1的结果与分析 为了获取BlendAssociation算法最理想的Ot参数值,本实 验取O/=0,0.1,0.2,…,0.9,1,共进行了11组实验,结果如 图2。从图2可以看出: 1)当 =0.4时,BlendAssociation算法能取得较好的结 果。 2)SumofCos(即Ot=1)识别新词的方法准确率高于 MaxofCos(即 =0)方法。主要原因是SumofCos方法使用了已 有词表的全部语义信息,而MaxofCos方法只利用了词表的少量 语义信息,造成了MaxofCos准确率低于SumofCos的准确率。 3)融合后的算法BlendAssociation准确率高于SumofCos 和Max0fCos单方法准确率,主要原因是:SumofCos方法能度 量候选词与已有词表所有情感词的综合关联度,筛选出与词 表综合相关度高的候选词;而MaxofCos方法能度量候选词与 词表中情感词词向量最大相关度,筛选出与词表相关度最大 的候选词;BlendAssociation算法正好使得SumofCos和 MaxofCos方法互补,因此可以使实验效果得到提升。 “ 图2方法融合参数 选择实验结果 2.4.2实验2的结果及分析 在COAE2014语料中,采用融合算法BlendAssociation ( =0.4)与PMI 、EMI 、NMED 、NWP 和文献[9]识 别新情感词方法进行对比实验,结果见表l和图3。从表1 和图3中可以发现: 1)本文融合算法BlendAssociation( =0.4)的实验效果 明显高于PMI、EMI、NEMD和NWP几种词语关联度量,其主要 原因是PMI、EMI、NEMD和NWP方法只利用了候选词的上下 文的一种统计信息,造成其成词率很低,从而影响整个准确率。 2)本文融合算法BlendAssociation(OL=0.4)的准确率高 于文献[9]方法。其主要原因是文献[9]利用频数、点互信 息、左邻接熵和右邻接熵综合筛选新词,充分利用了候选词的 上下文统计信息,识别新词的成词率很高;但其未利用语义信 息,导致识别新词中大多数不是情感词,造成最终准确率降 低。而本文提出的方法利用了语料和情感词典的语义信息, 致使识别出的新词是情感词的概率增加,准确率高于文献 [91方法。 表1新词度量方法对比实验 % 70 60 50 褥 40 器 垫 3O i ri 20 10 O P@50 P@100 P@150 P@200 图3新词度量方法对比实验 3 结语 本文在对语料进行分词的基础上,首先采用词与词组合 方式得到候选新词;之后,利用神经网络训练语料得到的词向 量,在已有情感词典的语义信息指导下,计算候选新词号隋感 词典词语的关联度;最后,根据关联度排序得到最终的新情感 词。经实验结果表明,本文提出的基于词语相关度的微博新 词识别方法准确率明显好于对比的几种新词度量方法,验证 了本文提出方法是有效的。然而,本文获得候选情感词方法 只对相邻的两个词进行绑定,有一定的局限性,造成候选词的 成词率下降,进而使最终识别新情感词的准确率下降。 在未来的工作中,对获取候选词的方法进行改进,以便提 高候选词的成词率,提高最终的准确率。 参考文献: 【l】 张海军,史树敏,朱朝勇,等.中文新词识别技术综述[J】.计算机 科学,2010,37(3):6—10.(ZHANG H J,SHI S M,ZHU C Y,et 1a.Survey of Chinese new words identification[J].Computer Sci- ence,2010,37(3):6—10.) [2】 CHEN A.Chinese word segmentation using minimal linguistic knowl- edge[c]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Stroudsburg,PA:Association for Computation- la Linguistics.2003:148—151. [3】 郑家恒,李文花.基于构词法的网络新词自动识别初探f J].山西 大学学报(自然科学版),2002,25(2):115—119.(ZHENG J H, LI W H.A study on automatic identiifcation for Intemet new words according to word—building rule【J】.Journal of Shanxi University (Natural Science Edition),2002,25(2):115—119.) 【4] 张艳辉,刘培玉.基于互信息的微博新词发现算法¨].科技视 第2期 陈鑫等:基于词语相关度的微博新情感词自动识别 427 (上接第423页) 【18】FORMOSO V,FERNANDEZ D,CACHEDA F,et a1.Distributed architecture for k-nearest neighbors recommender systems[J】. World Wide Web:Internet&Web Information Systems,2014,18 OL].【2014—12—20].http://www2.informatik.uni—freibu ̄.de/ ~cziegler/BX (4):1—21. 【19】PAGARE R,SHINDE A.recommendation system using Bloom fil— ter in MapRednce[J].International Journal of Data Mining& Background This work is partilaly supported by the major project of Natural Science Foundation of Hubei Province(2015CFA067),the Key Project of Scientiifc Knowledge Management Process,2013,3(6):127—134. [20】LEE C—R,CHANG Y—F.Enhancing accuracy and performance of collaborative filtering algorithm by stochastic SVD and its MapRe Research Project of Education Department of Hubei(1320151001),Wuhan Science and Techndo ̄Project(2013ol24o1 01o851). LIANG Junjie,born in 1974,Ph.D.,associate professor.Her re- search interests include multimedia database,high dimensional indexing. GAN Wenting,born in 1989,M.S.candidate.Her research inter- ests include Web ifornmation mining,personalized recommendation. YU Dunhui,born in 1974,Ph.D.,ass ̄ime professor.His re. search interests include personalized recommendation,big data. duce implementation[C 1//IPDPSW 2013:Proceedings of the 2013 IEEE International Symposium on Parllael&Distributed Pro— cessing,Workshops and PhD Forum.Washington,DC:IEEE Computer Society,2013:1869—1878. 【21】 Institut for Informatie Freiburg.Booking-crossing data sets【EB/ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务