您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于网络搜索的英汉人名翻译

基于网络搜索的英汉人名翻译

来源:保捱科技网
第31卷第2期 中文信息学报 V01.31。No.2 2017年3月 JOURNAL OF CHINESE INFORMATION PROCESSING Mar.,2O17 文章编号:1003—0077(2017)02—0049—06 基于网络搜索的英汉人名翻译 刘颖,曹项 (清华大学中文系,北京100084) 摘 要:该文利用搜索引擎从网络中挖掘英语人名的中文翻译。该方法综合利用翻译辅助词、英中人名共现规 则、音译相似度和翻译概率。首先,利用搜索引擎从互联网上搜索英文人名的中文翻译候选。把汉语人名标注 结果、翻译辅助词、英中人名共现规则和英文人名的发音音节长度结合起来提取翻译候选词。翻译辅助词有助 于搜索与英文人名更相关的信息,英中人名共现规则和发音音节长度进一步缩小英文人名的翻译范围,使得英 文人名的翻译搜索符合人名共现规律和发音规律。然后,根据音译相似度和翻译概率对候选词进行排序。人名 翻译的绝大部分是根据发音翻译过来的,音译相似度是帮助判断两个词在发音上的相似性。翻译概率从统计上 判断两个词互为翻译的可能性。实验结果表明,翻译辅助词、规则、音译相似度和翻译概率都有助于提高人名翻 译的正确率。 关键词:人名翻译;音译相似度;规则;翻译概率 中图分类号:TP391 文献标识码:A English—Chinese Name Translation Based on Web Mining LIU Ying,CA0 Xiang (Chinese Language and Literature Department,Tsinghua University,Beijing 100084,China) Abstract:We propose a method to translate English into Chinese name using the search engine.The method makes use of supporting word,co—occurrence rules of English and Chinese name,transliteration similarity and translation probability.First,the translation candidates of English names are obtained by means of the search engine.We use the name tagging results,supporting words,co—occurrence rules of English—Chinese name and the length of syllable to obtain translation candidates from online corpus.Supporting words help to search more correlative names.Co—oc— currence rules and the length of syllable make translations of an English name follow the regularities of CO—occurrence and transliteration.Then the translated candidates are sorted according to transliteration similarity and the transla— tion probability.English names are almost translated according to their pronunciations and the transliteration simi— larity help to j udge the similarity of their pronunciations.We use the translation probability to obtain the translation likelihood of two words statistically.The experimental results show supporting word,co—occurrence rules,translit— eration similarity and translation probability are all positive to improve the precision of name translation. Key words:name translation;transliteration similarity;rule;translation probability 料库进行人名翻译研究。 1 引言 目前,对人名翻译的方法主要是规则方法、统计 方法和网络挖掘的方法。规则方法主要是根据双语 随着互联网和搜索引擎的广泛使用,网络语料 人名音译的规律来进行人名翻译[1]。统计方法有基 库规模日渐庞大。借助于先进的搜索引擎工具如 于音译的统计方法[2 ]、基于双语平行语料库的统计 Google、Baidu等,我们可以更好地运用网络语料 方法 和基于可比较的双语语料库的统计方 库,从中提取有价值的信息。许多学者利用网络语 法En-lz]。网络挖掘是利用搜索引擎来搜索并获取 收稿日期:2015-01—10定稿日期:2015—03—10 基金项目:国家自然科学基金(61171114);北京市社科基金(16YYBO21);清华大学人文社科振兴基金(2O145O81O42) 50 中文信息学报 双语网页摘要或全文来进行人名翻译[13-20]。规则 方法主要是根据人名对人工建立音译规则,音译规 则覆盖率有限并且对于歧义很难处理,因此规则方 法准确率较低。基于统计的音译方法对于每一个音 译对给出概率,对符合音译规律的人名效果较好,但 不能解决不符合音译规律的人名翻译。基于双语平 行语料库方法目前是比较成熟的方法,利用的统计 模型有隐马尔科夫模型、最大熵模型、条件随机场模 型等。人名翻译的准确率与平行语料库的规模和质 量有很大关系。与其他方法相比,这种方法可以获 得高质量的命名实体翻译,但大规模的双语人名对 齐的语料库比较缺乏。基于可比较语料库的人名翻 译是利用可比较语料库中的人名、人名的上下文、人 名间关系和关系的上下文等来进行人名翻译,但由 于两个语料库的人名及人名关系不是严格的一对一 关系,导致该种方法的人名翻译准确度不高。基于 网络挖掘的方法期望利用网络上超大规模资源的优 势,翻译出词典中未收录的一些人名,并且可以发现 人名的多种翻译结果。 基于搜索引擎翻译的基本处理步骤为:(1)输 入查询词,获取含有相关内容的双语网页摘要或网 页全文;(2)从提取出的双语网页摘要或全文中生 成相应的翻译候选词;(3)排序候选词并挑选出合 适的翻译结果。因此,如何能搜集到相关的双语网 页摘要和候选词、进行有效的排序并发现适合的翻 译是进行基于搜索引擎的人名翻译的基础。 Fei Huang利用查询词和与主题相关的线索词 来搜索含有查询词的双语网页,然后结合语音、语义 和频度距离特征来抽取关键短语的翻译E13]。Fan Yang对汉语机构名进行块的分割,利用启发式查 询和非对称方法将汉语机构名与英文句子对齐,并 从英语句子中找出与汉语机构名对齐的英语片 段_1 。张永臣通过web采集金融领域的双语语 料,然后利用从普通双语词典选出的种子词建立起 双语间专业词汇的关系,再根据专业词汇的向量空 间相似度来判断两个专业词汇是否是翻译关系 。 蒋龙根据音译特征搜索网络生成翻译候选词集,再 用熵模型对其进行排序L1 。郭稷融合了共现频率、 候选翻译长度、命名实体判定、词性以及上文词等多 个特征,从带有括号和英文的中文命名实体受限网 页中自动抽取双语翻译对__1 。赵明明利用n元模 型实现的音译系统抽取命名实体单字,利用搜索引 擎搜索包含命名实体单字的N元字串,再利用编辑 距离和x 对候选翻译进行排序口 。为了获取相 关的双语网页而不是只含单语言的网页,不同的学 者利用了不同的方法。Fei Huang利用了与主题相 关的线索词l】 。Fan Yang利用了汉语机构名中一 些词的翻译作为启发式查询口 。张永臣利用了从 普通双语词典中选出的种子词_1 。蒋龙和赵明明 都是利用命名实体的单字翻译信息 17,19]。把种子 词、线索词或命名实体的单字翻译作为目标语言的 线索词,更有利于获取含有待翻译项(源语言)和线 索词(目标语言)的两种语言的网页。 本文实现的基于搜索引擎的英汉人名翻译方法 充分结合了网络语料库、搜索引擎、翻译辅助词、中 英文人名共现规则、音译相似度、翻译概率等多种知 识。利用翻译辅助词使得搜索结果中包含更相关的 双语语料。将中英文人名共现规则与音译翻译长度 相结合来提高候选词提取的精度和效率。把基于最 小编辑距离的音译和翻译概率等特征相结合来对候 选词进行综合排序,可把最相关的翻译结果排在前 面。本文不但利用了语言学知识(规则、人名长度、 翻译辅助词和音译规律),而且利用了和人名翻译最 为相关的统计知识(音译相似度和翻译概率)。 2 基于网络搜索的英汉人名翻译的基准 方法 基于网络的英汉人名翻译的基准方法是通过以 下三个步骤来完成。 (1)获取网络语料库。向搜索引擎提交英文人 名查询词,返回前100个搜索结果,去除文本中的 HTML标记,只保留纯文本字符格式。若搜索结果 不够100个,则保留所有结果。搜索引擎首先利用 百度搜索引擎,若搜索结果不够100个,再利用 google搜索引擎。 (2)根据人名翻译规律和翻译候选词长度生成 中文翻译候选词集合。 人名翻译的基本规律主要为以下几种情况:中 文人名紧邻英文人名,英文人名紧邻中文人名,中文 人名与英文人名之间插入符号“(”、“一”、“/”等。我 们只考虑这些情况的中英文人名互译。 利用音节方法,来预估中文候选词的最大长度 和最小长度。把英文人名进行音节分解,如Smith 史密斯”有S,mi和th三个音节,其所对应的中文名 字的最大长度应为音节数目3,最小长度应为元音 的音节数目1。 (3)排序中文翻译候选词并输出结果。利用式 2期 刘颖等:基于网络搜索的英汉人名翻译 51 (1)来对每一个候选词进行排序。 P(CN I EN)一,(CN N EN)/f(EN)(1) 词、语气词、代词、副词、拟声词、时间词、地点名词等 共506个。我们参照了哈尔滨工业大学信息检索研 究室提供的停用词表。 其中CN代表中文人名翻译候选词,EN代表英文 查询人名,.厂(CNNEN)表示在所有出现EN的结 果中CN和EN共同出现的频率,S(EN)是EN出 现的总次数。 (2)对于辅助候选词的排序,我们借鉴并改进 了Ricardo Baeza—Yates提出的关联群簇方法,其用 来计算辅助词与源英文人名查询词的关联度分值 Score [。 ,如式(2)所示。 3基于网络搜索的英汉人名翻译 I Scoree一 ,s) 给定一个英文人名,下面给出如何应用搜索引 擎自动生成相对应的中文名字。 3.1基于网络搜索的人名翻译的基本过程 (1)向搜索引擎提交英文待翻译人名,收集前 100个搜索结果,将结果去除HTML标记得到纯文 本,并用切分和词性标注软件ICTCLAS ̄)对其中的 中文进行切分和标注。如果搜索结果少于100个, 则保留所有结果。ICTCLAS对于人名给出标注 结果。 (2)从搜索结果中提取翻译辅助词,对辅助词 进行排序并选前三个。 (3)提交待翻译人名和每个辅助词的组合进行 网络搜索,每组搜索返回100个结果。若返回结果 不够100个,则返回所有结果。预处理所有搜索 结果。 (4)根据规则和预估计的翻译长度来提取中文 人名翻译候选词集合。 (5)把音译相似度和翻译概率相结合对翻译候 选词排序。 (6)去除噪音,输出排在前面的候选词。 3.2获取辅助查询词 翻译辅助词就是与英文人名搜索词相关度较 高并经常共现的词,在搜索过程中将英文人名和 辅助词一并输入搜索引擎,返回的搜索结果将更 相关,便于提取有价值的信息。例如,当搜索 “Jennifer Lopez”的英文名字,由于其是美国歌星和 影星,与其经常共现的词汇包括“明星”和“歌星” 等,我们便将这些词作为辅助词,与英文名字一起 输入搜索引擎。 获取辅助查询词的具体实现过程如下: (1)首先将从搜索引擎搜索获取的前100个网 页摘要,所有标记为名词且非停用词表中的词汇提 取出来作为辅助词的候选词。停用词包括标点、连 其中,e代表源英文人名查询词,s代表中文辅 助词的候选词,w 计算方法如式(3)所示。 W :== f…× , (3) —rmER 代表第m个搜索结果,R 是所有搜索结果, , 源英文人名查询词 在第m个结果中出现的 频率,,5, 是辅助词s在第m个结果中出现的 频率。 (3)选取关联度分值Score 最高的前三个中文 词作为辅助词。 (4)若利用上述方法获取的辅助词不够三个, 则把文献[22]中的人名词典和从双语平行语料库 中抽取的人名对进行英语子音节与单个汉字对 齐。对当前待翻译的英文人名进行音节切分,查 找每个音节对应的汉字。把这些单个汉字作为辅 助词,例如,从搜索引擎搜索“Deng Jianguo”的中文 翻译时,若通过式(2)找到的翻译辅助词不够,则 可以把“Deng Xiaoping--”中的“Deng一 邓”、“Xiao一小”和“ping一平”中与“Deng Jianguo” 中相同的英文音节“Deng”的翻译“邓”作为翻译辅 助词。 (5)将获取的三个辅助词与源英文人名分别组 合输入搜索引擎,每一组合提取前100个网页摘要, 去除HTML标记,将其转换为纯文本。 3.3用规则提取中文人名翻译候选词 (1)提取翻译规则 我们将从网络语料库、百科全书及线下语料库 中提取的1 000多个人名对作为提取规则的训练语 料库,共提取了120多条规则,表1是出现最多的前 规则,可以覆盖9O 的中英文人名共现情况, 其中CN代表中文人名,EN代表源英文人名查询 词,x代表一个汉字或英文单词。 52 中文信息学报 表1主要规则形式 规则 概率/ 范 例 CNEN 26.7 比尔・盖茨Bill Gates CN(EN 23.2 威廉・亨利・盖茨William Henry Gates ENCN 16.1 Willis Carrier威利斯・开利 EN(CN 10.4 Bill Gates比尔盖茨 CN—EN 6.5 比尔盖茨一Bill Gates CN/EN 3.2 比尔・盖茨/Bill Gates CNxxEN 2.4 史蒂夫・乔布斯传记Steve Jobs ENxCN 1.9 Warren Buffett Speaks巴菲特 (2)利用音节方法,来预估中文候选词的最大 长度和最小长度。把英文人名进行音节分解,如 Jennifer有Je,nni和fer三个音节,其所对应的中文 名字的最大长度应为音节数目3,最小长度应为元 音的音节数目3。Jennifer Lopez的最大长度是6, 最小长度是5。Bill Gates的最大长度是5,最小长 度是3。 (3)根据ICTCLAS切分和标注结果、预估的 翻译长度和翻译规则生成中文翻译候选词集合。 例如,“……做出集成电路(芯片),比尔盖茨 (Bill Gates)做出视窗,……” Bill Gates翻译候选词的最大长度为5,最小长 度为3。根据规则CN(EN,可以提取出前后紧挨着 Bill Gates的大于等于3小于等于5的汉字序列(遇 到标点符号、英文数字等停止),生成候选词集合“比 尔盖茨”、“做出视窗”、“比尔盖”“尔盖茨”“做出视” “出视窗”等。若所选的词串序列已被ICTCLAS标 注为人名,则可直接选为该人名。 若候选词以总统、经理、总裁、歌星及影星等常 见人名称呼开头,我们将其去除并生成新的候选词。 3.4对中文人名翻译候选词进行排序 Fei Huang[ 、陈钰枫 指出人名翻译主要是音 译形式。陈钰枫对LDC机构发布的汉英双语命名 实体语料库(LDC 2O05T34)进行统计,发现人名翻 译对音译词占100%。所以,我们判断一个中文候 选是不是给定英文人名的翻译,主要依靠两者之间 的音译相似度和翻译概率。 Score(CN,EN)=:=W1×Scored +W2×P(CN l EN)(4) 1+W2:1 P(CNIEN)是在给定EN的情况下,检索出的 页面中出现CN的概率,其计算见式(1)。 Sc0r8ED(CN,EN)是基于最小编辑距离(ED) 的音译相似度,见式(5)。本文实验W 一0.7, W2=0.3。 &0rg皿(CN,EN) E1)(EN,P ) , ———max(Num(EN—),Num(PY)) 。 cEN是源英文人名查询词,CN代表中文人名翻译 候选词,P 是CN的拼音序列,ED(EN,P )是 他们之间的最小编辑距离,即从EN到PY 的最小 编辑操作数量,包括插入,删除及替换等。Num(x) 代表中文拼音序列或英文人名x去除空格、点号和 标点符号后字母的个数即此字符串的长度。比如中 英文名字对比尔・盖茨一Bil1 Gates,P ===(bi, er,gai,ci)和EN==:(Bill,Gates)的最小编辑距离 ED是5,最佳的编辑路径是“Bill”一“Bi er”,ED为 2;“Gates”一“gai ci”ED为3。所以,比尔・盖茨与 Bill Gates的音译相似度为0.44。 3.5去除噪音,输出翻译结果 在人名候选词生成阶段,可能会产生很多冗余 信息。对于冗余信息需要进行降噪处理。如果翻译 候选词A是翻译候选词B的子集,且翻译候选词A 的排序值低于翻译候选词B,我们便将翻译候选词 A视为噪音并删除,如“比尔盖”是“比尔盖茨”的子 串,并且“比尔盖”的排序值低于“比尔盖茨”的排序 值,则将其视为噪音。 4实验与结果分析 本文通过网络语料库、百科全书及线下语料库 提取出了1 000多个中英文人名翻译等价对作为训 练语料库,从该训练语料库中提取中英文人名共现 规则。对其中的1/10作为测试语料。 对人名翻译使用正确率来进行评价,正确率P是 指已正确翻译的英文人名个数占翻译的所有英文人 名的百分比。对于排序的中文人名翻译候选词,只要 前N个结果中包含正确的翻译,则可算进Top—N结 果的正确率中。Top—N的正确率记为Prr。 。 4.1不同组合模块下的翻译效果评估与对比 为了对比利用辅助词、规则库、通过音译和统计 特征排序以及噪音除噪的效果,我们分别与基准方 法叠加组合计算出P.r。 w,实验结果如表2所示。 2期 刘颖等:基于网络搜索的英汉人名翻译 53 表2不同模块组合下的Top-N翻译正确率 不同方法 基准方法 基准方法+辅助词 基准方法+辅助词+规则 基于网络搜索的人名翻译 PT。口.1/ 65.5 68.6 74.8 81.3 PT。 。/ 69.7 74.3 78.9 83.5 P 。 / 74.4 78.7 82.1 88.4 (2)英文人名搜索结果里中英文人名共现的信 息或语料较少,从而导致无法提取含有正确翻译的 候选词。 (3)语料库中出现与英文全名共现的部分中文 翻译名的情况,如“巴拉克奥巴马一Barack Obama” 在很多网络新闻报道中都是以下列形式出现“…… 当美国总统奥巴马(Barack Obama)的团队将要拍 摄竞选视频时……”这类语料并未将巴拉克这个名 表2中,基准方法是为了与添加辅助词、规则和 统计排序等进行比较而进行的基本实验,过程如第 二部分。“基准方法+辅助词”是把部分2的2.(1) 替换成3.1(1)+3.1(2)+3.1(3),后面的步骤是 2.(2)和2.(3)。“基准方法+辅助词+规则”是把部 分2的2.(1)替换成3.1(1)+3.1(2)+3.1(3)+3.1 (4),后面的过程是2.(2)和2.(3)。基于网络搜索 的人名翻译方法是3.1中完整的方法。 从表2可以看出,对于排序最前的英汉人名翻 译,基准方法的正确率为65.5%。而采用辅助词 后,正确率为68.6 ,04。再增加规则后,正确率为 74.8 。而采用基于网络搜索的人名翻译,正确率 为81.3 。基于网络搜索的人名翻译同时利用了 翻译辅助词、人名翻译规则、基于最小编辑距离的音 译相似度和翻译概率排序。说明随着处理组合的不 断增加,正确率逐步增加。基于规则库的候选词提 取及根据音译和统计特征排序候选词都对翻译正确 率的提高起到了重要作用。另一方面,从表格的横 向来看,随着Top-N包含候选词的个数增加,正确 率也逐渐增加。基准方法只使用了翻译概率对翻译 候选进行排序,而基于网络搜索的人名翻译把音译 相似度和翻译概率结合起来对翻译候选进行排序, 翻译正确率进一步增加,说明音译相似度对人名翻 译的判断确实有帮助。 从实验结果来看,如果待翻译的人名比较有名, 从网络上就容易获取其人名翻译。如果待翻译的人 名比较罕见,从网络上获取其翻译则比较困难。 4.2主要错误类型分析 利用网络搜索进行人名翻译的主要错误有以下 几类。 (1)从网络语料库中获取的人名翻译与标准不 一致。这主要是因为一部分英文人名有多个译文, 都是根据发音翻译过来的。例如,Emily根据网络 语料库的中文翻译是“艾米莉”,而用来计算准确率 的翻译是“艾米丽”。 字进行翻译,导致提取出“总统奥巴马”这类型的错 误候选词。 (4)候选词中包含正确的翻译但排序模型未能 将其排在前面。有些英中人名在网络语料库中出现 次数很少或者不是根据音译规律来翻译的英中人 名,导致对候选词排序时的排序评分比较低。 (5)考虑音译最大长度和最小长度提取翻译候 选词,以便缩小候选词范围同时提高系统效率,但这 种方法对于不是音译或意译的中英文对并未有效, 如“滨崎步一Ayumi Hamasaki”,英文是通过日文发 音翻译而成,而中文翻译却是从日文意译而来,因此 会出错。 此外,还有切词错误、词性标注错误和人名识别 错误等。 为进一步提高人名翻译准确率,需要进一步提 高汉语切词、词性标注和人名识别的正确率。判断 准确率时,把英中人名翻译的多种可能考虑进来。 对于一小部分没有根据音译规律进行翻译的人名需 建立人名翻译词典或根据更多的上下文来进行判 断。而对于搜索结果较少或者根本没有搜索到的人 名对,需利用其他资源来进行人名翻译。比如:利 用其他双语对齐语料库或双语可比较语料库来进一 步提高人名翻译准确率。 本文把词性标注、规则、上下文、音译相似度和 翻译概率相结合,使得网络搜索可以根据ICT— CLAS的人名标注、规则和预估的翻译长度来选择 候选集合,这样可以使得搜索空间大大缩小。另一 方面,根据音译相似度和翻译概率从多个候选结果 中选择出正确的翻译可以充分地利用人名翻译统计 知识。 5 结论 本文提出的基于网络搜索的英汉人名翻译方法 结合了规则、音译及统计等多种资源和特征。首先, 为了获取到相关的网络语料和搜索结果,我们利用 54 中文信息学报 2017拄 翻译辅助词和中英文人名共现规则。通过发音音节 来预估翻译长度,从而提高了候选词提取和生成的 精度。其次,我们结合了基于最小编辑距离的音译 相似度和翻译概率来对候选词进行综合排序。实验 结果表明每一个特征的加入都有效地提高了人名翻 和翻译[J].智能计算机与应用,2013,2(1):4 7. nhan Kim,Seung—won Hwang,Long Jiang,et a1. [11] JiEntity Translation Mining from Comparable Corpora: Combining Graph Mapping with Corpus Latent Fea— tures[J].IEEE Trans.Know1.Data Eng.2O12,25 (8):1787—1800. 译的正确率。 参考文献 [1] Stephen Wan,Cornelia Verspoor,Automatic English— Chinese Name Transliteration for Development of Mul— tilingual Resources[C]//Pr0cee dings of COLING/ ACL一1998,1998:1352—1356. [2] Kevin Knight,Jonathan Graeh1.Machine translitera— tion[J].Computational Linguistics.1998,24(4): 599—612. [3] Yaser A1一Onaizan,Kevin Knight.Translating named entities using monolingual and bilingual resources [c]//Proceedings of the 40th Annual Meeting on As— sociation for Computational Linguistics.2002:400— 4O8. [4] Li Haizhou,Zhang Min,Su Jian.A Joint Source— Channel Model for Machine Transliteration[c]//Pro— ceedings of the 42nd Annual Meeting of the Associa tion for Computational Linguistics.2004:21—26. [53 Fei Huang,Stephan Vogel,Alex Waibe1.Automatic extraction of named entity translingual equivalence based on multi・-feature cost minimization[-C]//Proceed—— ings of the ACL 2003 workshop on Multilingual and mixed-language named entity recognition,2003,15:9 16. [61 陈怀兴,尹存燕,陈家骏.一种命名实体翻译等价对的 抽取方法[J].中文信息学报,2008,22(4):55—60. [7]陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对 齐的交互式方法I-j].计算机学报,2011,34(9):1688— 1696. [8]于恒,涂兆鹏,刘群,刘洋.基于多粒度的英汉人名音译 [J].中文信息学报,2013,7(4):16—21. [9]邹波,赵军,英汉人名音译方法研究Ec].第四届学生 计算语言学研讨会论文集,2008. [101李婷婷,赵铁军,张春越.基于统计的El本人名的识别 ▲ 刘语E—颖言ma(处i1l:9理6y9i。 ngl)iu,@博t士sin,教gh授ua.,主edu要.研cn 究领域为自然 [12] Taesung Lee,Seung—won Hwang. B0otstrapping En— tity Translation on Weakly Comparable Corporal,C]// Proceedings of the 5 1 st Annual Meeting of the Asso— ciation for Computational Linguistic.2013:4-9. [13] Fei Huang,Ying Zhang,Stephan Vogel,Mining key phrase translation from web corpora[C]//Proceed ings of HLT/EMNI P 2005,2005:483 490. ,114] Fan Yang,Jun Zhao,Kang Liu,A Chinese—English Organization Name Translation System Using Heu— ristic Web Mining and Asymmetric Alignment[c]// Proceedings of the 47th Annual Meeting of the ACL and the 4th UCNLP of the AFNLP.2009:387 395. [15] Jian—Cheng Wu,Jason S.Chang.Learning to Find English to Chinese Transnterati0ns on the Web[C]// Proceedings of the 2007 Joint Conference on Empiri cal Methods in Natural I anguage Processing and Computational Natural Language Learning.2007: 996—1004. [16] 张永臣,孙乐,李飞等.基于web数据的特定领域双 语词典抽取[J].中文信息学报,2006,2O(2):16—23. [17] 蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实 体I-J].中文信息学报,2007,21(1):23 29 [181 郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻 译对获取方法[J].中文信息学报,2008,22(6):103 1O9. [19] 赵明明,洪宇,姚建民,朱巧明.基于音译和网络的命 名实体翻译方法研究[c].第六届全国信息检索学术 会议论文集.2010:357-366. -[20] 赵明明.英汉命名实体翻译研究[D].苏州大学硕士 学位论文,2011. ,[211 Ricardo Baeza—Yates,B Ribeiro—Neto.Modern Infor— marion Retrieva1.Addison-Wesley&ACM Press, Harlow,UK,1999. -[22] 刘颖,姜巍.改进的隐马尔克夫模型的词语对齐[J]. 中文信息学报,2014,28(2):51—55. 曹项(1 987…),硕士,主要研究领域为自然语言 处理。 E—mail:celephant@126.corn 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务