专利内容由知识产权出版社提供
专利名称:搜索引擎中包含WEB对象的聚类方法专利类型:发明专利
发明人:陈珂,陈刚,寿黎但,胡天磊,盛振华申请号:CN200910152879.0申请日:20090918公开号:CN101706790A公开日:20100512
摘要:本发明公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作用的特征词汇,提高相似度计算的精确性,并且建立一种新型的自适应记录合并模型,有效地提高各个记录簇中记录间高相似度比例,减少噪音对合并过程的影响,具有很高的准确性,健壮性和通用性。本发明充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。
申请人:浙江大学
地址:310027 浙江省杭州市西湖区浙大路38号
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:林怀禹
更多信息请下载全文后查看