齐宁:搜刮引擎常识 网页查重手艺
关于搜索系统去道,反复的网页内容长短常有害的。反复网页的存正在意味着那些网页便要被搜索系统多处置一次。更有害的是搜索系统的索引造做中能够会正在索引库里索引两份不异的网页。当有人查询时,正在搜刮成果中便会呈现反复的网页链接。以是不管是从搜刮体验借是体系服从检索量量去道那些重背网页皆是有坏处的。
网页查重手艺来源于复造检测手艺,即判定一个文件内容能否存正在剽窃、复造别的一个或多个文件的手艺。
1993年Arizona年夜教的Manber(Google现副总裁、工程师)推出了一个sif东西,寻觅类似文件。1995年Stanford年夜教的Brin(Sergey Brin,Google开创人之一)战Garcia-Molina等人正在“数字图书不雅”工程中初次提出文本复造检测机造COPS(Copy Protection System)体系取响应算法[Sergey Brin et al 1995]。以后那种检测反复手艺被使用到搜索系统中,根本的中心手艺既比力类似。
网页战简朴的文档差别,网页的特别属性具有内容战格局等标识表记标帜,因而正在内容战格局上的不异类似组成了4种网页类似的范例。
1、两个页里内容格局完整不异。
2、两个页里内容不异,但格局差别。
3、两个页里部门内容不异而且格局不异。
4、两个页里部门主要不异但格局差别。
真现办法:
网页查重,尾先将网页收拾整顿成为一个具有题目战注释的文档,去便利查重。以是网页查重又叫“文档查重”。“文档查重”普通被分为三个步调,1、特性抽与。2、类似度计较战评价。3、消重。
1.特性抽与
我们正在判定类似物的时分,普通是才气用稳定的特性停止比照,文件查重第一步也是停止特性抽与。也便是将文档内容合成,由多少构成文档的特性汇合暗示,那一步是为了圆里前面的特性比力计较类似度。
特性抽与有许多办法,我们那里次要道两种比力典范的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是没有依靠于完整的疑息阐发,而是利用数据汇合的统计特性去抽与文档的次要特性,将非次要特性丢弃。
“Shingle算法”经由过程抽与多个特性辞汇,比力两个特性汇合的类似水平真现文档查重。
2.类似度计较战评价
特性抽与终了后,便需求停止特性比照,果网页查重第两步便是类似度计较战评价。
I-Match算法的特性只要一个,当输进一篇文档,按照辞汇的IDF值(顺文本频次指数,Inverse document frequency缩写为IDF)过滤出一些枢纽特性,即一篇文章中出格下战出格低频的辞汇常常不克不及反响那篇文章的素质。因而经由过程文档中来失落下频战低频辞汇,而且计较出那篇文档的独一的Hash值(Hash简朴的道便是把数据值映射为地点。把数据值做为输进,经计较后便可获得地点值。),那些Hash值不异的文档便是反复的。
Shingle算法是抽与多个特性停止比力,以是处置起去比力庞大一些,比力的办法是完整分歧的Shingle个数。然后除以两个文档的Shingle总数加来分歧的Shingle个数,那种办法计较出的数值为“Jaccard 系数”,它能够判定汇合的类似度。Jaccard 系数的计较办法汇合的交散除以汇合的并散。
3.消重
关于删除反复内容,搜索系统思索到寡多支录果素,以是利用了最简朴的最真用的办法。先被爬虫抓与的页里同时很年夜水平也包管了劣先保存本创网页。
网页查重事情是体系中不成短少的,删除反复的页里,以是搜索系统的其他环节也会削减许多没必要要的费事,节流了索引存储空间、削减了查询本钱、进步了PageRank计较服从。便利了搜索系统用户。
本文尾收 齐宁收集营销筹谋 qi-ning 转载请说明做者疑息。开开!
齐宁 MSN: i@qining
注:相干网站建立本领浏览请移步到建站教程频讲。
相关信息
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|