
上QQ阅读APP看书,第一时间看更新
2.5.6 OPIC策略
OPIC(Online Page Importance Computation)即“在线页面重要性计算”,其是PageRank的升级版本。它具体的策略逻辑是:爬虫为互联网上所有的URL都赋予一个初始的分值,且每个URL都是同等的分值。每下载一个网页就把这个网页的分值平均分摊给这个页面内的所有链接。自然这个页面的分值就要被清空了。而在待抓取的URL列表里,则是谁的分值最高就优先抓取谁。
区别于PageRank,OPIC是实时计算的。这里提醒我们,无论是OPIC策略还是PageRank策略,都证实了一个逻辑:对于新产生的网页,被链接的次数越多,被抓取的概率就越大。