一,友好性。
爬虫的友好性包含两方面的含义:一是保护网站的部分私密性,另外是减少被抓取网站的网络负载。
二,高性能
互联网的网页数量庞大如海,所以爬虫的性能至关重要。这里的性能主要是指爬虫下载网页的抓取速度,常见的评价方式是以爬虫每秒能够下载的网页数量作为性能指标,单位时间能够下载的网页数最越多,则爬虫的性能越高。
三,可扩展性
如上所述,爬虫需要抓取的网页数最巨大,即使单个爬虫的性能很高,要将所有网页都下载到本地,仍然需要相当长的时间周期,为了能够尽可能缩短抓取周期,爬虫系统应该有很好的可扩展性,即很容易通过增加抓取服务器和爬虫数量来达到此目的。