W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
Scrapy 默認(rèn)值針對爬行特定站點(diǎn)進(jìn)行了優(yōu)化。這些站點(diǎn)通常由一個(gè)殘缺的蜘蛛來處理,盡管這不是必需的或必需的(例如,有一些普通的蜘蛛來處理任何向它們拋出的給定站點(diǎn))。
除了這種“集中的爬行”之外,還有另一種常見的爬行類型,它覆蓋了大量(可能是無限的)域,并且只受時(shí)間或其他任意約束的限制,而不是在域被爬行到完成或沒有更多的請求執(zhí)行時(shí)停止。這些被稱為“寬爬蟲”,是搜索引擎使用的典型爬蟲。
這些是一些常見的特性,通常在廣泛的爬行中發(fā)現(xiàn):
如上所述,Scrapy的默認(rèn)設(shè)置是針對重點(diǎn)爬行而不是廣泛爬行而優(yōu)化的。然而,由于其異步體系結(jié)構(gòu),Scrapy非常適合執(zhí)行快速的廣泛爬行。本頁總結(jié)了在使用Scrapy進(jìn)行寬范圍爬行時(shí)需要記住的一些事情,以及為實(shí)現(xiàn)高效的寬范圍爬行而調(diào)整Scrapy設(shè)置的具體建議。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號(hào)-3|閩公網(wǎng)安備35020302033924號(hào)
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號(hào)
聯(lián)系方式:
更多建議: