W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
當(dāng)你抓取網(wǎng)頁時,你需要執(zhí)行的最常見的任務(wù)是從HTML源代碼中提取數(shù)據(jù)。有幾個庫可以實現(xiàn)這一點,例如:
BeautifulSoup 在Python程序員中是一個非常流行的Web抓取庫,它基于HTML代碼的結(jié)構(gòu)構(gòu)造了一個Python對象,并且能夠很好地處理錯誤的標(biāo)記,但是它有一個缺點:速度慢。lxml 是一個XML解析庫(它也解析HTML),使用基于 ?ElementTree? . (LXML不是Python標(biāo)準(zhǔn)庫的一部分。)
Scrapy有自己的數(shù)據(jù)提取機制。它們被稱為選擇器,因為它們“選擇”HTML文檔的某些部分 XPath 或 CSS 表達。
XPath 是一種在XML文檔中選擇節(jié)點的語言,也可以與HTML一起使用。 CSS 是用于將樣式應(yīng)用于HTML文檔的語言。它定義選擇器,將這些樣式與特定的HTML元素相關(guān)聯(lián)。
注解
碎屑選擇器是一個很薄的包裝 parsel library;這個包裝器的目的是提供更好的與slapy響應(yīng)對象的集成。
parsel 是一個獨立的網(wǎng)頁爬取庫,可以使用沒有 Scrapy 。它使用 lxml 庫位于引擎蓋下,并在LXML API之上實現(xiàn)一個簡單的API。這意味著scrapy選擇器在速度和解析精度方面與lxml非常相似。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: