1.首先,什么時候我們需要爬蟲呢?
當我們需要某網站上的海量數據的時候,會發(fā)現(xiàn),如果人工去把幾百頁,每頁幾十條到幾百條的數據一條一條地復制下來,就太費時費力了,甚至根本就不可能。但是你做研究卻需要這樣的大量數據的支持。這個時候就可以用到爬蟲了。
2.爬蟲是什么原理呢?
爬蟲我也給不出精確的定義,按照我自己的理解,爬蟲就是讓電腦程序模仿人去網頁上查詢信息的過程,來幫助人們自動地迅速地獲取網頁信息的一個技術。常用的方法就是讓電腦程序去掃描網頁的源代碼,按照你的指示去尋找對應的內容(比如你需要所有標簽p的內容,或者你需要某個class的內容)。爬蟲時還經常涉及翻頁,那你也需要去翻看網頁源代碼,找到各個頁的網址的關系(通常網址的前面都是一樣的,就是后面的一個數字在不斷遞增),然后告訴程序按照這樣的規(guī)律去爬所有的頁面。這樣每一頁的所有你需要的內容就到手了。
我個人覺得爬蟲最耗時的過程倒是不寫代碼,而是分析網頁源代碼的HTML結構,找到你需要的內容對應的精確的標簽。這樣你的爬蟲程序才能有的放矢地迅速獲取你想要的內容。
3.用什么去爬蟲?
我個人也是個菜鳥,對于我這個菜鳥來說,Python簡直就是簡單好用讓人感動!而且我用PyCharm的IDE自帶很多工具包,我寫爬蟲就用BeautifulSoup包,十分的簡單,爬一般的網站的文本數據,10-20行代碼肯定沒問題。你可以去了解一下BeautifulSoup,相信學起來很有趣味的!嘻嘻~~
祝你學得開心~歡迎互相交流哦!