當前位置: 妍妍網 > 碼農

好強的谷歌外掛程式,不用寫程式碼就能爬蟲!

2024-06-27碼農

來源:量子位 | 公眾號 QbitAI

家人們,要爬蟲——現在用 一個電子試算表 就行了。

一行程式碼也別寫,第三方軟體也甭安。

只需在表格裏 點幾下 就ok。

不信,你瞧:

就這麽兩下,網頁上的商品資訊都有了。

網友看完都驚呆了,碼個不停。

一看到這是來自谷歌的產品 (Google Sheet,谷歌的「Excel」) ,大家就立馬cue起了 微軟 ,問它慌不慌。

還有人稱這是在「跨界打擊」它。

掃盲:「巨硬」就是微軟,網友給的調侃

好不熱鬧。

來看具體怎麽實作。

詳細步驟

以爬亞馬遜某個手機產品的商品頁為例。

我們先開啟谷歌Sheet (網友版即可) ,新建一個文件。

然後copy一下要爬的網址,粘進去。

剩下的都在Sheet裏完成。

我們先列一下要爬的元素,這裏依次為:

商品圖片-辨識碼 (asin,亞馬遜給每個商品生成的唯一標識) -商品名-價格-評分-圖片網址。

然後就可以正式開始爬了。

要訣就是一個叫做 ImportFromWe b 的函式。

它也是個外掛程式,沒有的需要先安裝一下 (安裝地址放文末了) ,然後透過Google Sheet程式的「擴充套件程式」選單匯入就行。

我們只需把ImportFromWeb函式放進asin那一列,然後第一個參數選中剛剛粘過來的網址,第二個參數把要爬的元素單元格拖一遍 (除了「圖片」)

稍等個1~2s ,價格、商品名等資訊就都出來了!

還差圖片。

簡單~基操~

用IMAGE函式把G3格子裏得到的圖片網址值給過去就行。

至此,第一個商品頁裏的東西就爬到了。

唯一麻煩的是,如果還需要爬更多商品的資訊,需要把商品網址挨個粘一遍。

然後就沒啥了,除了給單元格地址的行標列標加一下 絕對參照符「$」

這裏可以不學視訊,直接一個 f4 就行。

拖一下,全部搞定!

怎麽樣?是不是非常方便。

看完整個操作,你也發現了,其實就是谷歌寫了個指令碼給咱封裝好了直接用。

而據官方介紹,這個ImportFr omWeb功能還能 自動更新 爬取到的資訊。

而且只要是用JS寫的網站都可以爬 (基本等於絕大數網站了) ,每個函式還可支持50個url,以及數千個數據點。

end

我之前還用過一個低程式碼數據收集平台——亮數據Bright Data,也是比較方便就能爬取數據。

它提供數據采集瀏覽器、網路解鎖器、數據采集托管IDE三種方式,能透過簡單的幾十行Python程式碼實作復雜網路數據的采集,對於反爬、驗證碼、動態網頁等進行自動化處理,完全不需要你操心。

官網地址(點選原文連結也可檢視):

https://get.brightdata.com/weijun

有數據抓取需求的可以試試,非常簡單,能節省大量時間和精力!!!

亮數據也提供了現成的數據集,包括電商、社媒、金融、新聞、視訊等等

這些現成的數據集,對於有數據分析需求的人來說非常有節省時間,可以做市場分析、訓練模型等等。