火車頭采集1688

  

火車頭是目前比較常用的采集軟件之一,今天一米軟件來給大家分享一下火車頭采集1688怎么做。


火車頭采集1688


首先,到火車采集器官方網站上去下載軟件,然后注冊一個用戶名和帳號,打開軟件并登錄進去?;疖嚥杉饔忻赓M版與付費版,如果僅僅是基本的數據采集需求,使用免費版即可,基本上能滿足你的大部分需求。


登錄后,進入主界面會,左側的任務列表樹中會有很多現成的采集案例,可以點開學習參考。這里我們要采集1688的一個店鋪中的產品,所以新建一個任務。在開始采集之前,我們需要先篩選出一個整體相對干凈整潔,比較符合跨境電商平臺產品上傳規則的1688店鋪。1688店鋪千千萬,這里隨機從1688牛商中找了一個店鋪,進行演示。店鋪網址:https://chenguanshangmao.1688.com/ 之所以選擇這家進行測試,幾個原因供大家參考。店鋪有一定的規模,生產廠家,績效較好,支持一件代發,產品圖片美觀,附圖也很漂亮,產品描述中沒有過多的垃圾信息,廠家自由品牌,可授權,不易產生侵權糾紛。


正式開始數據采集之前,需要對店鋪進行分析,需要采集的目標列表頁面:https://chenguanshangmao.1688.com/page/offerlist.htm?pageNum=32 最后這個32表示一共有32頁。爬蟲需要從列表頁面爬到產品詳細頁面,所以這個列表頁起一個引導作用。在地址格式中,輸入列表頁地址,其中32這個數字是一個變量,數字是在變化的,所以以地址參數進行代替,然后在下面的地址參數中進行數字變化定義。


在列表頁中,鼠標反敲右鍵,點開查看源代碼,找出要采集的目標列表開頭標簽和結尾標簽,也即使設置區域。


開頭標簽,網頁代碼中僅出現一次


結尾標簽,網頁代碼中僅出現一次


把標簽輸入到這里。然后在鏈接過濾中輸入需要包含的鏈接地址:https://detail.1688.com/offer 因為每個產品頁面都是以這個鏈接開頭。然后保存,下一步。


接下來是內容采集了。首先確定需要采集的內容,例如標題,圖片,價格,重量,描述,庫存數等等。首先,打開任意一個產品詳細頁面https://detail.1688.com/offer/549255112102.html,查看源代碼。因為是演示內容,這里只做標題的采集,其他內容也是同樣的方法。先來產品采集標題。


在標簽列表中新建一個標題標簽,打開源代碼頁面,找到對應的標簽內容,輸入“珍玥琦歐美英倫風女士禮帽 秋冬保暖仿羊毛氈帽時尚葉子花朵帽子”,


分別截取這個標題的前后2段字符串,輸入到下面。


因為采集后的內容可能出現一些不相關的html代碼,有時候需把品牌和一些和產品相關的文字清理掉,可以在下面的數據處理中進行處理。勾選上HTML標簽排除,批量替換中輸入需要清除的字符。然后保存,點擊右下角的測試,即可看到采集結果。


在制定完其他標簽后,即可開始正式采集。 通常1000多條數據,大概10來分鐘即可采集完成。1688對于同一IP頻繁訪問抓取數據,會有一定的限制,所以適當降低線程與采集間隔時間,也可以用代理IP等方式來規避這種情況。當然,對于付費版用戶會有更多的開放權限,例如可以用google翻譯插件將采集內容同步翻譯成你需要的語言,法語、德語、西班牙語等幾十種語言。


以上就是火車頭采集1688的全部過程了,學會了趕緊去試試吧。

上一條:1688分銷采集軟件

下一條:1688圖片采集

相關資訊

推薦軟件