搜索引擎大數據采集方法

  

  

下面一米軟件來給大家分享一下搜索引擎大數據采集方法:


搜索引擎大數據采集方法


數據爬取流程


數據抓取


爬蟲不同于人類用戶,他們“看到”的網頁信息為頁面代碼(保護html、css、js等),但是這些信息中真正有價值的可能只有文章的標題、作者、發布時間等內容,所以爬蟲往往會在頁面抓取和下載之后,將頁面中有價值的信息初步提取和解析出來,再轉發給后續的信息解析和存儲等服務。


常見的數據預處理可能會包含:


url/頁面信息分析,用以確定該url/頁面是否有抓取價值


頁面信息下載,將頁面里的數據下載下來進行分析



目標內容提取,從整個頁面的標簽組里把目標內容解析出來,構建成結構化的數據傳給下游系統。


頁面信息上報,用來記錄自己的運行記錄,方便后續的工作控制、頁面去重等需要


數據清洗和解析


后端服務收到爬蟲抓取的結構化數據之后,會進行數據的一步清洗和解析,主要包含數據的轉碼、解碼,不合理信息剔除、有效信息提取、內容分析打標簽等。


數據存儲


結構化數據在經過了解析之后,會通過相關服務轉發給不同的存儲系統進行保存,保存的信息主要包含數據源、url、標題正文、發布時間、多媒體地址、標簽等內容。


同時,為了保證數據存取的效率,也會針對數據的時間、種類等屬性進行規劃,最后存入不同的存儲集群和解決方案。


數據索引


在數據存儲時,為了能對數據進行快速的搜索,系統會嘗試對數據進行索引。索引中與數據抓取關系較大的主要是對數據/信息去重的部分,主要體現為對原地址、頁面內容等的編碼,以及對資源metadata的建模。

  
相關資訊

推薦軟件