全文搜索引擎采集

  

  

全文搜索引擎采集,尤其是中文全文檢索技術的研究始于1987年左右,已經有一些商品化的軟件。Internet的普及使得全文檢索技術日益成熟起來,其應用已突破傳統的情報部門和信息中心的局限性,使該技術的最廣大用戶變成互聯網的用戶和桌面用戶,而不再僅局限于情報檢索專家。


全文搜索引擎采集


全文檢索技術以各類數據如文本、聲音、圖像等為對象,提供按數據的內容而不是外在特征來進行的信息檢索,其特點是能對海量的數據進行有效管理和快速檢索。


它是搜索引擎的核心技術,同時也是電子商務網站的支撐技術。全文檢索技術可應用于企業信息網站、媒體網站、政府站點、商業網站、數字圖書館和搜索引擎中。我們知道,企業信息化是電子商務的基礎,企業建立自己的商務站點,構建企業內部信息發布平臺,并與其他網站間建立安全的信息發布通道和交換通道,建立電子商務的應用并以數據為中心建立應用平臺等方面都離不開全文檢索。


該檢索技術可跨越所有的數據源,支持多種數據和信息格式,對檢索結果可按商業分類規則進行排列,也能滿足用戶特定的知識檢索請求,將所有不同信息查詢中的命中結果按相關性或分類排列,提供不同格式的信息瀏覽功能。


從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果,如Lycos引擎。

  
相關資訊