網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

來(lái)源：懂視網(wǎng) 責(zé)編：小采時(shí)間：2020-11-27 14:23:41

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享:產(chǎn)生背景編輯隨著網(wǎng)絡(luò)的迅速發(fā)展，萬(wàn)維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(Search Engine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

導(dǎo)讀網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享:產(chǎn)生背景編輯隨著網(wǎng)絡(luò)的迅速發(fā)展，萬(wàn)維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(Search Engine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指

產(chǎn)生背景

編輯

隨著網(wǎng)絡(luò)的迅速發(fā)展，萬(wàn)維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(Search Engine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：

(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。

(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。

(3)萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力，不能很好地發(fā)現(xiàn)和獲取。

(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語(yǔ)義信息提出的查詢。

網(wǎng)絡(luò)爬蟲(chóng)

為了解決上述問(wèn)題，定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲(chóng)應(yīng)運(yùn)而生。聚焦爬蟲(chóng)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲(chóng)(general purpose web crawler)不同，聚焦爬蟲(chóng)并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。

1 聚焦爬蟲(chóng)工作原理以及關(guān)鍵技術(shù)概述

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL，并重復(fù)上述過(guò)程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外，所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯，進(jìn)行一定的分析、過(guò)濾，并建立索引，以便之后的查詢和檢索；對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō)，這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。

相對(duì)于通用網(wǎng)絡(luò)爬蟲(chóng)，聚焦爬蟲(chóng)還需要解決三個(gè)主要問(wèn)題：

(1) 對(duì)抓取目標(biāo)的描述或定義；

(2) 對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾；

(3) 對(duì)URL的搜索策略。

網(wǎng)站爬蟲(chóng)，主要是爬博客下的所有文章內(nèi)容及標(biāo)題，保存到data目錄下。具體如下：

import requestsimport re

url = ''def get_html(url):#打開(kāi)url并獲取該url的所有html信息html_content = requests.get(url).text#從html_conten所有的html信息中匹配到所有博客的超鏈接地址href_list = re.findall(r'href="(.*)">(.*)</a>', html_content)for line in href_list:#打開(kāi)超鏈接地址line_html = requests.get(line[0])
 conten = line[1]
 line_content = line_html.text
 line_encoding = line_html.encodingprint('文章標(biāo)題:%s，文章編碼:%s'%(conten, line_encoding))
get_html(url)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

標(biāo)簽：一個(gè) 分享網(wǎng)站

熱門(mén)焦點(diǎn)

国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

網(wǎng)站爬蟲(chóng)的一個(gè)實(shí)際分享

最新推薦

猜你喜歡

熱門(mén)推薦