国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

nodeJs爬蟲的技術點總結

來源:懂視網 責編:小采 時間:2020-11-27 22:14:48
文檔

nodeJs爬蟲的技術點總結

nodeJs爬蟲的技術點總結:背景 最近打算把之前看過的nodeJs相關的內容在復習下,順便寫幾個爬蟲來打發無聊,在爬的過程中發現一些問題,記錄下以便備忘。 依賴 用到的是在網上爛大街的cheerio庫來處理爬取的內容,使用superagent處理請求,log4js來記錄日志。 日志配置 話不多說
推薦度:
導讀nodeJs爬蟲的技術點總結:背景 最近打算把之前看過的nodeJs相關的內容在復習下,順便寫幾個爬蟲來打發無聊,在爬的過程中發現一些問題,記錄下以便備忘。 依賴 用到的是在網上爛大街的cheerio庫來處理爬取的內容,使用superagent處理請求,log4js來記錄日志。 日志配置 話不多說

背景

最近打算把之前看過的nodeJs相關的內容在復習下,順便寫幾個爬蟲來打發無聊,在爬的過程中發現一些問題,記錄下以便備忘。

依賴

用到的是在網上爛大街的cheerio庫來處理爬取的內容,使用superagent處理請求,log4js來記錄日志。

日志配置

話不多說,直接上代碼:

const log4js = require('log4js');

log4js.configure({
 appenders: {
 cheese: {
 type: 'dateFile',
 filename: 'cheese.log',
 pattern: '-yyyy-MM-dd.log',
 // 包含模型
 alwaysIncludePattern: true,

 maxLogSize: 1024,
 backups: 3 }
 },
 categories: { default: { appenders: ['cheese'], level: 'info' } }
});

const logger = log4js.getLogger('cheese');
logger.level = 'INFO';

module.exports = logger;

以上直接導出一個logger對象,在業務文件里直接調用logger.info()等函數添加日志信息就可以,會按天生成日志。相關信息網絡上一堆。

爬取內容并處理

 superagent.get(cityItemUrl).end((err, res) => {
 if (err) {
 return console.error(err);
 }

 const $ = cheerio.load(res.text);
 // 解析當前頁面,獲取當前頁面的城市鏈接地址
 const cityInfoEle = $('.newslist1 li a');
 cityInfoEle.each((idx, element) => {
 const $element = $(element);
 const sceneURL = $element.attr('href'); // 頁面地址
 const sceneName = $element.attr('title'); // 城市名稱
 if (!sceneName) {
 return;
 }
 logger.info(`當前解析到的目的地是: ${sceneName}, 對應的地址為: ${sceneURL}`);

 getDesInfos(sceneURL, sceneName); // 獲取城市詳細信息

 ep.after('getDirInfoComplete', cityInfoEle.length, (dirInfos) => {
 const content = JSON.parse(fs.readFileSync(path.join(__dirname, './imgs.json')));

 dirInfos.forEach((element) => {
 logger.info(`本條數據為:${JSON.stringify(element)}`);
 Object.assign(content, element);
 });

 fs.writeFileSync(path.join(__dirname, './imgs.json'), JSON.stringify(content));
 });
 });
 });

使用superagent請求頁面,請求成功后使用cheerio 來加載頁面內容,然后使用類似Jquery的匹配規則來查找目的資源。

多個資源加載完成,使用eventproxy來代理事件,處理一次資源處罰一次事件,所有事件觸發完成后處理數據。

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

nodeJs爬蟲的技術點總結

nodeJs爬蟲的技術點總結:背景 最近打算把之前看過的nodeJs相關的內容在復習下,順便寫幾個爬蟲來打發無聊,在爬的過程中發現一些問題,記錄下以便備忘。 依賴 用到的是在網上爛大街的cheerio庫來處理爬取的內容,使用superagent處理請求,log4js來記錄日志。 日志配置 話不多說
推薦度:
標簽: 技術 爬蟲 總結
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 亚洲精品高清在线观看 | 亚洲欧美日韩综合精品网 | 国产成人综合一区精品 | 久久精品国产亚洲aa | 欧美亚洲欧美 | 在线观看色 | 国产最新在线视频 | 成人毛片国产a | 国产成人亚洲欧美三区综合 | 国产色综合久久无码有码 | 国产成人久久精品一区二区三区 | 99久久综合国产精品免费 | 伊人操 | 亚洲视频一区二区三区 | 国产精品视频久久久久久 | 欧美日韩第一页 | 亚洲国产第一页 | 日韩免费一区 | 精品在线观看国产 | 天天操天天曰 | 日韩欧美一区二区三区在线播放 | 精品国产一区二区三区免费看 | 中文在线第一页 | 国产一区二区免费视频 | 亚洲视频一区二区三区 | 久久亚洲国产成人影院 | 日本久久精品免视看国产成人 | 在线免费观看国产 | 欧美精品在线视频观看 | 国产精品一区二区午夜嘿嘿嘿小说 | 阿v精品一区二区三区 | 欧美精品亚洲精品日韩专区va | 午夜一级 | 不卡二区| 日韩欧美不卡一区二区三区 | 国产观看 | 欧美日韩1区 | 国产欧美日韩精品第二区 | va欧美国产在线视频 | 亚洲综合导航 | 中文国产成人精品久久96 |