我們首先需要明確具體的需求:
可以通過node index 城市 職位
來爬取相關信息
也可以輸入node index start直接爬取我們預定義好的城市和職位數組,循環爬取不同城市的不同職位信息
將最終爬取的結果存儲在本地的./data
目錄下
生成對應的excel文件,并存儲到本地
fs: 用于對系統文件及目錄進行讀寫操作
async:流程控制
superagent:客戶端請求代理模塊
node-xlsx:將一定格式的文件導出為excel
新建項目目錄
在合適的磁盤目錄下創建項目目錄 node-crwl-lagou初始化項目
進入node-crwl-lagou文件夾下
執行npm init,初始化package.json文件
安裝依賴包
npm install async
npm install superagent
npm install node-xlsx
對于在命令行輸入的內容,可以用process.argv
來獲取,他會返回個數組,數組的每一項就是用戶輸入的內容。
區分node index 地域 職位
和node index start
兩種輸入,最簡單的就是判斷process.argv的長度,長度為四的話,就直接調用爬蟲主程序爬取數據,長度為三的話,我們就需要通過預定義的城市和職位數組來拼湊url了,然后利用async.mapSeries循環調用主程序。關于命令分析的主頁代碼如下:
if (process.argv.length === 4) { let args = process.argv console.log('準備開始請求' + args[2] + '的' + args[3] + '職位數據'); requsetCrwl.controlRequest(args[2], args[3]) } else if (process.argv.length === 3 && process.argv[2] === 'start') { let arr = [] for (let i = 0; i < defaultArgv.city.length; i++) { for (let j = 0; j < defaultArgv.position.length; j++) { let obj = {} obj.city = defaultArgv.city[i] obj.position = defaultArgv.position[j] arr.push(obj) } } async.mapSeries(arr, function (item, callback) { console.log('準備開始請求' + item.city + '的' + item.position + '職位數據'); requsetCrwl.controlRequest(item.city, item.position, callback) }, function (err) { if (err) throw err }) } else { console.log('請正確輸入要爬取的城市和職位,正確格式為:"node index 城市 關鍵詞" 或 "node index start" 例如:"node index 北京 php" 或"node index start"') }
預定義好的城市和職位數組如下:
{ "city": ["北京","上海","廣州","深圳","杭州","南京","成都","西安","武漢","重慶"], "position": ["前端","java","php","ios","android","c++","python",".NET"] }
接下來就是爬蟲主程序部分的分析了。
首先我們打開拉勾網首頁,輸入查詢信息(比如node),然后查看控制臺,找到相關的請求,如圖:
這個post請求https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false
就是我們所需要的,通過三個請求參數來獲取不同的數據,簡單的分析就可得知:參數first
是標注當前是否是第一頁,true為是,false為否;參數pn
是當前的頁碼;參數kd
是查詢輸入的內容。
首先需要明確得是,整個程序是異步的,我們需要用async.series來依次調用。
查看分析返回的response:
可以看到content.positionResult.totalCount就是我們所需要的總頁數
我們用superagent直接調用post請求,控制臺會提示如下信息:
{'success': False, 'msg': '您操作太頻繁,請稍后再訪問', 'clientIp': '122.xxx.xxx.xxx'}
這其實是反爬蟲策略之一,我們只需要給其添加一個請求頭即可,請求頭的獲取方式很簡單,如下:
然后在用superagent調用post請求,主要代碼如下:
// 先獲取總頁數 (cb) => { superagent .post(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=1`) .send({ 'pn': 1, 'kd': position, 'first': true }) .set(options.options) .end((err, res) => { if (err) throw err // console.log(res.text) let resObj = JSON.parse(res.text) if (resObj.success === true) { totalPage = resObj.content.positionResult.totalCount; cb(null, totalPage); } else { console.log(`獲取數據失敗:${res.text}}`) } }) },
拿到總頁數后,我們就可以通過總頁數/15
獲取到pn參數,循環生成所有url并存入urls中:
(cb) => { for (let i=0;Math.ceil(i<totalPage/15);i++) { urls.push(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=${i}`) } console.log(`${city}的${position}職位共${totalPage}條數據,${urls.length}頁`); cb(null, urls); },
有了所有的url,在想爬到所有的數據就不是難事了,繼續用superagent的post方法循環請求所有的url,每一次獲取到數據后,在data目錄下創建json文件,將返回的數據寫入。這里看似簡單,但是有兩點需要注意:
為了防止并發請求太多而導致被封IP:循環url時候需要使用async.mapLimit方法控制并發為3, 每次請求完都要過兩秒在發送下一次的請求
在async.mapLimit的第四個參數中,需要通過判斷調用主函數的第三個參數是否存在來區分一下是那種命令輸入,因為對于node index start
這個命令,我們使用得是async.mapSeries,每次調用主函數都傳遞了(city, position, callback)
,所以如果是node index start
的話,需要在每次獲取數據完后將null傳遞回去,否則無法進行下一次循環
主要代碼如下:
// 控制并發為3 (cb) => { async.mapLimit(urls, 3, (url, callback) => { num++; let page = url.split('&')[3].split('=')[1]; superagent .post(url) .send({ 'pn': totalPage, 'kd': position, 'first': false }) .set(options.options) .end((err, res) => { if (err) throw err let resObj = JSON.parse(res.text) if (resObj.success === true) { console.log(`正在抓取第${page}頁,當前并發數量:${num}`); if (!fs.existsSync('./data')) { fs.mkdirSync('./data'); } // 將數據以.json格式儲存在data文件夾下 fs.writeFile(`./data/${city}_${position}_${page}.json`, res.text, (err) => { if (err) throw err; // 寫入數據完成后,兩秒后再發送下一次請求 setTimeout(() => { num--; console.log(`第${page}頁寫入成功`); callback(null, 'success'); }, 2000); }); } }) }, (err, result) => { if (err) throw err; // 這個arguments是調用controlRequest函數的參數,可以區分是那種爬取(循環還是單個) if (arguments[2]) { ok = 1; } cb(null, ok) }) }, () => { if (ok) { setTimeout(function () { console.log(`${city}的${position}數據請求完成`); indexCallback(null); }, 5000); } else { console.log(`${city}的${position}數據請求完成`); } // exportExcel.exportExcel() // 導出為excel }
導出的json文件如下:
將json文件導出為excel有多種方式,我使用的是node-xlsx
這個node包,這個包需要將數據按照固定的格式傳入,然后導出即可,所以我們首先做的就是先拼出其所需的數據格式:
function exportExcel() { let list = fs.readdirSync('./data') let dataArr = [] list.forEach((item, index) => { let path = `./data/${item}` let obj = fs.readFileSync(path, 'utf-8') let content = JSON.parse(obj).content.positionResult.result let arr = [['companyFullName', 'createTime', 'workYear', 'education', 'city', 'positionName', 'positionAdvantage', 'companyLabelList', 'salary']] content.forEach((contentItem) => { arr.push([contentItem.companyFullName, contentItem.phone, contentItem.workYear, contentItem.education, contentItem.city, contentItem.positionName, contentItem.positionAdvantage, contentItem.companyLabelList.join(','), contentItem.salary]) }) dataArr[index] = { data: arr, name: path.split('./data/')[1] // 名字不能包含 \ / ? * [ ] } }) // 數據格式 // var data = [ // { // name : 'sheet1', // data : [ // [ // 'ID', // 'Name', // 'Score' // ], // [ // '1', // 'Michael', // '99' // // ], // [ // '2', // 'Jordan', // '98' // ] // ] // }, // { // name : 'sheet2', // data : [ // [ // 'AA', // 'BB' // ], // [ // '23', // '24' // ] // ] // } // ] // 寫xlsx var buffer = xlsx.build(dataArr) fs.writeFile('./result.xlsx', buffer, function (err) { if (err) throw err; console.log('Write to xls has finished'); // 讀xlsx // var obj = xlsx.parse("./" + "resut.xls"); // console.log(JSON.stringify(obj)); } ); }
導出的excel文件如下,每一頁的數據都是一個sheet,比較清晰明了:
我們可以很清楚的從中看出目前西安.net的招聘情況,之后也可以考慮用更形象的圖表方式展示爬到的數據,應該會更加直觀!
其實整個爬蟲過程并不復雜,注意就是注意的小點很多,比如async的各個方法的使用以及導出設置header等,總之,也是收獲滿滿噠!
gitbug地址: https://github.com/fighting12...
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com