国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

js逆向解密之網絡爬蟲

來源:懂視網 責編:小采 時間:2020-11-27 21:56:02
文檔

js逆向解密之網絡爬蟲

js逆向解密之網絡爬蟲:1 引言 數月前寫過某網站(請原諒我的掩耳盜鈴)的爬蟲,這兩天需要重新采集一次,用的是scrapy-redis框架,本以為二次爬取可以輕松完成的,可沒想到爬蟲啟動沒幾秒,出現了大堆的重試提示,心里頓時就咯噔一下,悠閑時光估計要結束了。 仔細分析后,發現是
推薦度:
導讀js逆向解密之網絡爬蟲:1 引言 數月前寫過某網站(請原諒我的掩耳盜鈴)的爬蟲,這兩天需要重新采集一次,用的是scrapy-redis框架,本以為二次爬取可以輕松完成的,可沒想到爬蟲啟動沒幾秒,出現了大堆的重試提示,心里頓時就咯噔一下,悠閑時光估計要結束了。 仔細分析后,發現是

1 引言

數月前寫過某網站(請原諒我的掩耳盜鈴)的爬蟲,這兩天需要重新采集一次,用的是scrapy-redis框架,本以為二次爬取可以輕松完成的,可沒想到爬蟲啟動沒幾秒,出現了大堆的重試提示,心里頓時就咯噔一下,悠閑時光估計要結束了。
仔細分析后,發現是獲取店鋪列表的請求出現問題,通過瀏覽器抓包,發現請求頭參數中相比之前多了一個X-Shard和x-uab參數,如下圖所示:

X-Shard倒是沒什么問題,一看就是興趣點的經緯度,但x-uab看過之后就讓人心里苦了,js加密啊,只能去逆向解密了。

2 js逆向求解

最直接的思路是根據“x-uab”關鍵字在所有關鍵中查找(chrome瀏覽器-source中按ctrl + shift + F快捷鍵),結果如下所示:

接下來,打個斷點調試一下:在數字那里點一下,數字位置出現藍點,表示添加斷點成功,然后刷新獲取店鋪列表的頁面,程序會在斷點處停下。如下所示:

在控制臺調試o.getUA()函數,看一下輸出:

果然是,證明猜測沒錯,就是這個o.getUA()函數負責生成請求頭中的x-uab參數。
繼續向下查看這個getUA()函數的引用(把光標放在要查看的函數上,就可以查看這個函數的引用),就是下圖這個函數:

圖中的s就是我們要的x-uab參數,下圖在控制臺輸出可以證明:

所以,u-xab是這里的e生成的,而函數e傳入的參數中,第一個是常量2,第二個參數a是undefined,呵,看起來沒有傳其它參數。繼續向下找這個e(2,a)函數:

就是這個function e(r, i, n, h, p) 方法,直接運行可以獲取加密后的參數。把這個function e(r, i, n, h, p) 方法全部代碼取出來,另存為一個js文件。

回到頂部

3 擼代碼

3.1 方案一

你以為上面找出生成x-uab的js代碼,就大功告成了嗎?少年,you are too young too simple!
怎么把這段js腳本運行起來,才是關(nan)鍵(dian)。
這個function e(r, i, n, h, p) 函數有近4萬行代碼,重新用Python實現難(jiu)度(shi)有(bu)點(ke)大(neng)。所以,我選擇直接用Python來執行這段js腳本。
怎么用python執行js腳本,度娘會給你一堆資料,自己查吧。我這里選擇的是execjs。
因為在上面復制出來的腳本中,只單單定義了一個e(r, i, n, h, p)方法,并沒有調用這個方法,所以,我要要在js文件的末尾添加一些代碼來調用:

function getParam() {
 var a;
 var param = e(2,a);
 return param
};

然后,開始擼Python代碼吧:

import execjs
 
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

嘗試執行,心涼,代碼異常:

execjs._exceptions.ProgramError: TypeError: 'window' 未定義

window對象估計是瀏覽器打開是創建的,蘊含瀏覽器的信息,所以用Python來執行這段代碼時,沒有這個對西鄉。本來想嘗試偽造window對象,但查找之后發現js腳本中上百個地方用到window,這還沒完,代碼經過混淆,在下水平不夠,沒法追根溯源(這地方困擾了我許久,哪位前輩如果知道方法,請告知)。
后來,從一個前輩那里(感謝前輩)獲知一個方法繞過去。這個前輩的方法是將execjs的引擎換成PhantomJS這個無頭瀏覽器(之前用的引擎是node.js),換句話說就是用PhantomJS來執行js腳本,PhantomJS是一個瀏覽器,自然就會創建window對象。

使用PhantomJS之前,需要下載它的驅動,然后放下Python代碼統一目錄下。對之前的Python代碼也進行修改:

import execjs
 
import os
os.environ["EXECJS_RUNTIME"] = "PhantomJS"
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

果然,按照這個方法,成功獲取加密字符串。

3.2 方案二

事實上,這個方案二才是我在出現未定義window對象異常后首先嘗試的方法,不過因為往js代碼中添加的js腳本有問題,以為行不通,所以請教前輩,得到了方案一。

方案二的思路和方案一類似,不過更加粗暴一些。不是因為沒在瀏覽器執行,造成沒有window對象嗎?那我就模擬瀏覽器來執行。

在執行之前,同樣要修改js腳本,在js文件末尾調用e方法,添加如下代碼:

var a;
var param = e(2,a);
return param;

切記:不要放在任何函數里面,我之前就是因為將這段代碼放在函數里頭強制執行,導致的結果就是在瀏覽器里可以獲取加密字符串,但是在Python中獲取到的卻是None。

模擬瀏覽器用的selenium和chrome的webDriver,代碼如下:

from selenium import webdriver
 
browser = webdriver.Chrome(executable_path='chromedriver.exe')
with open('eleme.js', 'r') as f:
 js = f.read()
print(browser.execute_script(js))

這個方法也是可以獲得加密之后的字符串。

最后,有必要說一下的是,如果需要獲取大量的x-uab,采用方案二效率會高一下,因為采用方案二的話,可以自打開一個瀏覽器(都調用一個webdriver對象),然后快速執行js,返回加密字符串。

4 總結

一次js逆向解密,算是完成了吧。但是也留下了一些問題:

(1)使用chrome斷點調試時,js腳本都是壓縮混淆之后的,通過chrome的pretty print功能(也就是說那對花括號)可以格式美化,但是,有的時候卻會失敗,就像下圖,格式化后,還是一團糟:

這個問題耽擱了我很長時間,沒法調試啊!

(2)在下js基礎不行,很困惑為什么運行時,先通過o.getUA()調用e函數內的嵌套函數,然后e函數內部嵌套函數中調用e方法本身,這是什么操作?函數調用不都應該先外層函數,然后再調用嵌套函數嗎?

(3)如果不適用瀏覽器執行js的方法,就只能替換window對象,這該如何操作?

(4)這個e函數有近4萬行,一個加密函數這么多代碼,我可不信,里面肯定很多事混淆視聽用的,但我嘗試調試追蹤過,只能說混淆之后讓我無從追蹤,頭暈。怎么才能簡化這段腳本呢?

如果哪位前輩可以解惑,請一定告知,不勝感激!拜謝!

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

js逆向解密之網絡爬蟲

js逆向解密之網絡爬蟲:1 引言 數月前寫過某網站(請原諒我的掩耳盜鈴)的爬蟲,這兩天需要重新采集一次,用的是scrapy-redis框架,本以為二次爬取可以輕松完成的,可沒想到爬蟲啟動沒幾秒,出現了大堆的重試提示,心里頓時就咯噔一下,悠閑時光估計要結束了。 仔細分析后,發現是
推薦度:
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 久久国产午夜一区二区福利 | 特级全黄一级毛片视频 | 91福利一区二区 | 免费视频一区 | 国产成人久久精品二区三区牛 | 久久久久久久国产精品毛片 | 国产一区三区二区中文在线 | 成人免费久久精品国产片久久影院 | 欧美自拍亚洲 | 国产一区三区二区中文在线 | 国产精品日韩 | 免费一看一级毛片全播放 | 国产精品伦视频观看免费 | 国产精品系列在线观看 | 欧美日韩亚洲精品国产色 | 久久久国产精品视频 | 免费在线不卡视频 | 操日韩| 亚洲精彩视频在线观看 | 成人毛片在线观看 | 亚洲 欧美 手机 在线观看 | 欧美日韩亚洲一区二区三区在线观看 | 欧美爱爱动态图 | 国产456| 欧美精品aaa久久久影院 | 欧美日韩亚洲无线码在线观看 | 偷牌自拍 | 欧美在线免费看 | 国产欧美一区二区三区在线 | 国产一区二区三区毛片 | 欧美日视频 | 在线观看色 | 美国一级大黄大色毛片 | 亚洲国产视频网站 | 亚州色图欧美色图 | 天天躁夜夜躁狠狠躁躁88 | 国产精选免费视频 | 视频一区二区三区在线 | 欧美一区二区三区免费播放 | 国产精品成人一区二区 | 能看毛片的网站 |