【相關推薦】
給產品經理講技術|向前兼容、向后兼容
給產品經理講技術|產品經理應該這樣提需求之“狀態機”
給產品經理講技術|撩妹技術三部曲之“設計模式”
給產品經理講技術丨沒線,并不可怕?
給產品經理講技術丨提需求的正確姿勢是什么
還記得之前文章里說的要把所有文章整理成pdf的計劃嗎?今天我們準備邁出第一步了。
既然確定了用爬蟲來自動整理文章,你得先理解爬蟲是什么。爬蟲說白了就是一個腳本程序。說到腳本,我們平時遇到一些費時費力又容易出錯的活兒,都可以把用到的命令寫到腳本里,讓計算機自動來執行。測試同學說的自動化腳本,運維同學說的環境配置腳本,都是這個意思。一個腳本包含了很多命令,一個接一個,告訴計算機第一步干什么,之后干什么,最后干什么。
在這里,我們的目標很明確,就是寫一個爬蟲腳本,讓計算機一步一步的把「給產品經理講技術」的所有歷史文章,保存成pdf。
歷史文章哪里去找?正好,微信公眾號的關注界面有一個查看歷史消息的鏈接。
點開歷史消息,這個頁面每次顯示10篇文章,如果用戶滑到底,就會再加載10篇出來,典型的異步加載。我們要找的,就是每篇文章的URL地址。只要找到所有文章的URL,就能下載到每篇文章的內容和圖片,然后就可以進一步加工處理成pdf了。
為此,我們長按頁面選擇在瀏覽器中打開,然后把地址欄里的URL復制出來,發送到電腦上,用Chrome打開。用Chrome的最大好處,就是它有一個「開發人員工具」,可以直接查看網頁的源碼。按下command+option+L,打開開發人員工具,就能看到這個網頁的源碼了。我們要找的東西,就藏在這些亂七八糟的HTML代碼里。
如何從HTML源碼里找到我們想要的文章鏈接呢?
這要從HTML的結構說起。HTML全稱超文本標記語言,所謂標記,就是說是它通過很多標簽來描述一個網頁。你看到很多像以
扯遠了,一些常用的標簽:
1、
。一個網頁的很多重要信息,都是在這里聲明的。比如說標題,就是在下的