如果需要采集網站登錄后顯示的信息,可以嘗試獲取賬號登錄網站后的cookie值,填寫到簡數采集器登錄采集。
獲取與填寫cookie信息操作步驟如下:
獲取網站cookie的方式一般有以下兩種:
最簡單的方法是通過現代瀏覽器來獲取,以chrome為例:
1. F12或右鍵檢查進入開發者模式界面;
2. 點擊NetWork,F5重新加載頁面;
3. 選擇對應頁面名稱的html文件;
4. 獲取cookie;
通過fiddler工具抓取網站的cookie,相比較 “方式1通過瀏覽器獲取“ 會比較麻煩,如果需要查看具體操作步驟,請查看本文最后的補充內容。
把獲取的cookie信息拷貝到采集器中,再打開詳情提取器加載即可查看到之前隱藏的內容;
簡數采集器有兩處入口可填寫cookie:(填寫其中一處即可)
I、點擊 “啟動 | 定時采集 ” ,在網絡配置中填上相關信息;
II、詳情提起器左側列表的網絡配置:
注意:如果還是無法顯示登錄后的內容,請在 “Cookie域名” 處填上對應域名,不用加上http協議,例如:cistay.com
到此就完成采集網站登錄的數據信息。
還可以使用fiddler工具來進行抓取;(如果已經使用瀏覽器獲取cookie,可以跳過這一步,直接到第二步--獲取的cookie填寫入簡數)
fiddler是介于客戶端和服務器端的HTTP代理,也是常用的http抓包工具之一 。 它可以記錄下客戶端和服務器之間的所有HTTP請求,也可以針對指定的HTTP請求,進分析請求數據、設置斷點、修改請求的數據,甚至還可以修改服務器返回的數據,功能十分強大,是網站調試的得力助手。
fiddler官網下載: https://www.telerik.com/download/fiddler
下載安裝完成后,按照以下流程來操作:(本文章是基于Fiddler 4版本)
1. 右側顯示頁面中先選擇Inspectors欄;
2. 由于左側顯示頁面已有許多訪問網站的信息,我們接下先清空一下,方便接下來尋找指定的網頁;
可以用快捷鍵ctrl+x或者在左側顯示頁面右鍵Remove------>>all sessions;
3. 接下來登陸上需要抓取cookie的網站或者刷新已經登錄的網頁,就可以在左側顯示欄輕松找到網站的Host(網站域名)+ URL,以我這個
例子,選取的就是這一條,注意URL內容是斜杠 / 的那一條信息;
4. 右邊顯示欄選擇raw欄,這時能看到獲取的cookie了;
5. 為了獲取完整的cookie,我們點擊右側顯示欄中間的view in Notepad,即打開記事本來獲取完整的cookie;