Python x Crawler ( 網路爬蟲 )
教您如何使用Python寫出您在大數據時代第一支網路爬蟲
難易度: 初階
課程總時數: 18 小時
課堂數: 6
開課日期: 2017-11-06
星期幾: ,
NTD 27,000

課程說明

你將會學到什麼

  1. 網路概論
  • URL
  • 網路資源
  • GET, POST
  1. 使用Request模組取資源
  2. 使用BeautifulSoup幫助分析
  3. 網頁進階介紹
  • JavaScript簡介
  • JavaScript基本語法
  1. Python進階爬蟲
  • 爬有JavaScript的網站

聽聽別人怎麼說

什麼是網路爬蟲

爬蟲是一個可以自動化抓取網頁內容的程式。
相信大家多少都遇過需要抓取網頁資訊的時候,也許是因為要做報告、或是出於興趣想研究,需要相關參考資料。最簡單的方法就是一筆一筆複製,然後貼到excel或是文編輯器儲存,再做後續的分析。

如果只有幾十筆還好,那假如有上百筆、上千筆怎麼辦?

重複的動作做個幾次,大致上就可以拆解出每個步驟:先進入到某個頁面、複製所需要的欄位資訊、貼入文字編輯器,接著不斷循環,直到所有頁面都被翻完,就大功告成啦。
是的,用講的都很輕鬆,一句話就結束了。

但如果實際下來做,在反覆機器式的複製貼上過程,到了某個境界後,只剩下眼球跟雙手飛快的動著,例行性的動作已經被肌肉記憶了,腦袋在喘息的空檔開始思考人生的意義(以及倒數還剩幾筆),相信每個經歷過的修行者都曾經想過:要是可以自動化該有多好?

沒錯~爬蟲就是使喚機器去做我們懶得去做的事情!歡迎來到這美好的世界。

課程目標

  1. 了解爬蟲的能力
  2. 了解爬蟲在法律上與道德的規範
  3. 實際嘗試一個簡單爬蟲
  4. 實際嘗試爬過擁有JavaScript的網站

適合對象

  1. 對Python有興趣者
  2. 對於在工作領域上想利用程式開發來自動化工作者
  3. 想開發應用程式或者網路後台者
  4. 想利用python在網路上爬下有價值資料者

課程內容

網頁基礎介紹

  • 網路概論

  • URL

  • 網路資源

  • GET, POST

  • 網路資源

  • HTML分析

  • CSS分析

Python簡易爬蟲

  • Request

  • 使用Request模組取資源

  • BeautifulSoup

  • 使用BeautifulSoup幫助分析

網頁進階介紹

  • JavaScript簡介
  • JavaScript基本語法

Python進階爬蟲

  • Selenium
  • 爬過有JavaScript的網站