Eric Lo 於他的blog 發表了一篇文章「抓取網頁的最佳語言 : Python

基本流程 是 先抓取網頁    (urllib, urllib2 or Twisted)

urllib2 - The Missing Manual - HOWTO Fetch Internet Resources with Python

 

parse它 (BeautifulSoup or lxml)

 

配合FireFox的工具

如果有一些工具可以幫助寫解析網頁的程式該有多好,這也是我希望能有的,使用了xpath之後,我找到了FireFox的插件,XPath checker等xpath的工具,可以先用它來確定抓到的元素是正確的,然後FireBug在檢視網頁結構上也有很大的幫助

FireFox插件XPath checker畫面

創作者介紹
創作者 kendoit 的頭像
kendoit

kendoit

kendoit 發表在 痞客邦 留言(0) 人氣( 23 )