Eric Lo 於他的blog 發表了一篇文章「抓取網頁的最佳語言 : Python」
基本流程 是 先抓取網頁 (urllib, urllib2 or Twisted)
urllib2 - The Missing Manual - HOWTO Fetch Internet Resources with Python
parse它 (BeautifulSoup or lxml)
配合FireFox的工具
如果有一些工具可以幫助寫解析網頁的程式該有多好,這也是我希望能有的,使用了xpath之後,我找到了FireFox的插件,XPath checker等xpath的工具,可以先用它來確定抓到的元素是正確的,然後FireBug在檢視網頁結構上也有很大的幫助

請先 登入 以發表留言。