您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页python爬虫实验

python爬虫实验

来源:华佗小知识

那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验。

后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的。。。

然后就开始了。。

第一个版本如下,后续不断改进直到满足需求:

import urllib2;
from sgmllib import SGMLParser;

class CatCh(SGMLParser):
   def reset(self):
      self.url=[]
      SGMLParser.reset(self)
   def  start_a(self,attrs):
      href = [v for k, v in attrs if k == 'href']
      if href:
         self.url.extend(href)

content = urllib2.urlopen("http://wooyun.org/").read()
catch=CatCh()
catch.feed(content)
for item in catch.url:
      print item

 

转载于:https://www.cnblogs.com/xiaoCon/p/3160657.html

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务