网站菜单 |
日记 - 爬虫
我找到一个爬虫的代码,不知道行不行,有哪位大神试一下 1 import urllib.request 登 录 后 复 制 2 import os 3 import re 4 5 base_path='PicDownload' 6 if not os.path.isdir(base_path): 7 os.makedirs(base_path) 8 9 #提 取 ⼦ ⻚ ⾯ 链 接 及 ⼦ ⻚ ⾯ 名 称 10 def filterHTML(html): 11 result=[] 12 base_link='http://www.ivsky.com' 13 link_re = re.compile(r'class="il_img"><a href="(.*?)" title="(.*?)"') 14 for link,title in link_re.findall(html): 15 link=base_link+link 16 result.append((link,title)) 热 ⻔ 17频 道 return result 18 19 #在 ⼦ ⻚ ⾯ 提 取 图 ⽚ 地 址 20 def search_pic(html): 21 base_link='http://img.ivsky.com' 22 ⾸ ⻚ pic_re=re.compile博 客 (r"var imgURL='(.*?)'.*aid='(.*?)'"研 修 院 V I P ) A P P 23 url,name=pic_re.findall(html)[0] 24 pic_url=base_link+url 25 print("pic_url:",pic_url) 26 name=name+'.jpg' 27 print("pic_name:",name) 28 问 答 return (pic_url,name)下 载 社 区 29 推 荐 30频 道 打 开 A P P ⼩ 程 序 看 全 ⽂ 31 #打 开 ⽹ ⻚ 按 32键 精 灵 def爬 ⾍ openURL命 令 p (y webt h o ):n 爬 ⾍ 33 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/ 34写 评 论 req=urllib.request.Request(url=web,headers=headers) 评 论 1 点 赞 踩 分 享 活 动 招 聘 专 题 活 动 招 聘 专 题 35 data=urllib.request.urlopen(req) 36 return data.read().decode('UTF ![]() ![]() 评论: (1) |