网站菜单
日记 - 爬虫
* 日记 | 普拉娜 | 爬虫
Avatar 作者: 普拉娜 ( 2023/08/28 10:11)
预览: 15
我找到一个爬虫的代码,不知道行不行,有哪位大神试一下
1 import urllib.request 登 录 后 复 制
2 import os
3 import re
4
5 base_path='PicDownload'
6 if not os.path.isdir(base_path):
7 os.makedirs(base_path)
8
9 #提 取 ⼦ ⻚ ⾯ 链 接 及 ⼦ ⻚ ⾯ 名 称
10 def filterHTML(html):
11 result=[]
12 base_link='http://www.ivsky.com'
13 link_re = re.compile(r'class="il_img"><a href="(.*?)" title="(.*?)"')
14 for link,title in link_re.findall(html):
15 link=base_link+link
16 result.append((link,title))
热 ⻔ 17频 道 return result
18
19 #在 ⼦ ⻚ ⾯ 提 取 图 ⽚ 地 址
20 def search_pic(html):
21 base_link='http://img.ivsky.com'
22 ⾸ ⻚ pic_re=re.compile博 客 (r"var imgURL='(.*?)'.*aid='(.*?)'"研 修 院 V I P ) A P P
23 url,name=pic_re.findall(html)[0]
24 pic_url=base_link+url
25 print("pic_url:",pic_url)
26 name=name+'.jpg'
27 print("pic_name:",name)
28 问 答 return (pic_url,name)下 载 社 区
29
推 荐 30频 道 打 开 A P P ⼩ 程 序 看 全 ⽂
31 #打 开 ⽹ ⻚
按 32键 精 灵 def爬 ⾍ openURL命 令 p (y webt h o ):n 爬 ⾍
33 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/
34写 评 论 req=urllib.request.Request(url=web,headers=headers)
评 论 1 点 赞 踩 分 享
活 动 招 聘 专 题
活 动 招 聘 专 题
35 data=urllib.request.urlopen(req) 36 return data.read().decode('UTF
1 2 3 4 >
« 上一页 (第2555页 共4026页) 下一页 »
* (0) *
评论: (1)
* 日记 | 普拉娜 | 爬虫
官方QQ群-310379632
© DCMS-Social