日记 - 爬虫

网站菜单

日记 - 爬虫

日记 | pulana | 爬虫

作者:

pulana (

2023/08/28 10:11)

阅读量: 15

我找到一个爬虫的代码，不知道行不行，有哪位大神试一下
1 import urllib.request 登录后复制
2 import os
3 import re
4
5 base_path='PicDownload'
6 if not os.path.isdir(base_path):
7 os.makedirs(base_path)
8
9 #提取⼦⻚⾯链接及⼦⻚⾯名称
10 def filterHTML(html):
11 result=[]
12 base_link='http://www.ivsky.com'
13 link_re = re.compile(r'class="il_img"><a href="(.*?)" title="(.*?)"')
14 for link,title in link_re.findall(html):
15 link=base_link+link
16 result.append((link,title))
热⻔ 17频道 return result
18
19 #在⼦⻚⾯提取图⽚地址
20 def search_pic(html):
21 base_link='http://img.ivsky.com'
22 ⾸⻚ pic_re=re.compile博客 (r"var imgURL='(.*?)'.*aid='(.*?)'"研修院 V I P ) A P P
23 url,name=pic_re.findall(html)[0]
24 pic_url=base_link+url
25 print("pic_url:",pic_url)
26 name=name+'.jpg'
27 print("pic_name:",name)
28 问答 return (pic_url,name)下载社区
29
推荐 30频道打开 A P P ⼩程序看全⽂
31 #打开⽹⻚
按 32键精灵 def爬⾍ openURL命令 p (y webt h o ):n 爬⾍
33 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/
34写评论 req=urllib.request.Request(url=web,headers=headers)
评论 1 点赞踩分享
活动招聘专题
活动招聘专题
35 data=urllib.request.urlopen(req) 36 return data.read().decode('UTF

1 2 3 4 >

« 上一页 (第3699页共5165页) 下一页 »

(0)

评论: (1)

laoliu (2023/08/28 14:23)
不敢

日记 | pulana | 爬虫