日记 - 爬虫

网站菜单

日记 - 爬虫

日记 | pulana | 爬虫

作者:

pulana

(

2023/08/28 10:11)

阅读量: 15

base_link='http://img.ivsky.com'
66 msg_re=re.compile(r'arctitle=.*((.*?)张 .*?imgURL='(.*?)'.*?aid='(.*
67 num,url,name=msg_re.findall(html)[0]
68 #print('num=%snurl=%snname=%s' % (num,url,name))
69 num=int(num)
70 ⾸⻚ link=base_link+url博客研修院 V I P A P P
71 result.append((name,link))
72 pos=link.rfind('.')
73 part1=link[:pos]
74 part2=link[pos:]
75 问答 for i in range下载 (1,num): 社区
76 sign='-%03d' % i
77 new_name = str(int(name)+i)
推荐 78频道 new_link = part1+sign+part2
79 result.append((new_name,new_link))
80 #print(result)
81 return result
82
活动招聘专题
活动招聘专题
83
84 打开 A P P
85 def main2():
86 web='http://www.ivsky.com/tupian/'打开 C S D N A P P
87 html=openURL(web)
88 for link,title in filterHTML(html): #link_re.findall(html):
89 #建⽴⽂件夹并跳转
C o p y r i g h t © 1 9 9 9 - 2 0 2 0 , C S D N . N E T , A l l R i g h t s R e s e r v e d
90 print(title)
91 path=os.path.join(base_path,title)
92

< 1 2 3 4 >

« 上一页 (第3700页共5166页) 下一页 »

(0)

评论: (1)

laoliu (2023/08/28 14:23)
不敢

日记 | pulana | 爬虫