网站菜单 |
日记 - 爬虫
base_link='http://img.ivsky.com' 66 msg_re=re.compile(r'arctitle=.*((.*?)张 .*?imgURL='(.*?)'.*?aid='(.* 67 num,url,name=msg_re.findall(html)[0] 68 #print('num=%snurl=%snname=%s' % (num,url,name)) 69 num=int(num) 70 ⾸ ⻚ link=base_link+url博 客 研 修 院 V I P A P P 71 result.append((name,link)) 72 pos=link.rfind('.') 73 part1=link[:pos] 74 part2=link[pos:] 75 问 答 for i in range下 载 (1,num): 社 区 76 sign='-%03d' % i 77 new_name = str(int(name)+i) 推 荐 78频 道 new_link = part1+sign+part2 79 result.append((new_name,new_link)) 80 #print(result) 81 return result 82 活 动 招 聘 专 题 活 动 招 聘 专 题 83 84 打 开 A P P 85 def main2(): 86 web='http://www.ivsky.com/tupian/'打 开 C S D N A P P 87 html=openURL(web) 88 for link,title in filterHTML(html): #link_re.findall(html): 89 #建 ⽴ ⽂ 件 夹 并 跳 转 C o p y r i g h t © 1 9 9 9 - 2 0 2 0 , C S D N . N E T , A l l R i g h t s R e s e r v e d 90 print(title) 91 path=os.path.join(base_path,title) 92 ![]() ![]() 评论: (1) |