温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python爬取豆瓣电影TOP250数据的代码怎么写

发布时间:2022-02-21 15:01:03 来源:亿速云 阅读:221 作者:iii 栏目:开发技术

今天小编给大家分享一下python爬取豆瓣电影TOP250数据的代码怎么写的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql import requests import re #获取资源并下载 def resp(listURL):     #连接数据库     conn = pymysql.connect(         host = '127.0.0.1',         port = 3306,         user = 'root',         password = '******',  #数据库密码请根据自身实际密码输入         database = 'pachong',          charset = 'utf8'     )     #创建数据库游标     cursor = conn.cursor()     #创建列表t_movieTOP250(执行sql语句)     cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 	auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 	,pictrue_address VARCHAR(100))')     try:         # 爬取数据         for urlPath in listURL:             # 获取网页源代码             response = requests.get(urlPath)             html = response.text             # 正则表达式             namePat = r'alt="(.*?)" src='             imgPat = r'src="https://atts.yisu.com/attachments/(.*?)" class='             # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))             res2 = re.compile(namePat)             res3 = re.compile(imgPat)             textList2 = res2.findall(html)             textList3 = res3.findall(html)             # 遍历列表中元素,并将数据存入数据库             for i in range(len(textList3)):                 cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 	VALUES("%s","%s")' % (textList2[i],textList3[i]))         #从游标中获取结果         cursor.fetchall()         #提交结果         conn.commit()         print("结果已提交")     except Exception as e:         #数据回滚         conn.rollback()         print("数据已回滚")     #关闭数据库     conn.close() #top250所有网页网址 def page(url):     urlList = []     for i in range(10):         num = str(25*i)         pagePat = r'?start=' + num + '&filter='         urL = url+pagePat         urlList.append(urL)     return urlList if __name__ == '__main__':     url = r"https://movie.douban.com/top250"     listURL = page(url)     resp(listURL)

以上就是“python爬取豆瓣电影TOP250数据的代码怎么写”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI