首页 >> 大全

【python】爬取酷狗音乐Top500排行榜【附源码】

2023-12-26 大全 28 作者:考证青年

一、导入必要的模块:

这篇博客将介绍如何使用编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。

如果出现模块报错

进入控制台输入:建议使用国内镜像源

pip install requests -i https://mirrors.aliyun.com/pypi/simple

我大致罗列了以下几种国内镜像源:

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple阿里云
https://mirrors.aliyun.com/pypi/simple/豆瓣
https://pypi.douban.com/simple/ 百度云
https://mirror.baidu.com/pypi/simple/中科大
https://pypi.mirrors.ustc.edu.cn/simple/华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

二、发送GET请求获取响应数据:

设置了请求头部信息,以模拟浏览器的请求,函数返回响应数据的JSON格式内容。

def get_html(url):header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}response = requests.get(url=url, headers=header)# print(response.json())html = response.json()return html

如何获取请求头: 火狐浏览器: 打开目标网页并右键点击页面空白处。选择“检查元素”选项,或按下快捷键Ctrl + Shift + C()在开发者工具窗口中,切换到“网络”选项卡。刷新页面以捕获所有的网络请求。在请求列表中选择您感兴趣的请求。在右侧的“请求标头”或“ ”部分,即可找到请求头信息。

将以下请求头信息复制出来即可

酷狗飙升榜_酷狗音乐__爬取酷狗音乐排行榜

三、爬取酷狗排行榜

从酷狗音乐排行榜中提取歌曲的排名、歌名、歌手和时长等信息

具体步骤如下:

导入需要的模块:用于发送HTTP请求,用于解析HTML,time用于控制爬虫的速度。

设置请求头部信息:通过字典设置了User-Agent,模拟浏览器发送请求,防止被网站封禁。

定义函数(url):该函数接收一个URL参数,用于爬取指定网页的信息。

发送网络请求并解析HTML:使用.get()函数发送GET请求获取网页的HTML内容,并使用模块解析HTML。

通过CSS选择器定位需要的信息:使用()方法根据CSS选择器定位到歌曲的排名、歌名和时长等元素。

循环遍历每个信息并存储到字典中:使用zip()函数将排名、歌名和时长等元素打包成一个迭代器,然后通过循环遍历,将每个信息存储到data字典中。

打印获取到的信息:使用print()函数打印data字典中的信息。

主程序入口:使用if == '':判断当前文件是否被直接执行,如果是则执行以下代码。

构造要爬取的页面地址列表:使用列表推导式构造一个包含要爬取的页面地址的列表。

调用函数获取页面信息:使用for循环遍历页面地址列表,并调用()函数获取每个页面的信息。

控制爬虫速度:使用time.sleep()函数控制爬虫的速度,防止过快被封IP。

源码:

import requests  # 发送网络请求,获取 HTML 等信息
from bs4 import BeautifulSoup  # 解析 HTML 信息,提取需要的信息
import time  # 控制爬虫速度,防止过快被封IPheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"# 添加浏览器头部信息,模拟请求
}def get_info(url):# 参数 url :要爬取的网页地址web_data = requests.get(url, headers=headers)  # 发送网络请求,获取 HTML 等信息soup = BeautifulSoup(web_data.text, 'lxml')  # 解析 HTML 信息,提取需要的信息# 通过 CSS 选择器定位到需要的信息ranks = soup.select('span.pc_temp_num')titles = soup.select('div.pc_temp_songlist > ul > li > a')times = soup.select('span.pc_temp_tips_r > span')# for 循环遍历每个信息,并将其存储到字典中for rank, title, time in zip(ranks, titles, times):data = {"rank": rank.get_text().strip(),  # 歌曲排名"singer": title.get_text().replace("\n", "").replace("\t", "").split('-')[1],  # 歌手名"song": title.get_text().replace("\n", "").replace("\t", "").split('-')[0],  # 歌曲名"time": time.get_text().strip()  # 歌曲时长}print(data)  # 打印获取到的信息if __name__ == '__main__':urls = ["https://www.kugou.com/yy/rank/home/{}-8888.html".format(str(i)) for i in range(1, 24)]# 构造要爬取的页面地址列表for url in urls:get_info(url)  # 调用函数,获取页面信息time.sleep(1)  # 控制爬虫速度,防止过快被封IP

效果图:

给大家推荐一个网站

IT今日热榜 一站式资讯平台

里面包含了上百个IT网站,欢迎大家访问:IT今日热榜 一站式资讯平台

,打开信息的新时代。作为一家创新的IT数字媒体平台,致力于为用户提供最新、最全面的IT资讯和内容。里面包含了技术资讯、IT社区、面试求职、前沿科技等诸多内容。我们的团队由一群热爱创作的开发者和分享的专业编程知识爱好者组成,他们精选并整理出真实可信的信息,确保您获得独特、有价值的阅读体验。随时随地,尽在,与世界保持连接,开启您的信息新旅程!

IT今日热榜 一站式资讯平台IT今日热榜汇聚各类IT热榜:虎嗅、知乎、36氪、京东图书销售、晚点、全天候科技、极客公园、、掘金、CSDN、哔哩哔哩、51CTO、博客园、、开发者头条、思否、、人人都是产品经理、牛客网、看准、拉勾、Boss直聘#/

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了