新闻动态

Python爬取英雄联盟MSI直播间弹幕并生成词云图

发布日期:2022-03-28 08:22 | 文章来源:源码之家

一、环境准备

安装相关第三方库

pip install jieba
pip install wordcloud

二、数据准备

爬取对象:2021年5月23号,RNG夺冠直播间的弹幕信息

爬取对象路径:

方式1、根据开发者工具(F12),获取请求url、请求头、cookie等信息;
方式2:根据直播地址url,前+字符i

我们这里演示的是,采用方式2。

三、代码如下

import requests, re
import jieba, wordcloud
"""
# 以下是练习代码
def get_f12_barrage(url, headers, file_path):
 
 #通过f12中的,请求地址,获取弹幕数据
 #:param url:  通过弹幕地址(通过开发者工具,从请求数据中获取的)
 #:param headers:请求头信息
 #:param file_path:  响应数据存储路径
 #:return: 无返回数据
 
 # 1、发送请求,接受响应数据
 response = requests.get(url=url, headers=headers)
 # 2、获取响应数据
 # 返回的响应可能是乱码的,需要先转成响应的编码格式
 # apparent_encoding的作用:会从网页的内容中分析网页编码的方式
 response.encoding = response.apparent_encoding
 # 3、解析响应数据
 content = response.text
 content_list = re.findall(":(.*?)@", content)
 # 4、存储响应数据, ”w+格式“,即文件存在则,先清空再写,不存在则新建文件
 with open(file_path, mode="w+", encoding="utf-8") as fp:
  for line in content_list:
# 分析每一行,发现第一个字符元素不是想要的,先去除第一个字符
fp.write(line[1:] + "\n")
 return file_path
"""
# ******************8********************执行代码如下******************************************
# 算法:先爬取数据,再根据爬取的数据,生成词云图
def get_barrage(url, headers, file_path):
 """
 通过请求网页前面+i的弹幕地址,获取弹幕数据
 :param url:  通过弹幕地址(网址前面+i)
 :param headers:请求头信息
 :param file_path:  响应数据存储路径
 :return: 无返回数据
 """
 # 1、发送请求,接受响应数据
 response = requests.get(url=url, headers=headers)
 # 2、获取响应数据
 # 返回的响应可能是乱码的,需要先转成响应的编码格式
 # apparent_encoding的作用:会从网页的内容中分析网页编码的方式
 response.encoding = response.apparent_encoding
 # 3、解析响应数据
 # 此时response.text可能是乱码的
 content = response.text
 # 正则匹配响应数据,取数目标是(.*?)中的数据
 content_list = re.findall("<d p=\".*?\">(.*?)</d>", content)
 # 4、存储响应数据, ”w+格式“,即文件存在则,先清空再写,不存在则新建文件
 with open(file_path, mode="w+", encoding="utf-8") as fp:
  for line in content_list:
fp.write(line + "\n")
 return file_path
# https://api.bilibili.com/x/v1/dm/list.so?oid=343174354
# https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23

def make_word_cloud(word_file_path):
 # 1、打开文件,默认是gbk格式打开,这里指定utf-8打开
 with open(word_file_path, encoding="utf-8") as fp:
  content = fp.read()# read方法返回的是一个字符串
 # 2、利用结巴,分割词,得到的是一个列表
 content_list = jieba.lcut(content)
 # 再用空格,拼接字符串
 content_str = " ".join(content_list)
 # 3、设置词云图
 wc_config = wordcloud.WordCloud(
  width=700,# 宽度
  height=500,  # 高度
  background_color='black',  # 背景色
  font_path='msyh.ttc',# 找字体的配置路径C:\Windows\Fonts\微软雅黑,然后双击(出现3个),选择【常规-属性】
  scale=15,# 颜色像素
  stopwords={'了', '的'},  # 词云图中过滤掉一些字眼
  contour_width=5,  # 轮廓宽度
  contour_color='red'  # 轮廓颜色
 )
 # 4、根据输入文字内容,形成一个词云图,并存储在指定路径
 wc_config.generate(content_str)
 wc_config.to_file("e:\\reg_cloud.png")
 return word_file_path
if __name__ == "__main__":
 """
 # 从开发者工具或者抓包工具中获取url地址
 f12_url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=343174354&date=2021-05-23'
 # 从开发者工具或者抓包工具中,获取请求头信息,主要包括cookie、user-agent
 header = {
  'cookie': 'bsource=search_baidu; _uuid=BBD44BE2-5DAA-A13A-A593-FD3A83C3929423721infoc; buvid3=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(um|u)klum~0J\'uYkkJJkJJu; fingerprint=be684c13c90e4279aaaa3e2694da4285; buvid_fp=18335C4D-A3A0-48D5-973A-7943D63AC73E34756infoc; buvid_fp_plain=96D5E0EF-41D9-4A32-BE47-DFF96C44DB9F155821infoc; SESSDATA=f90082f7%2C1637884658%2C008f9%2A51; bili_jct=2f17a04a5651fb1c6579b73aeb640f7f; DedeUserID=1153205015; DedeUserID__ckMd5=b6f334f0a2d86238; sid=6vb9j9nl; bfe_id=6f285c892d9d3c1f8f020adad8bed553',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
 }
 # 申明存储文件的路径
 f12_file_path = "e:\\RNG.txt"
 """

 # 请求路径,是网页前面+i
 url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=343174354'
 file_path = "e:\\RNG_1.txt"
 # 请求头中需要包含cookie 和 user-agent,这些信息都可以用f12获取到,注意有些字符需要转义
 # 为了个人信息安全,这里的cookIe加密显示
 header = {
  'cookie': '********',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
 }
 # 调用方法
 get_barrage(url=url, headers=header, file_path=file_path)
 word_file_path = get_barrage(url=url, headers=header, file_path=file_path)
 make_word_cloud(word_file_path)

四、词云图效果展示

到此这篇关于Python爬取英雄联盟MSI直播间弹幕并生成词云图的文章就介绍到这了,更多相关Python爬取弹幕并生成词云图内容请搜索本站以前的文章或继续浏览下面的相关文章希望大家以后多多支持本站!

美国服务器租用

版权声明:本站文章来源标注为YINGSOO的内容版权均为本站所有,欢迎引用、转载,请保持原文完整并注明来源及原文链接。禁止复制或仿造本网站,禁止在非www.yingsoo.com所属的服务器上建立镜像,否则将依法追究法律责任。本站部分内容来源于网友推荐、互联网收集整理而来,仅供学习参考,不代表本站立场,如有内容涉嫌侵权,请联系alex-e#qq.com处理。

相关文章

实时开通

自选配置、实时开通

免备案

全球线路精选!

全天候客户服务

7x24全年不间断在线

专属顾问服务

1对1客户咨询顾问

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部