python某鱼主播粉丝的爬取

2023-11-05 大全 25 作者：考证青年

某鱼主播粉丝的爬取

找到粉丝数据是如何传过来的

随机找一个主播的直播间打开，本人使用的是控制台，定位粉丝html的标签位置。但这里定位后会发现页面展示的数据和html中展示的数据是不对的。这个时候能想到的是该数据应该是做了字体反爬。

再细心点会发现它标签中用到的属性style，后面跟上的字符传应该是调用对应字体库的链接中的某个参数。

找到调用的字体库

把第一步上字体库的url参数通过全局搜索，会发现它存在于一个长链接中，再细看长链接，有两个参数cfdc和ci这两个参数，其中cfdc对应的数据是粉丝数量需要经过字体库的映射一下关系，则是对应才是正确的粉丝数量，ci这个参数是对应的字体库的链接的参数

但是多刷新几次，会发现每次调用的字体库是不一样的，所以这里不能写死。要根据长链接返回的字体库参数拼接链接。才能获取到每次调用的字体库的链接。

解析字体库，找到对应关系

把每次获取到的字体库链接直接通过下载下来，保存为woff格式。然后转成lxml格式。打开lxml，很清楚的能看见里面对应的关系。然后通过解析lxml对数据进行解析，获取到对应的映射关系即可。

附上解析字体的代码：

import requests
from fontTools.ttLib import TTFont
from xml.dom.minidom import parseheaders = {'user_agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
}def get_number_dict(keyword):number_dict = {'zero': 0,'seven': 7,'three': 3,'four': 4,'eight': 8,'six': 6,'five': 5,'nine': 9,'one': 1,'two': 2,}dom = parse("lxml路径")# dom = parse("/Users/zhulang/Desktop/nanodata_crawling/apps/douyu/woff/%s.xml" % str(keyword))data = dom.documentElementstus = data.getElementsByTagName('GlyphID')font_dict = {}corr_number = [

tags: 粉丝

python某鱼主播粉丝的爬取

粉汤羊血怎么做好吃？教你诀窍，麻辣鲜香，吃完浑身冒汗

粉条的热量（粉条的热量高不高）

你们喜欢一个人穷游中国的李英文的原因是什么呢？

绿豆粉条（绿豆粉条的热量高吗）

鲍鱼的清洗方法（鲍鱼怎么去内脏图解）

绿豆粉条（绿豆粉条的功效与作用）

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

python某鱼主播粉丝的爬取

粉汤羊血怎么做好吃？教你诀窍，麻辣鲜香，吃完浑身冒汗

粉条的热量（粉条的热量高不高）

你们喜欢一个人穷游中国的李英文的原因是什么呢？

绿豆粉条（绿豆粉条的热量高吗）

鲍鱼的清洗方法（鲍鱼怎么去内脏图解）

绿豆粉条（绿豆粉条的功效与作用）

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡