2022年爬取拉勾网详情页面地址信息

2023-09-06 大全 27 作者：考证青年

，但就是没有对应的地址信息，但我们点开每个岗位信息可以看到，地址中唯一有变化的就是html前面的数字。

所以现在的问题是找到前面的数字存在了什么地方，直接搜索:

爬取页面数据_爬取拉钩网_

点开第一个，这里有个key值为,猜测可能所有岗位详情页面都有一个对应的，只要找到每一个对应的id就可以自己构造url，访问到详情页面。

拉勾网把具体网页地址的id放在了网页源代码底下的标签中，把他们复制出来，查看一下是是否是json数据：

果然是json形式的数据（如果直接在网页源代码中查看这部分数据，会发现到了最后面数据不全，json数据识别不出来，所以我是直接用让代码去拿去网页的数据，就可以看到全部的json数据）

测试代码如下：

import requests
from selenium import webdriver
import re
from lxml import etree
import jsonurl = "https://www.lagou.com/wn/jobs?pn=1&cl=false&fromSearch=true&kd=python"
url_temp = "https://www.lagou.com/wn/jobs/{}.html"
drivers = webdriver.Chrome()
drivers.get(url)
html_str = drivers.page_source
html = etree.HTML(html_str)
json_str = html.xpath("//script[@id='__NEXT_DATA__']/text()")[0]
json_dict = json.loads(json_str)
list = []
for i in range(15):  # 每次页面有15个岗位信息positionId = json_dict["props"]["pageProps"]["initData"]["content"]["positionResult"]["result"][i]["positionId"]print(url_temp.format(positionId))list.append(url_temp.format(positionId))
drivers.get(list[2])  # 测试一下构造的网页是否有效

最后测试了一下构造的网页是否有效，可以正常访问。

证明可以成功访问到！

tags: 网页详情构造对应底下

2022年爬取拉勾网详情页面地址信息

redux结合saga

优秀国外网页设计欣赏的200佳网站推荐（系列十二）

学习Ajax异步加载：爬今日头条

[C++] C++面向对象，看了它，你和本贾尼就只有一步之遥了

生成系列论文：基于diffusion的3d图像的生成：Novel View Sy

专家解释为什么说地球进入“震动模式” 全球这些地方最容易发生地震

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

2022年爬取拉勾网详情页面地址信息

redux结合saga

优秀国外网页设计欣赏的200佳网站推荐（系列十二）

学习Ajax异步加载：爬今日头条

[C++] C++面向对象，看了它，你和本贾尼就只有一步之遥了

生成系列论文：基于diffusion的3d图像的生成：Novel View Sy

专家解释为什么说地球进入“震动模式” 全球这些地方最容易发生地震

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡