首页 >> 大全

使用网络爬虫爬取新浪二手房网站中的西安二手房信息

2023-11-21 大全 38 作者:考证青年

初步学会了使用爬虫来抓取一些简单的数据,学习了《网络数据采集》后,对使用采集动态加载页面有了一些初步认识。

通过抓取新浪二手房网站,对使用采集动态加载页面进行初步学习。

实现思想为:

从西安二手房主页面开始,通过将鼠标放置于一级区域上,加载出二级区域后,采集二级区域的url信息存储至url管理器。此处需要使用模块进行采集。

西安二手网站_西安二手房app推荐_

#获取小区域链接
def get_urls(baseurl,areas):urls=set()browser=webdriver.Firefox()browser.get(baseurl)for area in areas:right=browser.find_element_by_xpath("//a[@data-param='"+str(area['data-param'])+"']")ActionChains(browser).move_to_element(right).performhtml1=browser.page_sources_soup=BeautifulSoup(html1,'html.parser')s_area=s_soup.find_all('a',href=re.compile(r'b\d{1,2}-'+area['data-param']))for s in s_area:url=s['href']urls.add(url)browser.quit()return urls 

这里写图片描述

将所有的二级url采集存储完成后,逐个解析每个url页面,采集每个页面上的数据,

_西安二手网站_西安二手房app推荐

这里写图片描述

最后使用excel存储采集的数据。

代码实现如下:

#coding=UTF-8
import urllib2
from bs4 import BeautifulSoup
import re
from selenium import webdriver 
from selenium.webdriver.common.action_chains import ActionChains 
import xlwt    #下载网页   
def download(url):if url is None:return Nonetry:request=urllib2.Request(url)request.add_header('User-Agent','Mozilla/5.0' )response=urllib2.urlopen(request)except urllib2.URLError,e:if 

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了