博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
房天下爬虫
阅读量:5206 次
发布时间:2019-06-14

本文共 945 字,大约阅读时间需要 3 分钟。

1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 import requests 4 from bs4 import BeautifulSoup 5 import pandas 6 def gethousedetail(url): 7     info ={} 8     res = requests.get(url) 9     soup = BeautifulSoup(res.text,'html.parser')10     info['title']=soup.select('title')[0].text.strip()11     info['price']=soup.select('.zongjia1 .red20b')[0].text.strip()12     for dd in soup.select('dd'):13         if ':' in dd.text.strip():14             k,v = dd.text.strip().split(':')15             info[k]=v16     return info17 res = requests.get('http://esf.sh.fang.com/')18 domain = 'http://esf.sh.fang.com'19 soup = BeautifulSoup(res.text,'html.parser')20 houseary = []21 for house in soup.select('.houseList dl'):22     urls = domain + house.select('.title a')[0]['href']23     houseary.append(gethousedetail(urls))24 25 df =pandas.DataFrame(houseary)26 df.to_excel('house.xlsx',index=False)

 

转载于:https://www.cnblogs.com/Erick-L/p/6736070.html

你可能感兴趣的文章
【分享】Windows日志查看工具分享
查看>>
SQLAlchemy
查看>>
循环遍历渲染模块
查看>>
JQuery中$.ajax()方法参数详解
查看>>
(四)、 nodejs中Async详解之一:流程控制
查看>>
第八周作业
查看>>
9.21
查看>>
BBS论坛(十三)
查看>>
21天打造分布式爬虫-豆瓣电影和电影天堂实战(三)
查看>>
BZOJ 3884: 上帝与集合的正确用法 扩展欧拉定理 + 快速幂
查看>>
[POI2002][HAOI2007]反素数 数论 搜索 好题
查看>>
Ubuntu-server 下Apache2 配置.htaccess 隐藏thinkPHP项目index.php
查看>>
Microsoft 嵌套虚拟化技术(Nested Virtualization)
查看>>
目标检测标注工具labelImg安装及使用
查看>>
HDU1421:搬寝室(线性dp)
查看>>
Selenium-webdriver+八种元素定位
查看>>
Android开发: 关于性能需要考虑的
查看>>
Ubuntu下的UNITY和GNOME界面
查看>>
ALLEGRO同时旋转多元件
查看>>
数据库与表的创建及增删改查
查看>>