爬蟲爬取鏈家二手房資訊，對二手房做分析

阿新 • • 發佈：2019-02-15

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup
import requests

def generate_web_link(districts):
    '''此函式生成武漢地區所有區域二手房網頁連結地址'''
    page_urls = [] 
    base_url = 'https://wh.lianjia.com/ershoufang/{}'
    for district in districts:
        district_url = base_url.format(district)
        res = requests.get(district_url).content.decode('utf-8' 
)
        soup = BeautifulSoup(res,'lxml')
        totalpage = int(eval(soup.find('div',{'class':'page-box house-lst-page-box'})['page-data'])['totalPage'])#找出每個區域總共有多少頁
        #eval函式將字元轉化為表示式，find找出的內容是字串形式的字典'{"totalPage":100,"curPage":1}'
        for page in range(1,totalpage+1):
            page_url = district_url + '/pg{}' 
.format(page)
            page_urls.append((district,page_url))
    return page_urls

def house_info_spider(page_links):
    district_dicts = {'jiangan':'江岸','jianghan':'江漢','qiaokou':'礄口',
                    'dongxihu':'東西湖','wuchang':'武昌','qingshan':'青山',
                    'hongshan':'洪山','hanyang' 
: '漢陽','donghugaoxin':'東湖高新',
                    'jiangxia':'江夏'}
    infos = pd.DataFrame()
    for page_link in page_links:
        res = requests.get(page_link[1]).content.decode('utf-8')
        soup = BeautifulSoup(res,'lxml')
        house_infos = [i.text for i in soup.find_all('div',{'class':'houseInfo'})]
        floors = [i.text for i in soup.find_all('div',{'class':'positionInfo'})]
        total_prices = [i.text for i in soup.find_all('div',{'class':'totalPrice'})]
        unit_prices = [i.text for i in soup.find_all('div',{'class':'unitPrice'})]
        house_districts = [district_dicts[page_link[0]]]*len(house_infos)
        for house_info,floor,total_price,unit_price,district in zip(house_infos,floors,total_prices,unit_prices,house_districts):
            infos = infos.append([[house_info,floor,total_price,unit_price,district]])
    infos.columns = ['資訊','樓層','售價','單價','地區']
    return infos

#開始採集資料
if __name__ == '__main__':
    districts = ['jiangan','jianghan','qiaokou','dongxihu','wuchang','qingshan',
                 'hongshan','hanyang','donghugaoxin','jiangxia']
    page_links = generate_web_link(districts)
    house_datas = house_info_spider(page_links)

house_datas = house_datas.reset_index(drop=True)
house_datas.to_csv('lianjia_house.csv',index=False)#資料儲存到電腦

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

爬蟲爬取鏈家二手房資訊，對二手房做分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from bs4 import BeautifulSoup import requests def genera

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

python3爬蟲抓取鏈家上海租房資訊

環境：win10，anaconda3（python3.5）方法一：利用requests獲取網頁資訊，再利用正則提取資料，並將結果儲存到csv檔案。程式碼地址：程式碼抓取到的資料如下所示：從左往右依次是：房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區

一、如何爬取鏈家網頁房源資訊

由於個人安裝的Python版本是2.7的，因此此後的相關程式碼也是該版本。爬取網頁所有資訊利用urllib2包來抓取網頁的資訊，先介紹下urllib2包的urlopen函式。 urlopen：將網頁所有資訊存到一個object裡，我們可通過讀取這個o

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

43.scrapy爬取鏈家網站二手房資訊-1

首先分析：目的：採集鏈家網站二手房資料1.先分析一下二手房主介面資訊，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套，但是頁面只給返回100頁的資料，每頁30條資料，也就是隻給返回3000條資料。

44.scrapy爬取鏈家網站二手房資訊-2

全面採集二手房資料：網站二手房總資料量為27650條，但有的引數欄位會出現一些問題，因為只給返回100頁資料，具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數，一些存在問題也沒做細化處理，大致的採集資料量為21096，實際19794條。看一下執行完成結果： {'d

scrapy實戰(一)-------------爬取鏈家網的二手房資訊

主要是通過scrapy爬取二手房相關資訊，只關心ershoufang相關連結，原始碼地址: 程式碼更新： 1.增加了爬取已成交房產的資訊，用於做為目標樣本來預測未成交房屋的價格。 2.資料通過pip

43.scrapy爬取鏈家網站二手房信息-1

response ons tro 問題 import xtra dom nts class 首先分析：目的：采集鏈家網站二手房數據1.先分析一下二手房主界面信息，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示

分享爬取鏈家地圖找房房價資料的小爬蟲

一、說在前面受人所託，爬取鏈家上地圖找房的資料：https://bj.lianjia.com/ditu/。上面有按區域劃分的二手房均價和在售套數，我們的任務就是抓下這些資料。二、開幹 2.1失敗一次老樣子，Chrome 按下F12開啟Chrome DevTo

爬取鏈家杭州二手房3000套

匯入包 import requests import lxml.html import csv 獲取目標網頁Url lianjiaUrl='https://hz.lianjia.com/ershoufang/pg{}/' 解析Url def g

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

發現請求頭資訊如下，這個是後面要模擬的： Host: m.lianjia.com User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

使用Java及jsoup爬取鏈家北京二手房房價資料

由於是初次使用Java寫爬蟲，所以程式碼有些繁瑣，請大家見諒，並能給與指正首先分析鏈家北京二手房頁面，使用360瀏覽器的審查元素功能，檢視原始碼，獲取查詢標籤如圖一級查詢所示，此圖標籤所獲取的是鏈家北京二手房頁面下的一級地區地址由於具體獲取有些複雜，故列大致步驟如下主頁——》

爬蟲爬取鏈家二手房資訊，對二手房做分析

相關推薦