用python寫網路爬蟲-爬取新浪微博評論

阿新 • • 發佈：2019-01-03

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。

分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼

單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾字元

本函式是用python寫網路爬蟲的終極目的，所以採用函式化方式編寫，方便後期優化和新增各種功能

# -*- coding:gbk -*-
import re
import requests
import json
from lxml import html
#測試微博4054483400791767
comments=[]

def 
 get_page(weibo_id):
    url='https://m.weibo.cn/status/{}'.format(weibo_id)
    html=requests.get(url).text
    regcount=r'"comments_count": (.*?),'
    comments_count=re.findall(regcount,html)[-1]
    comments_count_number=int(comments_count)
    page=int(comments_count_number/10)
    return page-1

def 
 opt_comment(comment):
    tree=html.fromstring(comment)
    strcom=tree.xpath('string(.)')
    reg1=r'回覆@.*?:'
    reg2=r'回覆@.*?:'
    reg3=r'//@.*'
    newstr=''
    comment1=re.subn(reg1,newstr,strcom)[0]
    comment2=re.subn(reg2,newstr,comment1)[0]
    comment3=re.subn(reg3,newstr,comment2)[0]
    return 
 comment3

def get_responses(id,page):
    url="https://m.weibo.cn/api/comments/show?id={}&page={}".format(id,page)
    response=requests.get(url)
    return response

def get_weibo_comments(response):
    json_response=json.loads(response.text)
    for i in range(0,len(json_response['data'])):
        comment=opt_comment(json_response['data'][i]['text'])
        comments.append(comment)


weibo_id=input("輸入微博id，自動返回前5頁評論：")
weibo_id=int(weibo_id)
print('\n')
page=get_page(weibo_id)
for page in range(1,page+1):
    response=get_responses(weibo_id,page)
    get_weibo_comments(response)

for com in comments:
    print(com)
print(len(comments))

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

爬蟲爬取新浪微博

這周的第一個小任務：爬取動態網頁，拿新浪微博做例子，我爬取了指定使用者微博的基本資訊，包括暱稱，性別，粉絲數，關注人數和主頁地址，還有發過的所有微博的地址和資訊內容，如果轉發時沒有說任何內容的話只會顯示轉發了微博。需要注意的是網頁版資訊量太大，用手機端的也就

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

1、獲取cookie，先進入微博頁面登陸微博，如進入https://m.weibo.cn/status/4173028302302955後登陸，再使用chrome的F12可方便地獲取自己的cookie，獲取Cookie所需的選擇項如下圖所示，往下拉會看到自己的Cookie。

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

python爬蟲爬取新浪新聞的評論數以及部分評論

首先應該去找到評論數所對應的網頁元素：可以大致猜測，這裡是用JavaScript·去計算評論數量的。重新整理頁面，去觀測頁面的js部分，有沒有對應的連結，仔細檢視：找到之後，點選Preview，看到內部結構：可以看出count部分，total代表了參與人數，show欄位代

Python爬取新浪微博用戶信息及內容

pro 目標 oss 來源但是 blog .com 交流 exc 新浪微博作為新時代火爆的新媒體社交平臺，擁有許多用戶行為及商戶數據，因此需要研究人員都想要得到新浪微博數據，But新浪微博數據量極大，獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Py

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

用python爬取新浪微博資料（無需手動獲取cookie)

從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabi

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

Python爬取新浪微信評論，瞭解一下

環境： Python3 + windows。開發工具：Anaconda + Jupyter / VS Code/pycharm/sublime等等都可以（你開心就好）學習效果：認識爬蟲 / Robots協議瞭解瀏覽器開發者工具動態載入頁面

關於爬取新浪微博，記憶體耗用過高的問題

最近在做網際網路輿情分析時，需要爬取新浪微博做相關實驗。雖然新浪微博開放了相關輿論的API，然而申請什麼的，並不想做，而且輿情變化快，最終還是自己爬取，相關輿情。在用selenium的時候，有時候經常發現記憶體耗

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

java 使用htmlunit模擬登入爬取新浪微博頁面

import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoy

python抓取新浪微博評論並分析

1，實現效果 2，資料庫 3，主要步驟 1，輸入賬號密碼，模擬新浪微博登陸 2，抓取評論頁的內容 3，用正則表示式過濾出使用者名稱，評論時間和評論內容 4，將得到的內容存入資料庫 5，用SQL語句實現其他功能：例如統計評論次數等 4，詳細步驟 # -*- codi

java爬取新浪微博帶有“展開全文”的完整微博文字

獲取新浪微博“展開全文”的完整文字在個人主頁的響應中，這篇微博的表示形式是這樣的： <div class=\"WB_text W_f14\" node-type=\"feed_list_content\" nick-name=\"Vista看天下\">\n

WebCollector教程——爬取新浪微博

下載本教程需要兩套jar包，WebCollector核心jar包和selenium的jar包。 selenium的maven依賴： <dependency> <groupId>org.seleniumhq.sele

爬取新浪微博使用者的個人資訊和微博內容

#-*- coding:utf-8 -*- """ 爬取新浪微博的使用者資訊功能：使用者ID 使用者名稱粉絲數關注數微博數微博內容網址：www.weibo.cn 資料量更少相對於 www.weibo.cn """ import time impo

用python寫網路爬蟲-爬取新浪微博評論

相關推薦