Python爬蟲:Windows系統下用pyquery庫解析含有中文的本地HTML檔案報UnicodeDecodeError的解決方法
由於Windows系統預設GBK編碼,用pyquery解析本地html檔案,如果檔案中有中文,會報錯:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequence
解決方法:
在python3中用open()函式讀檔案時,傳入引數'encoding=utf-8'(否則會使用系統預設的GBK編碼),再傳入pq()方法中進行初始化解析.相關程式碼如下:
from pyquery import PyQuery as pq
with open("filepath", encoding="utf-8") as f:
content = f.read()
doc = pq(content)
這樣後續的操作就沒問題了。
結論:以後在Windows環境下讀取編碼不確定的檔案,都可以採用這種方法,避免再次出現UnicodeDecodeError。
相關推薦
Python爬蟲:Windows系統下用pyquery庫解析含有中文的本地HTML檔案報UnicodeDecodeError的解決方法
由於Windows系統預設GBK編碼,用pyquery解析本地html檔案,如果檔案中有中文,會報錯: UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequenc
Python爬蟲:現學現用Xpath爬取豆瓣音樂
9.1 tree when href scrapy 發現 pat 直接 where 爬蟲的抓取方式有好幾種,正則表達式,Lxml(xpath)與Beautiful,我在網上查了一下資料,了解到三者之間的使用難度與性能 三種爬蟲方式的對比。 抓取方式 性能 使用難度
Jenkins 學習(1):Windows系統下安裝
一、jenkins是什麼? 還是小白,先放個連結:https://blog.csdn.net/ios_xumin/article/details/78125913 二、下載jenkins &nbs
windows系統下用Anaconda安裝pytorch
一、TUNA 還提供了 Anaconda 倉庫的映象,cmd中執行以下命令: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config
react-native系列(2)入門篇:Windows系統下配置Android開發環境
本文主要內容是在Window系統下配置Android APP的開發環境,配置過程將會有點麻煩,請大家需要有點耐心。當然大家也可以參考RN官網的配置過程,但實際上很多開發者根據官網步驟並沒能配置出完整的RN開發環境。目前RN的最新版本是0.57,我們將以這個版本為例配置Android的開發環境。
如何在windows系統下用串列埠通訊完爆raspberry pi(樹莓派)
相關文章 在沒有網路,沒用鍵盤,沒有顯示器的情況下,控制樹莓派就成了一個問題。 通過串列埠通訊果斷的試用了一次發現效果不錯,下面就和大家一起分享一下。 所需裝置: 1.raspberry pi 板子一塊 2.一張SD卡(至少2G我們採用8G) 3.一根
tensorflow版本的faster rcnn在windows系統下用cpu訓練
原始碼地址:https://github.com/endernewton/tf-faster-rcnn 首先在cpu下完成訓練就要把程式中用gpu的部分註釋掉,具體需要註釋的部分如下: (1)tf-faster-rcnn-master/lib/model/config.py路徑下USE_GP
在Windows系統下用pip安裝時,PremissionError錯誤解決辦法
當用pip install package_name 語句直接安裝時,出現如下報錯: C:\Users\wangz>pip install pygame Collecting pygame Using cached pygame-1.9.3-cp36-cp36m-
新手入門:windows系統下wbe專案遷移至Linux系統下亂碼問題
第一種亂碼:控制檯顯示亂碼(console) 控制檯亂碼解決步驟: (1)登陸linux系統開啟操作終端之後,輸入 echo $LANG可以檢視當前使用的系統語言 則說明目前顯示的是英文語言。 (2) 安裝 yum groupinstall chinese-suppo
摘:Windows系統內存計數器理解解析_備忘錄_51Testing軟件測試網...
執行 imu pac total 列表 大數 疑問 清空 man 【原創】Windows系統內存計數器理解解析 2008-05-13 11:42:23 / 個人分類:性能測試 說明:本文的計數器以Windows2003為準。 序言;F9n)\%V1a6Z C)?
.NET Core SDK在Windows系統安裝後出現Failed to load the hostfxr.dll等問題的解決方法
這次無論如何也要記錄下,原因是今天在一臺Windows2008R2的電腦上安裝.NET Core SDK後再命令列執行dotnet --info 居然爆出了“Failed to load the hostfxr.dll”的問題,之前也遇到過,但是解決了,卻沒有做記錄,害的這裡又google了一把!所以寫篇文章
windows系統安裝軟體時使用者目錄含有中文時安裝失敗以及解決方案
問題描述: windwos登入賬戶名中是含有中文時,系統會在c盤“使用者”資料夾下建立以賬戶名為名稱的資料夾。某些工具軟體儘管在安裝的時候可以選擇安裝目錄,但是有些安裝資訊不能讓使用者選擇安裝在哪裡,而是系統預設安裝到“賬戶名”目錄下,所以無論怎麼安裝軟體,均
Python爬蟲之爬取知乎帖子並儲存到mysql(以及遇到問題和解決方法)
爬取問題標題並儲存到資料庫: 程式碼: # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co
轉:在VS中建立類庫了以後生成的DLL檔案帶有註釋的方法
剛剛在做專案的時候自己建立一個"類庫",寫了幾個方法,都加上了///註釋,但是生成DLL後在另一個WEB專案中應用,發現寫的註釋都沒有了,上網查 了下具體的原因,原來在生成DLL的同時沒有生成相應的XML檔案,而註釋是放在XML檔案中的,生成XML的方法如
[Python爬蟲] 在Windows下安裝PhantomJS和CasperJS及入門介紹(上)
支持 包括 load node webpage 函數 cas examples ctr 最近在使用Python爬取網頁內容時,總是遇到JS臨時加載、動態獲取網頁信息的困難。例如爬取CSDN下載資源評論、搜狐圖片中的“原圖”等,此時嘗試學習Phantomjs和
Windows系統下Python環境的搭建
系統環境 ava rsquo ... sta chang 自定義 默認 python安裝 一、下載Python安裝包 Python官網:地址 下載在Pthon安裝包,目前Python 2.x最新版本Python 2.7.14,Python 2.x最新版本Python 3.
Windows系統下如何安裝Python以及對應pygame
windows系統下如何安裝python最近,準備學習Python這門編程語言。與其他語言一致,開始就要安裝好編譯環境和一些必須的工具。下面是我在初次安裝Python環境時的一些經驗和體會。一, 準備好軟件資源1, 下載Python文件https://www.python.org/downloads/ 選擇適
Windows系統下Eclipse上搭建Python開發環境
acl ora .com sdn down win ava ecp http 參考網站: https://blog.csdn.net/zhangphil/article/details/78962159 1、先安裝JDK ,參考網站:https://www.cnblog
[Python]Windows系統下安裝Pillow模塊
targe imp mage gin 其它 pill 模塊 block ocs Pillow模塊提供了豐富的圖像處理功能,並且很多其它模塊使用到該模塊。 安裝Pillow模塊。使用以下命令: pip install Pillow 2. 使用舉例 #導入Image
Learing-Python【0】:Windows環境下Python2和Python3的安裝
一行 str rip 打開 spa ont exe 分享圖片 tps 一、下載 可以在官網下載最新版本, 也可以在以下鏈接中找想安裝的版本下載下來,這裏以Python3.6和Python2.7為例 https://www.python.org/ftp/python/