Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

阿新 • • 發佈：2020-06-07

1. 目標

通過hadoop hive或spark等資料計算框架完成資料清洗後的資料在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模組pyhdfs

版本:Python3.6,hadoop 2.9

讀檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs檔案路徑,根目錄/
for r in res:
 line=str(r,encoding='utf8')#open後是二進位制,str()轉換為字串並轉碼
 print(line)

寫檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop使用者擁有寫許可權
str='hello world'
client.create('/py.txt',str)#建立新檔案並寫入字串

上傳本地檔案到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
client.copy_from_local('d:/pydemo.txt','/pydemo')#本地檔案絕對路徑,HDFS目錄必須不存在

3. 讀取文字檔案寫入csv

Python安裝pandas模組

確認文字檔案的分隔符

# pyhdfs讀取文字檔案,分隔符為逗號,from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas呼叫讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#引數為原始檔,編碼,分隔符
# 資料集to_csv方法轉換為csv
df.to_csv('demo.csv',index=None)#引數為目標檔案,是否要索引

補充知識：記讀取hdfs 轉 pandas 再經由pandas轉為csv的一個坑

工作流程是這樣的：

讀取 hdfs 的 csv 檔案，採用的是 hdfs 客戶端提供的 read 方法，該方法返回一個生成器。

將讀取到的資料按逗號處理，變為一個二維陣列。

將二維陣列傳給 pandas，生成 df。

經若干處理後，將 df 轉為 csv 檔案並寫入hdfs。

問題是這樣的：

正常的資料：

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET

0,9.233,2.445,0.265,1.202,241,1,0

0,8.667,1.882,0.217,1.049,179,0

三行資料，正常走流程，沒有任何問題。

異常資料：

ZERO,IS_OUTNET,probability,prediction

0,'[0.9653901649086855,0.03460983509131456]',0.0

0,0.0

在每一行中都會有一個數組類似的資料，有一對引號包起來，中間存在逗號，不可以拆分。

為此，我的做法如下：

匹配逗號是被成對引號包圍的字串。

將匹配到的字串中的逗號替換為特定字元。

將替換後的新字串替換回原字串。

在將原字串中的特定字串替換為逗號。

本來這樣做沒有什麼問題，但是在經由pandas轉為csv的時候，發現原來帶引號的字串變為了前後各帶三個引號。

源資料：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

處理後的資料：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

方法如下：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

仔細研究對比了下資料，發現數據裡的引號其實只是在純文字檔案中用來標識其為字串，並不應該存在於實際資料中。

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

而我每次匹配後都是原封不動替換回去，譬如：

源資料：

"[0.9653901649086855,0.03460983509131456]"

匹配替換後：

"[0.9653901649086855${dot}0.03460983509131456]"

這樣傳給pandas，它就會認為這個資料是帶引號的，在重新轉為csv的時候，就會進行轉義等操作，導致多出很多引號。

所以解決辦法就是在替換之前，將匹配時遇到的引號也去掉：

PATTERN = '(?<=(?P<quote>[\'\"]))([^,]+,[^,]+)+?(?=(?P=quote))'

中間 ([^,]+)+? 要用+？，因為必須確定是有這樣的組合才可以，並且非貪婪模式，故不可？或者 *？

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

（ps：為了方便後面引用前面的匹配，我在環視匹配中建立了一個組）

再來個整體效果：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

為了說明效果，引用pandas的自帶讀取csv方法：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

可以看到pandas讀取出的該位置資料也是字串，引號正是作為一個字串宣告而存在。

再次修改正則：

def split_by_dot_escape_quote(string):
  """
  按逗號分隔字串，若其中有引號，將引號內容視為整體
  """
  # 匹配引號中的內容，非貪婪，採用正向肯定環視，
  # 當左引號（無論單雙引）被匹配到，放入組quote，
  # 中間的內容任意，但是要用+？，非貪婪，且至少有一次匹配到字元，
  # 若*？，則匹配0次也可，並不會匹配任意字元（環視只匹配位置不匹配字元），
  # 由於在任意字元後面又限定了前面匹配到的quote，故只會匹配到"，
  # +？則會限定前面必有字元被匹配，故""，或引號中任意值都可匹配到
  pattern = re.compile('(?=(?P<quote>[\'\"])).+?(?P=quote)')
  rs = re.finditer(pattern,string)
  for data in rs:
    # 匹配到的字串
    old_str = data.group()
    # 將匹配到的字串中的逗號替換為特定字元，
    # 以便還原到原字串進行替換
    new_str = old_str.replace(',','${dot}')
    # 由於匹配到的引號僅為字串申明，並不具有實際意義，
    # 需要把匹配時遇到的引號都去掉，只替換掉當前匹配組的引號
    new_str = re.sub(data.group('quote'),'',new_str)
    string = string.replace(old_str,new_str)
  sps = string.split(',')
  return map(lambda x: x.replace('${dot}','),sps)
 
 
s = '"2011,603","3510006998","F","5","0",""'
print(list(split_by_dot_escape_quote(s)))

執行結果如下：

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

之前想的正則有些複雜，反而偏離了本意，還是對正則的認識不夠深。

以上這篇Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

1. 目標通過hadoop hive或spark等資料計算框架完成資料清洗後的資料在HDFS上爬蟲和機器學習在Python中容易實現

Python Socketserver實現FTP檔案上傳下載程式碼例項

一、Socketserver實現FTP，檔案上傳、下載　　目錄結構　　　　 1、socketserver實現ftp檔案上傳下載，可以同時多使用者登入、上傳、下載

Django實現檔案上傳下載

本文例項為大家分享了Django實現檔案上傳下載的具體程式碼，供大家參考，具體內容如下

Django實現檔案上傳下載功能

專案介紹最近學習django，通過檔案上傳下載這個小專案，總結下常用的知識點。

Python selenium檔案上傳下載功能程式碼例項

上傳 html檔案內容如下：操作步驟 <html> <head> <meta http-equiv=\"content-type\" content=\"text/html;charset=utf-8\" />

Python基於requests實現模擬上傳檔案

方法1： 1.安裝requests_toolbelt依賴庫 #程式碼實現 def upload(self): login_token = self.token.loadTokenList()

c#.net中實現檔案上傳下載的三種解決方案(推薦)

以ASP.NET Core WebAPI作後端API，用Vue構建前端頁面，用Axios從前端訪問後端API,包括檔案的上傳和下載。

c# web中實現檔案上傳下載的三種解決方案(推薦)

ASP.NET上傳檔案用FileUpLoad就可以，但是對資料夾的操作卻不能用FileUpLoad來實現。

c# 實現檔案上傳下載功能的例項程式碼

NuGet 安裝SqlSugar 1.Model檔案下新建 DbContext 類 public class DbContext { public DbContext() { Db = new SqlSugarClient(new ConnectionConfig()

Java實現上傳檔案到指定伺服器指定目錄（ChannelSftp實現檔案上傳下載）

package com.tianyang.task.utils; import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import java.util.Properties;

SpringBoot整合基於tobato的fastdfs-client實現檔案上傳下載和刪除

1. 簡介基於tobato的fastdfs-client是一個功能完善的FastDFS客戶端工具，它是在FastDFS作者YuQing釋出的客戶端基礎上進行了大量的重構，提供了上傳、下載、刪除、生成縮圖等API。

spring實現檔案上傳下載

使用spring實現上傳和下載檔案在spring配置檔案中新增依賴multipartResolver

Java8實現FTP及SFTP檔案上傳下載

有網上的程式碼，也有自己的理解，程式碼備份　　一般連線windows伺服器使用FTP，連線linux伺服器使用SFTP。linux都是通過SFTP上傳檔案，不需要額外安裝，非要使用FTP的話，還得安裝FTP服務（雖然剛開始我就是這麼幹

Java 客戶端操作 FastDFS 實現檔案上傳下載替換刪除功能

FastDFS 的作者餘慶先生已經為我們開發好了 Java 對應的 SDK。這裡需要解釋一下：作者餘慶並沒有及時更新最新的 Java SDK 至 Maven 中央倉庫，目前中央倉庫最新版仍舊是 1.27 版。所以我們需要通過 Github：https://

springBoot實現檔案上傳-下載

前言作為一名java程式設計師，或多或少都會使用到檔案的上傳和下載。比如圖片檔案，excel檔案等。所以，能快捷的實現對檔案的上傳和下載，或者有一個自己的模板，是一件很方便的事情。

springboot操作阿里雲OSS實現檔案上傳,下載,刪除功能

參考資料：Java操作阿里雲OSS操作官方文件學會看文件，並實際運用也是一種習慣和技能

springboot+vue實現檔案上傳下載

本文例項為大家分享了springboot+vue實現檔案上傳下載的具體程式碼，供大家參考，具體內容如下

mongoDB 實現小檔案上傳下載

場景：小檔案，　圖片上傳到ｍｏｎｇｏ　 package com.icil.elsa.monitor.web; import java.io.IOException;

golang實現的檔案上傳下載小工具

前言雖然現在檔案上傳下載工具多如牛毛，比如http、ftp、sftp、scp等方案都可以用於檔案傳輸，但都是需要安裝伺服器甚至客戶端。

minio實現檔案上傳下載和刪除功能

https://blog.csdn.net/tc979907461/article/details/106673570?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.compare&depth_1-utm_source=distribute.pc_relevant_

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

相關推薦