python pandas常用資料處理方法

阿新 • • 發佈：2018-11-09

pandas



1、header = 0 不同於 header = None
	header = 0 表示 第0行為列
	header = None 表示讀取的時候 認為沒有標題，全是資料
	可以用 skiprows = 1 跳過列名

2、pandas 獲取指定的行列資料
	df.iloc[0:2,[0,3]]  #讀取 第 [0,2)行的第[0,3)列

3、建立 df = DataFram(data,index = '',columns = '')
	dates = pd.date_range('20130101', periods=3)
	data = pd.DataFrame(data,index=dates,columns=['A','B','C'])

4、檢視列標題，行標題，資料描述，轉置
	df.columns
	df.index
	df.describe() #帶括號 檢視資料描述，包括均值，方差，分位點
	df.T 

5、排序
	df.sort_values(by='B') # 按照 列 B 進行排序 預設升序
	df.sort_index(axis=1,ascending=False)  # 根據索引 排序 axis = 1 表示 分別對每一行排序，axis= 0表示對每一列排序
	ascending = False 表示按照降序排序

6、行列選擇
	df.loc[:,['A','B']] #選擇所有行的 A,B列
	df[0:3] #選擇[0，3)行
	df.iloc[3] #選擇第三行資料
	df.iloc[3:5,0:2] # [3,5)行 [0,2)列資料
	df.iloc[3:5,0:2]  # 這裡都是切片
	df.iloc[[1,2,4],[0,2]] #用列表進行跳躍選擇 行列 注意這樣的話 行選擇需要是列表需要多加一層[]  [[1,2,3],[0:2]]是錯誤的
	df.iloc[1,1] = df.iat[1,1] #獲取位置[1,1] 的元素(單個元素可以不寫成列表形式)

7、資料選擇、賦值
	(1)對某一列進行資料選擇
		df[df.A > 0] # 判斷 A列值是否大於0 返回boolean值
		df[df > 0] = -df # 把 df(可以看作矩陣) 中大於0的元素 取反
	(2) 把 D列賦值為 np.array()
		 df.loc[:,'D'] = np.array([5] * len(df))

8、缺失值處理
	(1)去除包含缺失值的行(只要有缺失值就去掉)
		df1.dropna(how='any')		 
	(2)把缺失值改為5
		df1.fillna(value=5)
	(3)判斷是否是缺失值
		 pd.isna(df1) # 返回 bool矩陣,注意 是 用 pd呼叫 df

9、資料統計
	(1)求均值
		 df.mean(axis = 1) # 對每一行求均值 預設為按照列求均值

10、groupby用法
		data = [
		    ['男',20,98],
		    ['男',24,88],
		    ['女',35,89],
		    ['女',27,90]
		]

		df = pd.DataFrame(data,columns=['gender','age','score'])
		print(df)
		print(df.groupby("gender").size())
		print(df.groupby("gender").mean())

		Output:
		
			  gender  age  score
		0      男   20     98
		1      男   24     88
		2      女   35     89
		3      女   27     90
		gender
		女    2
		男    2
		dtype: int64
		         age  score
		gender             
		女       31.0   89.5
		男       22.0   93.0

參考：

http://pandas.pydata.org/pandas-docs/stable/10min.html 官方10分鐘教程

https://blog.csdn.net/brucewong0516/article/details/79096633

python pandas常用資料處理方法

pandas 1、header = 0 不同於 header = None header = 0 表示第0行為列 header = None 表示讀取的時候認為沒有標題，全是資料可以用 skiprows = 1 跳過列名 2、pandas 獲取指定的行列資料 df.ilo

pandas 的資料處理方法

1：匯入pandas包 import pandas as pd 2:讀入資料： pd.read_csv(filepath,[param]) 3:檢視資料的前五行： pd.head() pd.tail():檢視尾5行 4：檢視資料的一些情況：series.describe(

Pandas常用資料預處理方法及指令

1.前言前一段時間，在小夥伴的慫恿下參加了京東的Jdata資料大賽（並以剪刀石頭布的方式決定的組長，草率！不過非常感謝小夥伴們對我的信任，還有我們一起學習的熱情讓我一下恢復了對學習的xing趣了呢），作為一名小白，抱著學習的心態去的，所謂的萬事開頭難是真的，從

python常用資料處理庫的安裝（numpy pandas matplotlib）

這篇文章記錄的不錯，轉載一把https://www.cnblogs.com/lxmhhy/p/6029465.htmlpip install matplotlib -i http://pypi.douban.com/simple --trusted-host pypi.dou

pandas常用資料預處理方法

資料樣式 python程式碼 df = pd.read_csv('../dataset/ai_risk_train/train_auth_info.csv', low_memory=Fals

python中常用的處理字符串的方法

sum cbac post OS 如果 ror 返回 cdb IT 1. find() 　　查看子序列的首個索引，沒有則返回-1 　　 name = ‘aabcdbefg‘ c = name.find(‘b‘) print(c) 　　 2 2.join() 　　

【python學習筆記】43：Pandas時序資料處理

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Python中時間的一些常用操作 import time # 從格林威治時間到現在,單位秒 print('系統時間戳:', time.time()) print('本地時間按格式轉成str:', tim

Spark一些常用的資料處理方法-3.MLlib的模型（還沒寫完）

因為mllib屬於基礎庫，且本系列主要作為普及性文章，所以我不打算更新相關原理及其數學關係，有興趣自學的童鞋可以去網上翻，基本原理都是一樣的。 3.1 什麼叫模型我理解的模型，就是對現實業務的一種數字化抽象。它既可以是一套數學公式的各種引數組合，也可以

Spark一些常用的資料處理方法-1.RDD計算

在Spark實際應用中，會用到很多數值處理方法，我將一些比較常用的方法寫在這裡，供新手向的學習參考一下。 1.1 讀取檔案至RDD var rdd = sc.textFile("檔案路徑") var rddfromhdfs = sc.textFil

Spark一些常用的資料處理方法-2.MLlib基礎統計方法

SparkMLlib中會經常對RDD用到統計方法，其用法如下 2.1 基礎載入包 //向量 import org.apache.spark.mllib.linalg.Vector //向量集 import org.apache.spark.ml

利用python Pandas進行資料預處理

目錄： 1.安裝pandas 2.pandas的引入 3.資料清洗 ①處理缺

利用Python Pandas進行資料預處理-資料清洗

資料缺失、檢測和過濾異常值、移除重複資料資料缺失資料缺失在大部分資料分析應用中都很常見，Pandas使用浮點值NaN表示浮點和非浮點陣列中的缺失資料，他只是一個便於被檢測出來的資料而已。 from pandas import Series,Da

[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複值和缺失值處理

[TOC] 查詢和替換是日常工作中很常見的資料預處理操作，下面就來講解如何使用pandas模組中的函式對DataFrame中的資料進行查詢和替換。 ## 1. 資料檔案 [產品統計表.7z](https://files.cnblogs.com/files/feily/%E4%BA%A7%E5%93%81%E

python pandas 數據處理

row port dataframe cti rand 數據處理 tro afr word from pandas import Series,DataFrame import pandas as pd import numpy as np python中pandas.

excel vba和python pandas庫在處理excel，數據循環嵌套查詢方面的比較。

bsp 由於 panda 產生任務之間 bubuko 我們工資最經朋友成立了一個運營兼職的公司，然而需要對於一些兼職人員的工資進行發放，但是由於一次兼職的工資在40~60之間，所以公司采取的原則是大於200以上進行發放，這個規則也就相當於滴滴司機，提現需要大於200

資料處理方法總結

#讀取資料 data=pd.read_csv("") print(data.head(10)) #處理資料 #1.縮小資料,查詢資料篩選，query相當於sql語句，進行條件查詢 data=data.query

海量資料處理方法及應用

一、雜湊切割top K問題 1. 給一個超過100G大小的log file, log中存著IP地址, 設計演算法找到出現次數最多的IP地址？（1）首先使用雜湊函式HashFunc(ip)將每一個IP地址轉化為整型，再通過HashFunc(i

python的常用內建方法

求最小值、最大值和求和 In [1]: min(2,4) Out[1]: 2 In [2]: max(2,4) Out[2]: 4 In [3]: sum(range(1,101)) Out[3]: 5050 In [4]: sum(range(2,101,2)) Out[4]:

Python Pandas 做資料分析之玩轉 Excel 報表分析

Python Pandas 是大資料分析的基礎，這裡將分享和Excel報表相關的分析技巧，都是工作中的實戰內容。本場 Chat 主要內容： Excel、CSV 資料的讀、寫、儲存； DataFrame 的 Index、Columns 相關操作； loc、iloc、XS 和 Mul

常用影象處理方法

一、基本的灰度變換函式 1.1.影象反轉適用場景：增強嵌入在一幅影象的暗區域中的白色或灰色細節，特別是當黑色的面積在尺寸上占主導地位的時候。 1.2.對數變換（反對數變換與其相反）過程：將輸入中範圍較窄的低灰度值對映為輸出中較寬範圍的灰度值。用處：用來擴充套件影象中暗畫素的值，同時壓縮更高

python pandas常用資料處理方法

相關推薦