使用Numpy對特徵中的異常值進行替換及條件替換方式

阿新 • • 發佈：2020-06-08

原始資料為Excel檔案，由感測器獲得，通過Pyhton xlrd模組讀入，讀入後為陣列形式，由於其存在部分異常值和缺失值，所以便利用Numpy對其中的異常值進行替換或條件替換。

1. 將'nan'替換為給定值

import numpy as np
 
data = np.array([['nan',1,2,3,4],# 資料型別為字串型
        [10,15,20,25,'nan'],['nan',5,8,10,20]])
print(data)
# [['nan' '1' '2' '3' '4']
# ['10' '15' '20' '25' 'nan']
# ['nan' '5' '8' '10' '20']]
 
data[data == 'nan'] = 100 # 將numpy中為'nan'的項替換為 100
print(data)
# [['100' '1' '2' '3' '4']
# ['10' '15' '20' '25' '100']
# ['100' '5' '8' '10' '20']]
 
data = data.astype(float) # 將資料由字元型轉換為浮點型
print(data)
# [[100.  1.  2.  3.  4.]
# [ 10. 15. 20. 25. 100.]
# [100.  5.  8. 10. 20.]]

2. 按列進行條件替換

當利用'3σ準則'或者箱型圖進行異常值判斷時，通常需要對 > upper 或 < lower的值進行處理，這時就需要按列進行條件替換了。

print(data)
# [[100.  1.  2.  3.  4.]
# [ 10. 15. 20. 25. 100.]
# [100.  5.  8. 10. 20.]]
 
data[:,1][data[:,1] < 5] = 5 # 對第2列小於 5 的替換為5
print(data)
# [[100.  5.  2.  3.  4.]
# [ 10. 15. 20. 25. 100.]
# [100.  5.  8. 10. 20.]]
 
data[:,2][data[:,2] > 15] = 10 # 對第3列大於 15 的替換為10
print(data)
# [[100.  5.  2.  3.  4.]
# [ 10. 15. 10. 25. 100.]
# [100.  5.  8. 10. 20.]]

補充知識：Python之dataframe修改異常值—按行判斷值是否大於平均值的指定倍數，如果是則用均值替換

如下所示：

使用Numpy對特徵中的異常值進行替換及條件替換方式

import pandas as pd

data = {'hah':[1,9],'數量':[3,5],'價格':[10,9,8]}
df = pd.DataFrame(data)
df

import numpy as np
def panduan(x):
  x_mean = np.mean(x)
  print(x_mean)
  for i in x.index:
    if x[i] > x_mean*2:
      x[i] = x_mean
#     print(i)   
  return x

df = df.apply(lambda x:panduan(x),axis=1)

以上這篇使用Numpy對特徵中的異常值進行替換及條件替換方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

使用Numpy對特徵中的異常值進行替換及條件替換方式

如何根據字典中值的大小，對字典中的項進行排序？

需求：某班英語成績，儲存為 {\'lilei\':78, \'jim\':88, \'mike\':99} 如何根據成績高低計算學生排名？

pandas對時間序列中缺失值進行線性插值

一、問題背景以二氧化碳濃度資料集為例，該時間序列在某些時間點上會有缺失值。

MongoDB如何對陣列中的元素進行查詢詳解

前言 MongoDB是文件型資料庫，每個文件（doc）表示資料的一項記錄。相比關係型DB的row只能使用簡單的資料型別，doc能夠使用複雜的資料型別：內嵌doc，陣列。MongoDB的陣列是一系列元素的集合，使用中括號 [] 表示陣列

python實現對列表中的元素進行倒序列印

1.案例要求： \"\"\"有列表[\"a\",\"d\",\"f\",\"j\",\"z\",\"Z\",\"1\"]，對列表進行倒序,列印結果為[\"1\",\"\"a]\"\"\"

JAVA 提取json路徑，並對路徑上的值進行脫敏或更改

java 獲取json的jsonPah（com.alibaba.fastjson） //獲取jsonPath public staticList<String> getListJsonPath(JSONObject jsonObject) {

如何對liferay中的dockbar進行修改

參考：http://www.huqiwen.com/2016/06/08/how-modify-dockbar-in-liferay/ Liferay中有時候我們需要對dockbar的內容進行修改與調整。

javascript sort()對陣列中的元素進行排序詳解

javascript sort()可以對陣列中的元素進行排序，語法格式：arrayObject.sort(sortby) arrayObject是陣列物件，sortby為可選項，用來確定元素順序的函式的名稱，如果這個引數被省略，那麼元素將按照ASCII字元順序進

2020-12-18python中異常值處理中的程式碼不能執行

技術標籤：python基礎知識學習python python中關於ValueError異常值處理不能正常顯示的問題

對HandyControl中的Poptip進行資料繫結

WPF控制元件庫HandyControl中的Poptip是一個抽象物件，它不會出現在視覺化樹中，因此不能使用RelativeSource繫結。也不能使用ElementName，因為它找不到可控制的FrameworkContentElement。

對陣列中的物件進行排序

//sort方法接收一個函式作為引數，這裡巢狀一層函式用來接收物件屬性名，其他部分程式碼與正常使用sort方法相同.var arr = [

Pandas替換及部分替換（replace）實現流程詳解

在處理資料的時候，很多時候會遇到批量替換的情況，如果一個一個去修改效率過低，也容易出錯。replace()是很好的方法。

c++ std標準庫演算法＜algorithm＞替換 replace() 條件替換replace_if()

技術標籤：# 4.1 C++c++stlreplace_ifreplace std::replace 簡介： replace() 演算法會用新的值來替換和給定值相匹配的元素。

pandas 中對特徵進行硬編碼和onehot編碼的實現

首先介紹兩種編碼方式硬編碼和onehot編碼，在模型訓練所需要資料中，特徵要麼為連續，要麼為離散特徵，對於那些值為非數字的離散特徵，我們要麼對他們進行硬編碼，要麼進行onehot編碼，轉化為模型可以用於訓練的特徵

Dynamics CRM - 在 C# Plugin 中如何對 PartyList 型別欄位進行取值

C# Plugin - 獲取 <From> 的值在這裡 Mark 一下 C# Plugin 中是如何對 PartyList 型別欄位進行取值的，以 <From> 欄位為例，我們想取得 <From> 欄位裡所有的 AccountId：

在SQL中對同一個欄位不同值,進行資料統計操作

應用場景：需要根據印章的不同狀態，統計不同狀態下印章數量。剛開始百度，確實寫搜到了不同的答案，但只能怪自己對sql語法解讀不夠，還是沒寫出來，導致寫出了下面錯誤的寫法。

java8如何對list中的map元素根據多個key值進行排序

使用JAVA自己的排序方法，有的時候是一個可行的選擇。先從簡單的開始說起。

java8如何對list中的map元素根據一個key值進行排序

public static void main(String[] args) { Map<String, Object> map = new HashMap<String, Object>();

pandas+numpy 對df資料中的某列進行等分分桶操作

import numpy as np import pandas as pd left = pd.DataFrame({\'A\': [1., np.nan, 3., 4.], \'B\': [1., 2., 3., 4.]})

記錄一次.net core web Api 專案中在全域性對返回值進行類包裝的解決過程

// 第一次寫，寫的比較亂一. 先看需求：要求絕大部分的api介面的返回值都用此型別包裝過後進行返回，將原返回值放到result中。

使用Numpy對特徵中的異常值進行替換及條件替換方式

相關推薦