盤一盤Tidyverse| 篩行選列之select，玩轉列操作

阿新 • • 發佈：2020-01-20

原文連結：https://mp.weixin.qq.com/s/ldO0rm3UM_rqlFnU3euYaA

2020年，開封《R 資料科學》R for data science，系統學習R 資料處理。

在一個典型的資料科學專案中，需要的工具模型大體如下圖所示。 ---R for Data Science

資料匯入和資料整理較乏味和無聊，很容易從入門到放棄！從資料轉換和視覺化開始，容易看到成果，保持學習的動力。

之前的推文講了一些生信常見圖形的繪製（後續會一直補充），現在開始主要依據《R資料科學》一書逐漸介紹資料分析的過程。

本次根據 msleep資料集，盤一盤“列”的操作。

一載入資料和R包

#載入R包
#install.packages("tidyverse")
library("tidyverse")
#檢視內建資料集
head(msleep,2)

# A tibble: 6 x 11
  name  genus vore  order conservation sleep_total sleep_rem sleep_cycle awake
  <chr> <chr> <chr> <chr> <chr>              <dbl>     <dbl>       <dbl> <dbl>
1 Chee~ Acin~ carni Carn~ lc                  12.1      NA        NA      11.9
2 Owl ~ Aotus omni  Prim~ NA                  17         1.8      NA       7  
# ... with 2 more variables: brainwt <dbl>, bodywt <dbl>

上述資料集有11列（變數），而生信中的臨床資訊，實驗室檢驗指標經常上百，基因（突變，表達）資訊更是成千上萬。此時可以基於變數名，使用select() 函式快速生成一個有用的變數子集。

二以列之名

2.1 選擇對應名稱列

使用select()直接選擇列名稱所對應的列。

#選擇name, sleep_total ,awake三列，使awake在中間
msleep %>%
  select(name, awake, sleep_total) %>% head()

1579413836903 彩蛋：新增順序即為輸出順序。

2.2 選擇若干連序列

使用start_col:end_col

語法選擇若干的連續列。

msleep %>%
  select(name:vore, sleep_total:awake) %>% head(2)

# A tibble: 6 x 7
  name                       genus      vore  sleep_total sleep_rem sleep_cycle awake
  <chr>                      <chr>      <chr>       <dbl>     <dbl>       <dbl> <dbl>
1 Cheetah                    Acinonyx   carni        12.1      NA        NA      11.9
2 Owl monkey                 Aotus      omni         17         1.8      NA       7

與基本語法類似，：用來選擇連續的列。

2.3 根據部分列名稱選擇列

如果列名結構相似，可使用starts_with()，ends_with()， contains()完成部分匹配。

1）starts_with()選擇以“XX”開頭的所有列

msleep %>%
  select(name, starts_with("sleep")) %>% head(2)
# A tibble: 2 x 4
  name       sleep_total sleep_rem sleep_cycle
  <chr>            <dbl>     <dbl>       <dbl>
1 Cheetah           12.1      NA            NA
2 Owl monkey        17         1.8          NA

2）ends_with()選擇以“XX”結尾的所有列

msleep %>%
  select(ends_with("e")) %>% head(2)
# A tibble: 2 x 4
  name       vore  sleep_cycle awake
  <chr>      <chr>       <dbl> <dbl>
1 Cheetah    carni          NA  11.9
2 Owl monkey omni           NA   7

3） contains()選擇包含“XX”的所有列

msleep %>%
  select(contains("leep")) %>% head(2)
# A tibble: 2 x 3
  sleep_total sleep_rem sleep_cycle
        <dbl>     <dbl>       <dbl>
1        12.1      NA            NA
2        17         1.8          NA

4）matches() 選擇基於正則的列

如果列名模式不相似，使用matches()選擇對應正則表示式的列。

#選擇任何包含“a”，後跟一個或多個其他字母和“e”的列
msleep %>%
  select(matches("a.+e")) %>% head(2)
# A tibble: 2 x 2
  name       awake
  <chr>      <dbl>
1 Cheetah     11.9
2 Owl monkey   7

三邏輯之名

3.1 基於資料型別選擇列

使用select_if()選擇所有數值列select_if(is.numeric)，此外還可用is.numeric， is.integer，is.double，is.logical，is.factor。

msleep %>%
  select_if(is.numeric) %>% head(2)
# A tibble: 2 x 6
  sleep_total sleep_rem sleep_cycle awake brainwt bodywt
        <dbl>     <dbl>       <dbl> <dbl>   <dbl>  <dbl>
1        12.1      NA            NA  11.9 NA       50   
2        17         1.8          NA   7    0.0155   0.48

3.2 基於邏輯表示式選擇列

msleep %>%
  select_if(is.numeric) %>% 
  select_if(~mean(., na.rm=TRUE) > 10) %>% head(2)
# A tibble: 2 x 3
  sleep_total awake bodywt
        <dbl> <dbl>  <dbl>
1        12.1  11.9  50   
2        17     7     0.48

注：select_all / if 函式要求將函式作為引數傳遞。因為mean > 10 本身不是函式，所以需要前面新增“~”表示匿名函式；或者使用funs()先將函式包裝。

more_than_10 <- function(x) {
  mean(x,na.rm=TRUE) > 10
}
msleep %>% select_if(is.numeric) %>% select_if(more_than_10) %>% head(2)
# A tibble: 2 x 3
  sleep_total awake bodywt
        <dbl> <dbl>  <dbl>
1        12.1  11.9  50   
2        17     7     0.48

結果同上。

msleep %>%
  select_if(~is.numeric(.) & mean(., na.rm=TRUE) > 10) %>% head(2)

結果同上！

3.3 選擇唯一值數目符合條件的列

結合 n_distinct()選擇具有不少於20個不同答案的列。

msleep %>%
  select_if(~n_distinct(.) >= 20) %>% head(2)
# A tibble: 2 x 8
  name       genus    sleep_total sleep_rem sleep_cycle awake brainwt bodywt
  <chr>      <chr>          <dbl>     <dbl>       <dbl> <dbl>   <dbl>  <dbl>
1 Cheetah    Acinonyx        12.1      NA            NA  11.9 NA       50   
2 Owl monkey Aotus           17         1.8          NA   7    0.0155   0.48

四調整列順序

4.1 選擇列名稱時候直接調整

#選擇name, sleep_total ,awake三列，使awake在中間
msleep %>%
  select(name, awake, sleep_total) %>% head(2)

4.2 `everything()` 返回未被選擇的所有列

當只是將幾列移到最前面，後面的可使用everything()，節省大量輸入時間。

msleep %>%
  select(conservation, everything()) %>% head(2)
# A tibble: 2 x 11
  conservation name  genus vore  order sleep_total sleep_rem sleep_cycle awake
  <chr>        <chr> <chr> <chr> <chr>       <dbl>     <dbl>       <dbl> <dbl>
1 lc           Chee~ Acin~ carni Carn~        12.1      NA            NA  11.9
2 NA           Owl ~ Aotus omni  Prim~        17         1.8          NA   7  
# ... with 2 more variables: brainwt <dbl>, bodywt <dbl>

五更改列名字

5.1 `select`更改列名

msleep %>%
  select(animal = name, sleep_total) %>% head(2)
# A tibble: 2 x 2
  animal     sleep_total
  <chr>            <dbl>
1 Cheetah           12.1
2 Owl monkey        17

注：select語句中更改，只留下select的列。

5.2 rename更改列名

msleep %>% 
  rename(animal = name) %>% head(2)
# A tibble: 2 x 11
  animal genus vore  order conservation sleep_total sleep_rem sleep_cycle awake
  <chr>  <chr> <chr> <chr> <chr>              <dbl>     <dbl>       <dbl> <dbl>
1 Cheet~ Acin~ carni Carn~ lc                  12.1      NA            NA  11.9
2 Owl m~ Aotus omni  Prim~ NA                  17         1.8          NA   7  
# ... with 2 more variables: brainwt <dbl>, bodywt <dbl>

以上兩種方式注意區分！

5.3 重新格式化所有列名

1）select_all()函式允許更改所有列，並以一個函式作為引數。

msleep %>%
  select_all(toupper) %>% head(2)
# A tibble: 2 x 11
  NAME  GENUS VORE  ORDER CONSERVATION SLEEP_TOTAL SLEEP_REM SLEEP_CYCLE AWAKE
  <chr> <chr> <chr> <chr> <chr>              <dbl>     <dbl>       <dbl> <dbl>
1 Chee~ Acin~ carni Carn~ lc                  12.1      NA            NA  11.9
2 Owl ~ Aotus omni  Prim~ NA                  17         1.8          NA   7  
# ... with 2 more variables: BRAINWT <dbl>, BODYWT <dbl>

toupper()使所有列名變成大寫形式，tolower()變成小寫。

2）建立函式替換

如果輸入檔案的列名較混亂，根據需求逐步替換。

msleep2 <- select(msleep, name, sleep_total, brainwt)
colnames(msleep2) <- c("Q1 name", "Q2 sleep total", "Q3 brain weight")
msleep2[1:3,]
# A tibble: 3 x 3
  `Q1 name`       `Q2 sleep total` `Q3 brain weight`
  <chr>                      <dbl>             <dbl>
1 Cheetah                     12.1           NA     
2 Owl monkey                  17              0.0155
3 Mountain beaver             14.4           NA

目的把列名中的"Q1 name"改為"name"，"Q2 sleep total"改為"sleep_total" ...

A：去掉前面的Q1，Q2，Q3 ；

B：去掉Q1，Q2，Q3 與名稱的空格；

C：sleep total之間的空格使用下劃線替換。

msleep2 %>%
    select_all(~str_replace(., "Q[0-9]+", "")) %>%  #去掉Q1
    select_all(~str_replace(., "^ ", "")) %>% #去掉名稱前面的空格
    select_all(~str_replace(., " ", "_")) #下劃線替換sleep total之間的空格 
# A tibble: 83 x 3
   name                       sleep_total brain_weight
   <chr>                            <dbl>        <dbl>
 1 Cheetah                           12.1     NA      
 2 Owl monkey                        17        0.0155

搞定！

六滿五贈二

6.1 刪除某些列

選擇的列前用“-”即可，函式用法與選擇一致。

 msleep %>%
   select(-(name:genus), -conservation,-(ends_with("e"))) %>% head(2)
# A tibble: 2 x 5
  order     sleep_total sleep_rem brainwt bodywt
  <chr>           <dbl>     <dbl>   <dbl>  <dbl>
1 Carnivora        12.1      NA   NA       50   
2 Primates         17         1.8  0.0155   0.48

6.2 行名稱改為第一列

某些資料框的行名並不是列，例如mtcars資料集：

 mtcars %>% head(2)

##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4

使用 rownames_to_column()函式，行名改為列，且可指定列名稱。

mtcars %>% 
    tibble::rownames_to_column("car_name") %>% head(2)
       car_name mpg cyl disp  hp drat    wt  qsec vs am gear carb
1     Mazda RX4  21   6  160 110  3.9 2.620 16.46  0  1    4    4
2 Mazda RX4 Wag  21   6  160 110  3.9 2.875 17.02  0  1    4    4

相信我，後面做資料鏈接（join）的時候，你會很希望行名是具體列的。

參考資料

《R資料科學》

https://r4ds.had.co.nz/introduction.html

https://suzanbaert.netlify.com/2018/01/dplyr-tutorial-1/

資料處理確實不如視覺化“好玩”，但是視覺化的資料大多都需要前期處理，這個“檻”一起慢慢跨過去！

◆ ◆ ◆ ◆ ◆

【覺得不錯，右下角點個“在看”，期待您的轉發，謝謝！】

盤一盤Tidyverse| 篩行選列之select，玩轉列操作

原文連結：https://mp.weixin.qq.com/s/ldO0rm3UM_rqlFnU3euYaA 2020年，開封《R 資料科學》R for data science，系統學習R 資料處理。在一個典型的資料科學專案中，需要的工具模型大體如下圖所示。 ---R for Da

盤一盤 synchronized （一）—— 從列印Java物件頭說起

Java物件頭的組成 Java物件的物件頭由 mark word 和 klass pointer 兩部分組成， mark word儲存了同步狀態、標識、hashcode、GC狀態等等。 klass pointer儲存物件的型別指標，該指標指向它的類元資料值得

盤一盤 synchronized （二）—— 偏向鎖批量重偏向與批量撤銷

在本文講解之前，先來簡單瞭解一下為什麼會有批量重偏向和批量撤銷。批量重偏向：當一個執行緒建立了大量物件並執行了初始的同步操作，後來另一個執行緒也來將這些物件作為鎖物件進行操作，會導偏向鎖重偏向的操作。批量撤銷：在多執行緒競爭劇烈的情況下，使用偏向鎖將會降低效率，於是乎產生了批量撤銷機制

盤一盤 AQS和ReentrantLock

AQS是個啥？ AQS(AbstractQueuedSynchronizer)是Java併發用來構建鎖和其他同步元件的基礎框架。許多同步類實現都依賴於它，如常用的ReentrantLock/ReentrantReadWriterLock/CountDownLatch等 AQS提供了獨佔(E

盤一盤 NIO （二）—— Channel解析

Channel是個啥? Channel，顧名思義，它就是一個通道。NIO中的所有IO都是從 Channel 開始的。 Channel通道和流非常類似，主要有以下幾點區別： 1、流是單向的，通道是雙向的，可讀可寫。 2、流讀寫是阻塞的，通道可以非同步讀寫。 3、流中的資料可以選擇性的先讀到快取中，通道

如何運行容器？- 每天5分鐘玩轉 Docker 容器技術（22）

docker 教程容器上一章我們學習了如何構建 Docker 鏡像，並通過鏡像運行容器。本章將深入討論容器：學習容器的各種操作，容器各種狀態之間如何轉換，以及實現容器的底層技術。運行容器docker run 是啟動容器的方法。在討論 Dockerfile 時我們已經學習到，可用三種方式指定容器

用 k8s 運行一次性任務 - 每天5分鐘玩轉 Docker 容器技術（132）

bsp lin cas tro des k8s 需要 app ply 容器按照持續運行的時間可分為兩類：服務類容器和工作類容器。服務類容器通常持續提供服務，需要一直運行，比如 http server，daemon 等。工作類容器則是一次性任務，比如批處理程序，完成後容器就退

一起來學大數據——走進Linux之門，學習大數據的重中之重

redhat 希望實現這就是企業 http 添加獨立這就是我昨天我們看了有關大數據Hadoop的一些知識點，但是要在學習大數據之前，我們還是要為大數據的環境做一些的部署。那麽，今天我們就來講講開啟我們大數據之路的Linux，跟上我們的腳步yo~ Linux介紹

bootstarp table 初始化列的時候，添加個操作按鈕，事件

/** * 初始化表格的列 */ TaskError.initColumn = function () { return [ {field: 'selectItem', radio: true}, {title: '', field: '

一起來學大資料——走進Linux之門，學習大資料的重中之重

昨天我們看了有關大資料Hadoop的一些知識點，但是要在學習大資料之前，我們還是要為大資料的環境做一些的部署。那麼，今天我們就來講講開啟我們大資料之路的Linux，跟上我們的腳步yo~ Linux介紹 Linux是我們當前各大系統中一種自由和開源的OS，雖然市面上

換裝WIN10（windows）那點兒事，換裝作業系統一文通，玩轉安裝作業系統

本文主要介紹了九個方面的內容： 1.win10對電腦要求、2.原版映象怎麼下載（除了windows系列映象，還有office系列）、3.如何製作U盤系統盤、4如何給硬碟調整分割槽（邏輯分割槽或拓展分割槽無法給主分割槽容量怎麼辦？）windows下如何更改碟符？如何新建磁碟？

轉換一個字段中含有多個另外一張表的id | | 行轉列

ret .net sub 模式 end posit tex 匹配 replace 1、Oracle Function --入參：表 id /* cxcyxm02 ：操作表，含有一個存儲另一張表（xs0101）多個主鍵id的字段　ids ：操作表的主鍵 i

世界再大，大不過一盤番茄炒蛋

娛樂最近這幾天，《世界再大，大不過一盤番茄炒蛋》的廣告視頻刷遍了朋友圈微博。視頻的大概內容是：一個初到美國的留學生想要做一份番茄炒雞蛋來招待外國的朋友們，可是只知道有這道菜卻不知道具體的做菜流程。於是他發微信求助父母，當時是北京時間4點，父母看到消息馬上從睡夢中爬起來，在廚房錄視頻教兒子番茄炒蛋的過程。男孩最

行轉列，列轉行，圖一轉圖二或圖二轉圖一

col ont rom clas 轉行 chinese hang cor div 圖一： Nam Course Score zhangsan Chinese 85 zhangsan Maths 76 zhangsan English 80 lisi C

如何用純 CSS 創作一盤傳統蚊香

效果預覽線上演示按下右側的“點選預覽”按鈕可以在當前頁面預覽，點選連結可以全屏預覽。 https://codepen.io/comehope/pen/BVpvMz 可互動視訊教程此視訊是可以互動的，你可以隨時暫停視訊，編輯視訊中的程式碼。請用 chr

Oracle 技巧總結（一）：行轉列及列裝行

1.行轉列 oracle中行轉列語法結構select listagg(column1, ',') within group(order by column2) from X; 如下圖所示： listagg(attr1, attr2)：第一個引數是要行轉列的那個欄位

楊霖演講實錄∣從模組化架構到跨鏈生態，NULS這一年下了一盤怎麼樣的棋

9月11日，NULS韓國大型交流會在首爾CONRAD酒店隆重舉行，NULS核心團隊CEO Liesa Huang、NULS核心程式碼貢獻者楊霖、NULS社群運營負責人冉小波、NULS韓國地區代表Isaac Kim，以及NULS韓國顧問Andy Chae出席了會

SQL Server 行轉列，列轉行。多行轉成一列

一、多行轉成一列（並以","隔開）表名：A表資料：想要的查詢結果：查詢語句：SELECT name , value = ( STUFF(( SELECT ',' + value FROM A

oracle 多列轉成一列(列轉行)、行轉列

1.多列轉成一列(列轉行) --6列轉成兩列(列轉行) 這就是最常見的列轉行，主要原理是利用SQL裡面的union with temp as (select a.iid_sn, a.product_name, a.sales_figures, a

對於一個m行m列的方陣，求其每一行，每一列及主對稱線元素之和，最後按照從大到小的順序依次輸出。

#include<iostream> using namespace std; #define MAX 10 int main() { int m,n=0,i,j,a[10][10],sum,num[10],temp,max; cout<<"en

盤一盤Tidyverse| 篩行選列之select，玩轉列操作

一 載入資料和R包

二 以列之名

2.1 選擇對應名稱列

2.2 選擇若干連序列

2.3 根據部分列名稱選擇列

三 邏輯之名

3.1 基於資料型別選擇列

3.2 基於邏輯表示式選擇列

3.3 選擇唯一值數目符合條件的列

四 調整列順序

4.1 選擇列名稱時候直接調整

4.2 everything() 返回未被選擇的所有列

五 更改列名字

5.1 select更改列名

5.2 rename更改列名

5.3 重新格式化所有列名

六 滿五贈二

6.1 刪除某些列

6.2 行名稱改為第一列

參考資料

相關推薦

一載入資料和R包

二以列之名

三邏輯之名

四調整列順序

4.2 `everything()` 返回未被選擇的所有列

五更改列名字

5.1 `select`更改列名

六滿五贈二