[tidyverse関数辞書] dplyr::arrange()の使い方

tidyverse辞書

はじめに

こんにちは!このサイトではプログラミング未経験者でも簡単に始められるRプログラミングを解説しています!コピペで動くコードの紹介や、細かな関数の使い方解説も今後どんどん行っていきますので、是非フォローをよろしくお願いいたします?

この記事はdplyrの関数辞典を作りたい企画の第一弾です。
R 4.1.2、{dplyr} 1.0.8バージョン時点で動作確認をしています。

全ての内容を覚える必要はないので、忘れたときの辞書代わりとして活用してください!

クイックリファレンス

library(dplyr)

データフレーム %>%
  arrange(ソートしたい列名1, ソートしたい列名2)
iris %>%
  arrange(Sepal.Width, Sepal.Length) %>%
  tibble()

# # A tibble: 150 × 5
#    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#           <dbl>       <dbl>        <dbl>       <dbl> <fct>
#  1          5           2            3.5         1   versicolor
#  2          6           2.2          4           1   versicolor
#  3          6           2.2          5           1.5 virginica
#  4          6.2         2.2          4.5         1.5 versicolor
#  5          4.5         2.3          1.3         0.3 setosa
#  6          5           2.3          3.3         1   versicolor
#  7          5.5         2.3          4           1.3 versicolor
#  8          6.3         2.3          4.4         1.3 versicolor
#  9          4.9         2.4          3.3         1   versicolor
# 10          5.5         2.4          3.8         1.1 versicolor

関数について

dplyr::arrange()の概要

{tidyverse}に含まれる、{dplyr}の関数の一つです。

データフレーム(またはtibble)を特定の列で昇順ソートする関数で、引数オプションによっては降順ソートや、複数列でのソートも可能です。

数値データ列の昇順ソート

mtcarsを例にとります。

mtcarsデータはビルトインデータですので、準備をしなくとも読み込むことができます。 以下のようなデータです。

mtcars %>% head()

#                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
# Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
# Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
# Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
# Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
# Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
# Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

rownamesには車種名があり、その他は各車種の性能を示しています。head()関数により 冒頭6行だけを表示しています。

まずは燃費順でソートしてみます。燃費を表すのはmpg(Miles per gallon)の列です。

mtcars %>%
  arrange(mpg) %>%
  head()

#                      mpg cyl disp  hp drat    wt  qsec vs am gear carb
# Cadillac Fleetwood  10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
# Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4
# Camaro Z28          13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
# Duster 360          14.3   8  360 245 3.21 3.570 15.84  0  0    3    4
# Chrysler Imperial   14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
# Maserati Bora       15.0   8  301 335 3.54 3.570 14.60  0  1    5    8

このように、オプションを指定しなければ昇順に並び替えられます。

数値データ列の降順ソート

降順ソートには二通りの方法があります。最初に私がよく使う、-を付ける方法を 紹介します。

mtcars %>%
  arrange(-mpg) %>%
  head()

#                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
# Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
# Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
# Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
# Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2

このように、数値データであればマイナスを列名に付けるだけで降順になります。 しかし、項目:文字列のソートで後述しますが、文字列に対してマイナス記号は使えないので注意が必要です。

Snitch
Snitch

ソートにより一番燃費がいい車はトヨタカローラ、などといったことが読み取れます。

もう一つの降順ソート方法はdesc()関数を使う方法です。

mtcars %>%
  arrange(desc(mpg)) %>%
  head()

このようにdesc関数を一回挟むことで降順(descending)にソートしています。 私は直感的に「逆=マイナス記号」という覚え方のできる前者を好んで使います。

文字列のソート

基本的に文字列も同じようにソートが可能です。

mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(car_name) %>% 
  head()
#             car_name  mpg cyl disp  hp drat    wt  qsec vs am gear carb
# 1        AMC Javelin 15.2   8  304 150 3.15 3.435 17.30  0  0    3    2
# 2 Cadillac Fleetwood 10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
# 3         Camaro Z28 13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
# 4  Chrysler Imperial 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
# 5         Datsun 710 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
# 6   Dodge Challenger 15.5   8  318 150 2.76 3.520 16.87  0  0    3    2

このように、アルファベット順のソートが可能です。

ひらがなのソートも可能です。漢字に対しては読み仮名に基づいてソートしてくれるわけではないので注意です。

tibble(Name = c("たろう", "じろう", "さぶろう", "あきこ")) %>% 
  arrange(Name)

# # A tibble: 4 × 1
#   Name    
#   <chr>   
# 1 あきこ  
# 2 さぶろう
# 3 じろう  
# 4 たろう

先程述べた通り、文字列のソートではマイナスが使えません。

mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(-car_name) %>% 
  head()

# Error: arrange() failed at implicit mutate() step. 
# * Problem with mutate() column ..1.
# ℹ ..1 = -car_name.
# x invalid argument to unary operator
# Run rlang::last_error() to see where the error occurred.
mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(desc(car_name)) %>% 
  head()

#           car_name  mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# 1       Volvo 142E 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
# 2          Valiant 18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
# 3    Toyota Corona 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
# 4   Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# 5    Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
# 6 Pontiac Firebird 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2

数字の入った文字列ソートには注意

たとえば、先頭に番号を付けたデータフレームがあったとします。

これを普通に文字列ソートすると、もしかしたら結果にギョっとするかもしれません。

tibble(
  numbers = c("1_one",
              "2_two",
              "3_three",
              "4_four",
              "5_five",
              "6_six",
              "7_seven",
              "8_eight",
              "9_nine",
              "10_ten",
              "11_eleven")
) %>% 
  arrange(numbers)

# # A tibble: 11 × 1
#    numbers  
#    <chr>    
#  1 1_one    
#  2 10_ten   
#  3 11_eleven
#  4 2_two    
#  5 3_three  
#  6 4_four   
#  7 5_five   
#  8 6_six    
#  9 7_seven  
# 10 8_eight  
# 11 9_nine  

文字列ソートなので、”1″を優先的に見た結果「1,10,11,2,3,4,…」という並びになってしまいました。

これは明らかに意図しない挙動ですよね。いくつか対処方法はありますが、 最もシンプルなのはstringr::str_order(numeric=TRUE)を使うことでしょう。

{stringr}は文字列操作に長けたパッケージですので、このように文字列に入った数値を 数値として解釈してくれるようなオプションもあります。 私もこの関数を知ったのはごく最近で、それまではtidyr::split()関数を使って数値の 部分を新しい列に切り離してからソートなどをしていました。

tibble(
  numbers = c("1_one",
              "2_two",
              "3_three",
              "4_four",
              "5_five",
              "6_six",
              "7_seven",
              "8_eight",
              "9_nine",
              "10_ten",
              "11_eleven")
) %>% 
  arrange(str_order(numbers, numeric = TRUE))

文字列のソートは少し注意が必要

  • 降順はdesc()を使う
  • 先頭の数字を活用したいときはstr_order(列名, numeric=TRUE)
  • ひらがな対応、漢字非対応

複数列のソート

arrange()関数では複数列を同時にソートすることができます。

mtcars %>%
  arrange(gear, -mpg) %>%
  head(20)

#                      mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
# Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
# Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
# Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
# Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
# Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
# Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
# Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
# Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
# AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
# Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
# Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
# Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
# Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
# Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
# Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
# Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
# Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
# Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2

この例ではgear(ギア数)を昇順、mpg(Miles per gallon: 燃費データ)を降順で ソートしています。 引数が先頭に来るものを優先してソートしているので、 上記例は「mpgを降順でソートしてからgearを昇順でソート」したような状態です。

サンプルコード

成績表を科目ごとにソートする

test_scores <- 
  tibble(
  Name = rep(randomNames::randomNames(20, ethnicity = 2), each = 4),
  Subject = rep(c("English", "Calligraphy", "Math", "Physics"), 20),
  Score = round(runif(n = 80, min = 0, max = 100))
)

test_scores
# # A tibble: 80 × 3
#    Name           Subject     Score
#    <chr>          <chr>       <dbl>
#  1 Rudman, Truong English        27
#  2 Rudman, Truong Calligraphy    39
#  3 Rudman, Truong Math           31
#  4 Rudman, Truong Physics        76
#  5 Tan, Marissa   English         5
#  6 Tan, Marissa   Calligraphy    82
#  7 Tan, Marissa   Math           91
#  8 Tan, Marissa   Physics        72
#  9 Heller, Amanda English        14
# 10 Heller, Amanda Calligraphy    46
# # … with 70 more rows

このようなサンプルデータを作ってみました。

このデータに対して、各教科ごとに最も得点の高い二人を抽出してみます。 以下のようにarrange()関数を降順で使えば欲しいデータは得られそうです。

しかし、最も得点の高い二人を得るにはどうしたらよいでしょうか?

test_scores %>% 
  arrange(Subject, -Score)
# # A tibble: 80 × 3
#    Name                Subject     Score
#    <chr>               <chr>       <dbl>
#  1 Tan, Marissa        Calligraphy    82
#  2 Duncanson, Jonathan Calligraphy    82
#  3 Lu, Carolyn         Calligraphy    77
#  4 Brett, Katie        Calligraphy    76
#  5 Pushchak, Stephanie Calligraphy    72
#  6 Nguyen, Remy        Calligraphy    66
#  7 Chang, Jenny        Calligraphy    63
#  8 Kalam, Boan         Calligraphy    60
#  9 Choudhry, Angelina  Calligraphy    58
# 10 Hayashida, Eric     Calligraphy    52
# # … with 70 more rows

このようなケースでは、行変形を伴う操作としてgroup_by()およびslice()関数を使うと良いでしょう。

test_scores %>% 
  group_by(Subject) %>% 
  arrange(-Score) %>% 
  slice(1:2)

# # A tibble: 8 × 3
# # Groups:   Subject [4]
#   Name                Subject     Score
#   <chr>               <chr>       <dbl>
# 1 Tan, Marissa        Calligraphy    82
# 2 Duncanson, Jonathan Calligraphy    82
# 3 Brett, Katie        English        98
# 4 Duncanson, Jonathan English        87
# 5 Brett, Katie        Math           98
# 6 Bauer, Elizabeth    Math           96
# 7 Duncanson, Jonathan Physics        93
# 8 Bauer, Elizabeth    Physics        93

ただ、この例の場合だとarrange()を使わない実装も可能です。

test_scores %>% 
  group_by(Subject) %>% 
  slice_max(Score, n = 2)

# # A tibble: 8 × 3
# # Groups:   Subject [4]
#   Name                Subject     Score
#   <chr>               <chr>       <dbl>
# 1 Tan, Marissa        Calligraphy    82
# 2 Duncanson, Jonathan Calligraphy    82
# 3 Brett, Katie        English        98
# 4 Duncanson, Jonathan English        87
# 5 Brett, Katie        Math           98
# 6 Bauer, Elizabeth    Math           96
# 7 Duncanson, Jonathan Physics        93
# 8 Bauer, Elizabeth    Physics        93

slice_max()slice()の兄弟関数のようなもので、指定した列名のmax値を返してくれます。 group_by()と組み合わせることで、グループごとのトップ値を抽出することができます。

slice()にはこのほかにもslice_head(), slice_tail(), slice_min(), slice_max(), slice_sample()があります。

まとめ

  • dplyr::arrange()関数は列でソートする関数
  • 複数列同時のソートも可
  • デフォルトは昇順(小さい値順)
  • その逆は-を付けるか、desc()関数を使う

コメント

タイトルとURLをコピーしました