[tidyverse関数辞書] dplyr::arrange()の使い方

はじめに
クイックリファレンス
関数について
サンプルコード
1. 成績表を科目ごとにソートする
まとめ

はじめに

こんにちは！このサイトではプログラミング未経験者でも簡単に始められるRプログラミングを解説しています！コピペで動くコードの紹介や、細かな関数の使い方解説も今後どんどん行っていきますので、是非フォローをよろしくお願いいたします?

この記事はdplyrの関数辞典を作りたい企画の第一弾です。
R 4.1.2、{dplyr} 1.0.8バージョン時点で動作確認をしています。

全ての内容を覚える必要はないので、忘れたときの辞書代わりとして活用してください！

クイックリファレンス

library(dplyr)

データフレーム %>%
  arrange(ソートしたい列名1, ソートしたい列名2)

iris %>%
  arrange(Sepal.Width, Sepal.Length) %>%
  tibble()

# # A tibble: 150 × 5
#    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#           <dbl>       <dbl>        <dbl>       <dbl> <fct>
#  1          5           2            3.5         1   versicolor
#  2          6           2.2          4           1   versicolor
#  3          6           2.2          5           1.5 virginica
#  4          6.2         2.2          4.5         1.5 versicolor
#  5          4.5         2.3          1.3         0.3 setosa
#  6          5           2.3          3.3         1   versicolor
#  7          5.5         2.3          4           1.3 versicolor
#  8          6.3         2.3          4.4         1.3 versicolor
#  9          4.9         2.4          3.3         1   versicolor
# 10          5.5         2.4          3.8         1.1 versicolor

関数について

dplyr::arrange()の概要

{tidyverse}に含まれる、{dplyr}の関数の一つです。

データフレーム(またはtibble)を特定の列で昇順ソートする関数で、引数オプションによっては降順ソートや、複数列でのソートも可能です。

数値データ列の昇順ソート

mtcarsを例にとります。

mtcarsデータはビルトインデータですので、準備をしなくとも読み込むことができます。以下のようなデータです。

mtcars %>% head()

#                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
# Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
# Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
# Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
# Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
# Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
# Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

rownamesには車種名があり、その他は各車種の性能を示しています。head()関数により冒頭6行だけを表示しています。

まずは燃費順でソートしてみます。燃費を表すのはmpg(Miles per gallon)の列です。

mtcars %>%
  arrange(mpg) %>%
  head()

#                      mpg cyl disp  hp drat    wt  qsec vs am gear carb
# Cadillac Fleetwood  10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
# Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4
# Camaro Z28          13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
# Duster 360          14.3   8  360 245 3.21 3.570 15.84  0  0    3    4
# Chrysler Imperial   14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
# Maserati Bora       15.0   8  301 335 3.54 3.570 14.60  0  1    5    8

このように、オプションを指定しなければ昇順に並び替えられます。

数値データ列の降順ソート

降順ソートには二通りの方法があります。最初に私がよく使う、-を付ける方法を紹介します。

mtcars %>%
  arrange(-mpg) %>%
  head()

#                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
# Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
# Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
# Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
# Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2

このように、数値データであればマイナスを列名に付けるだけで降順になります。しかし、項目：文字列のソートで後述しますが、文字列に対してマイナス記号は使えないので注意が必要です。

Snitch

ソートにより一番燃費がいい車はトヨタカローラ、などといったことが読み取れます。

もう一つの降順ソート方法はdesc()関数を使う方法です。

mtcars %>%
  arrange(desc(mpg)) %>%
  head()

このようにdesc関数を一回挟むことで降順(descending)にソートしています。私は直感的に「逆＝マイナス記号」という覚え方のできる前者を好んで使います。

文字列のソート

基本的に文字列も同じようにソートが可能です。

mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(car_name) %>% 
  head()
#             car_name  mpg cyl disp  hp drat    wt  qsec vs am gear carb
# 1        AMC Javelin 15.2   8  304 150 3.15 3.435 17.30  0  0    3    2
# 2 Cadillac Fleetwood 10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
# 3         Camaro Z28 13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
# 4  Chrysler Imperial 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
# 5         Datsun 710 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
# 6   Dodge Challenger 15.5   8  318 150 2.76 3.520 16.87  0  0    3    2

このように、アルファベット順のソートが可能です。

ひらがなのソートも可能です。漢字に対しては読み仮名に基づいてソートしてくれるわけではないので注意です。

tibble(Name = c("たろう", "じろう", "さぶろう", "あきこ")) %>% 
  arrange(Name)

# # A tibble: 4 × 1
#   Name    
#   <chr>   
# 1 あきこ  
# 2 さぶろう
# 3 じろう  
# 4 たろう

先程述べた通り、文字列のソートではマイナスが使えません。

mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(-car_name) %>% 
  head()

# Error: arrange() failed at implicit mutate() step. 
# * Problem with mutate() column ..1.
# ℹ ..1 = -car_name.
# x invalid argument to unary operator
# Run rlang::last_error() to see where the error occurred.

mtcars %>% 
  rownames_to_column("car_name") %>% 
  arrange(desc(car_name)) %>% 
  head()

#           car_name  mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# 1       Volvo 142E 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
# 2          Valiant 18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
# 3    Toyota Corona 21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
# 4   Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# 5    Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
# 6 Pontiac Firebird 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2

数字の入った文字列ソートには注意

たとえば、先頭に番号を付けたデータフレームがあったとします。

これを普通に文字列ソートすると、もしかしたら結果にギョっとするかもしれません。

tibble(
  numbers = c("1_one",
              "2_two",
              "3_three",
              "4_four",
              "5_five",
              "6_six",
              "7_seven",
              "8_eight",
              "9_nine",
              "10_ten",
              "11_eleven")
) %>% 
  arrange(numbers)

# # A tibble: 11 × 1
#    numbers  
#    <chr>    
#  1 1_one    
#  2 10_ten   
#  3 11_eleven
#  4 2_two    
#  5 3_three  
#  6 4_four   
#  7 5_five   
#  8 6_six    
#  9 7_seven  
# 10 8_eight  
# 11 9_nine

文字列ソートなので、”1″を優先的に見た結果「1,10,11,2,3,4,…」という並びになってしまいました。

これは明らかに意図しない挙動ですよね。いくつか対処方法はありますが、最もシンプルなのはstringr::str_order(numeric=TRUE)を使うことでしょう。

{stringr}は文字列操作に長けたパッケージですので、このように文字列に入った数値を数値として解釈してくれるようなオプションもあります。私もこの関数を知ったのはごく最近で、それまではtidyr::split()関数を使って数値の部分を新しい列に切り離してからソートなどをしていました。

tibble(
  numbers = c("1_one",
              "2_two",
              "3_three",
              "4_four",
              "5_five",
              "6_six",
              "7_seven",
              "8_eight",
              "9_nine",
              "10_ten",
              "11_eleven")
) %>% 
  arrange(str_order(numbers, numeric = TRUE))

文字列のソートは少し注意が必要

降順はdesc()を使う
先頭の数字を活用したいときはstr_order(列名, numeric=TRUE)
ひらがな対応、漢字非対応

複数列のソート

arrange()関数では複数列を同時にソートすることができます。

mtcars %>%
  arrange(gear, -mpg) %>%
  head(20)

#                      mpg cyl  disp  hp drat    wt  qsec vs am gear carb
# Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
# Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
# Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
# Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
# Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
# Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
# Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
# Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
# Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
# AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
# Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
# Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
# Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
# Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
# Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
# Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
# Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
# Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
# Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
# Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2

この例ではgear(ギア数)を昇順、mpg(Miles per gallon: 燃費データ)を降順でソートしています。引数が先頭に来るものを優先してソートしているので、上記例は「mpgを降順でソートしてからgearを昇順でソート」したような状態です。

サンプルコード

成績表を科目ごとにソートする

test_scores <- 
  tibble(
  Name = rep(randomNames::randomNames(20, ethnicity = 2), each = 4),
  Subject = rep(c("English", "Calligraphy", "Math", "Physics"), 20),
  Score = round(runif(n = 80, min = 0, max = 100))
)

test_scores
# # A tibble: 80 × 3
#    Name           Subject     Score
#    <chr>          <chr>       <dbl>
#  1 Rudman, Truong English        27
#  2 Rudman, Truong Calligraphy    39
#  3 Rudman, Truong Math           31
#  4 Rudman, Truong Physics        76
#  5 Tan, Marissa   English         5
#  6 Tan, Marissa   Calligraphy    82
#  7 Tan, Marissa   Math           91
#  8 Tan, Marissa   Physics        72
#  9 Heller, Amanda English        14
# 10 Heller, Amanda Calligraphy    46
# # … with 70 more rows

このようなサンプルデータを作ってみました。

このデータに対して、各教科ごとに最も得点の高い二人を抽出してみます。以下のようにarrange()関数を降順で使えば欲しいデータは得られそうです。

しかし、最も得点の高い二人を得るにはどうしたらよいでしょうか？

test_scores %>% 
  arrange(Subject, -Score)
# # A tibble: 80 × 3
#    Name                Subject     Score
#    <chr>               <chr>       <dbl>
#  1 Tan, Marissa        Calligraphy    82
#  2 Duncanson, Jonathan Calligraphy    82
#  3 Lu, Carolyn         Calligraphy    77
#  4 Brett, Katie        Calligraphy    76
#  5 Pushchak, Stephanie Calligraphy    72
#  6 Nguyen, Remy        Calligraphy    66
#  7 Chang, Jenny        Calligraphy    63
#  8 Kalam, Boan         Calligraphy    60
#  9 Choudhry, Angelina  Calligraphy    58
# 10 Hayashida, Eric     Calligraphy    52
# # … with 70 more rows

このようなケースでは、行変形を伴う操作としてgroup_by()およびslice()関数を使うと良いでしょう。

test_scores %>% 
  group_by(Subject) %>% 
  arrange(-Score) %>% 
  slice(1:2)

# # A tibble: 8 × 3
# # Groups:   Subject [4]
#   Name                Subject     Score
#   <chr>               <chr>       <dbl>
# 1 Tan, Marissa        Calligraphy    82
# 2 Duncanson, Jonathan Calligraphy    82
# 3 Brett, Katie        English        98
# 4 Duncanson, Jonathan English        87
# 5 Brett, Katie        Math           98
# 6 Bauer, Elizabeth    Math           96
# 7 Duncanson, Jonathan Physics        93
# 8 Bauer, Elizabeth    Physics        93

ただ、この例の場合だとarrange()を使わない実装も可能です。

test_scores %>% 
  group_by(Subject) %>% 
  slice_max(Score, n = 2)

# # A tibble: 8 × 3
# # Groups:   Subject [4]
#   Name                Subject     Score
#   <chr>               <chr>       <dbl>
# 1 Tan, Marissa        Calligraphy    82
# 2 Duncanson, Jonathan Calligraphy    82
# 3 Brett, Katie        English        98
# 4 Duncanson, Jonathan English        87
# 5 Brett, Katie        Math           98
# 6 Bauer, Elizabeth    Math           96
# 7 Duncanson, Jonathan Physics        93
# 8 Bauer, Elizabeth    Physics        93

slice_max()はslice()の兄弟関数のようなもので、指定した列名のmax値を返してくれます。 group_by()と組み合わせることで、グループごとのトップ値を抽出することができます。

slice()にはこのほかにもslice_head(), slice_tail(), slice_min(), slice_max(), slice_sample()があります。