はじめに
こんにちは!このサイトではプログラミング未経験者でも簡単に始められるRプログラミングを解説しています!コピペで動くコードの紹介や、細かな関数の使い方解説も今後どんどん行っていきますので、是非フォローをよろしくお願いいたします?
この記事はdplyrの関数辞典を作りたい企画の第一弾です。
R 4.1.2、{dplyr} 1.0.8バージョン時点で動作確認をしています。
全ての内容を覚える必要はないので、忘れたときの辞書代わりとして活用してください!
クイックリファレンス
library(dplyr)
データフレーム %>%
arrange(ソートしたい列名1, ソートしたい列名2)
iris %>%
arrange(Sepal.Width, Sepal.Length) %>%
tibble()
# # A tibble: 150 × 5
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# <dbl> <dbl> <dbl> <dbl> <fct>
# 1 5 2 3.5 1 versicolor
# 2 6 2.2 4 1 versicolor
# 3 6 2.2 5 1.5 virginica
# 4 6.2 2.2 4.5 1.5 versicolor
# 5 4.5 2.3 1.3 0.3 setosa
# 6 5 2.3 3.3 1 versicolor
# 7 5.5 2.3 4 1.3 versicolor
# 8 6.3 2.3 4.4 1.3 versicolor
# 9 4.9 2.4 3.3 1 versicolor
# 10 5.5 2.4 3.8 1.1 versicolor
関数について
dplyr::arrange()の概要
{tidyverse}
に含まれる、{dplyr}
の関数の一つです。
データフレーム(またはtibble
)を特定の列で昇順ソートする関数で、引数オプションによっては降順ソートや、複数列でのソートも可能です。
数値データ列の昇順ソート
mtcars
を例にとります。
mtcars
データはビルトインデータですので、準備をしなくとも読み込むことができます。 以下のようなデータです。
mtcars %>% head()
# mpg cyl disp hp drat wt qsec vs am gear carb
# Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
# Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
# Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
# Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
# Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
# Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
rownames
には車種名があり、その他は各車種の性能を示しています。head()
関数により 冒頭6行だけを表示しています。
まずは燃費順でソートしてみます。燃費を表すのはmpg
(Miles per gallon)の列です。
mtcars %>%
arrange(mpg) %>%
head()
# mpg cyl disp hp drat wt qsec vs am gear carb
# Cadillac Fleetwood 10.4 8 472 205 2.93 5.250 17.98 0 0 3 4
# Lincoln Continental 10.4 8 460 215 3.00 5.424 17.82 0 0 3 4
# Camaro Z28 13.3 8 350 245 3.73 3.840 15.41 0 0 3 4
# Duster 360 14.3 8 360 245 3.21 3.570 15.84 0 0 3 4
# Chrysler Imperial 14.7 8 440 230 3.23 5.345 17.42 0 0 3 4
# Maserati Bora 15.0 8 301 335 3.54 3.570 14.60 0 1 5 8
このように、オプションを指定しなければ昇順に並び替えられます。
数値データ列の降順ソート
降順ソートには二通りの方法があります。最初に私がよく使う、-
を付ける方法を 紹介します。
mtcars %>%
arrange(-mpg) %>%
head()
# mpg cyl disp hp drat wt qsec vs am gear carb
# Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
# Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
# Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
# Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
# Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
# Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
このように、数値データであればマイナスを列名に付けるだけで降順になります。 しかし、項目:文字列のソートで後述しますが、文字列に対してマイナス記号は使えないので注意が必要です。
ソートにより一番燃費がいい車はトヨタカローラ、などといったことが読み取れます。
もう一つの降順ソート方法はdesc()
関数を使う方法です。
mtcars %>%
arrange(desc(mpg)) %>%
head()
このようにdesc関数を一回挟むことで降順(descending)にソートしています。 私は直感的に「逆=マイナス記号」という覚え方のできる前者を好んで使います。
文字列のソート
基本的に文字列も同じようにソートが可能です。
mtcars %>%
rownames_to_column("car_name") %>%
arrange(car_name) %>%
head()
# car_name mpg cyl disp hp drat wt qsec vs am gear carb
# 1 AMC Javelin 15.2 8 304 150 3.15 3.435 17.30 0 0 3 2
# 2 Cadillac Fleetwood 10.4 8 472 205 2.93 5.250 17.98 0 0 3 4
# 3 Camaro Z28 13.3 8 350 245 3.73 3.840 15.41 0 0 3 4
# 4 Chrysler Imperial 14.7 8 440 230 3.23 5.345 17.42 0 0 3 4
# 5 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
# 6 Dodge Challenger 15.5 8 318 150 2.76 3.520 16.87 0 0 3 2
このように、アルファベット順のソートが可能です。
ひらがなのソートも可能です。漢字に対しては読み仮名に基づいてソートしてくれるわけではないので注意です。
tibble(Name = c("たろう", "じろう", "さぶろう", "あきこ")) %>%
arrange(Name)
# # A tibble: 4 × 1
# Name
# <chr>
# 1 あきこ
# 2 さぶろう
# 3 じろう
# 4 たろう
先程述べた通り、文字列のソートではマイナスが使えません。
mtcars %>%
rownames_to_column("car_name") %>%
arrange(-car_name) %>%
head()
# Error: arrange() failed at implicit mutate() step.
# * Problem with mutate()
column ..1
.
# ℹ ..1 = -car_name
.
# x invalid argument to unary operator
# Run rlang::last_error()
to see where the error occurred.
mtcars %>%
rownames_to_column("car_name") %>%
arrange(desc(car_name)) %>%
head()
# car_name mpg cyl disp hp drat wt qsec vs am gear carb
# 1 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
# 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
# 3 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
# 4 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
# 5 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2
# 6 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
数字の入った文字列ソートには注意
たとえば、先頭に番号を付けたデータフレームがあったとします。
これを普通に文字列ソートすると、もしかしたら結果にギョっとするかもしれません。
tibble(
numbers = c("1_one",
"2_two",
"3_three",
"4_four",
"5_five",
"6_six",
"7_seven",
"8_eight",
"9_nine",
"10_ten",
"11_eleven")
) %>%
arrange(numbers)
# # A tibble: 11 × 1
# numbers
# <chr>
# 1 1_one
# 2 10_ten
# 3 11_eleven
# 4 2_two
# 5 3_three
# 6 4_four
# 7 5_five
# 8 6_six
# 9 7_seven
# 10 8_eight
# 11 9_nine
文字列ソートなので、”1″を優先的に見た結果「1,10,11,2,3,4,…」という並びになってしまいました。
これは明らかに意図しない挙動ですよね。いくつか対処方法はありますが、 最もシンプルなのはstringr::str_order(numeric=TRUE)
を使うことでしょう。
{stringr}
は文字列操作に長けたパッケージですので、このように文字列に入った数値を 数値として解釈してくれるようなオプションもあります。 私もこの関数を知ったのはごく最近で、それまではtidyr::split()
関数を使って数値の 部分を新しい列に切り離してからソートなどをしていました。
tibble(
numbers = c("1_one",
"2_two",
"3_three",
"4_four",
"5_five",
"6_six",
"7_seven",
"8_eight",
"9_nine",
"10_ten",
"11_eleven")
) %>%
arrange(str_order(numbers, numeric = TRUE))
文字列のソートは少し注意が必要
- 降順はdesc()を使う
- 先頭の数字を活用したいときはstr_order(列名, numeric=TRUE)
- ひらがな対応、漢字非対応
複数列のソート
arrange()
関数では複数列を同時にソートすることができます。
mtcars %>%
arrange(gear, -mpg) %>%
head(20)
# mpg cyl disp hp drat wt qsec vs am gear carb
# Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
# Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
# Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
# Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
# Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
# Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
# Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
# Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
# Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3
# AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2
# Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4
# Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
# Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4
# Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4
# Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4
# Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
# Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
# Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
# Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
# Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
この例ではgear
(ギア数)を昇順、mpg
(Miles per gallon: 燃費データ)を降順で ソートしています。 引数が先頭に来るものを優先してソートしているので、 上記例は「mpgを降順でソートしてからgearを昇順でソート」したような状態です。
サンプルコード
成績表を科目ごとにソートする
test_scores <-
tibble(
Name = rep(randomNames::randomNames(20, ethnicity = 2), each = 4),
Subject = rep(c("English", "Calligraphy", "Math", "Physics"), 20),
Score = round(runif(n = 80, min = 0, max = 100))
)
test_scores
# # A tibble: 80 × 3
# Name Subject Score
# <chr> <chr> <dbl>
# 1 Rudman, Truong English 27
# 2 Rudman, Truong Calligraphy 39
# 3 Rudman, Truong Math 31
# 4 Rudman, Truong Physics 76
# 5 Tan, Marissa English 5
# 6 Tan, Marissa Calligraphy 82
# 7 Tan, Marissa Math 91
# 8 Tan, Marissa Physics 72
# 9 Heller, Amanda English 14
# 10 Heller, Amanda Calligraphy 46
# # … with 70 more rows
このようなサンプルデータを作ってみました。
このデータに対して、各教科ごとに最も得点の高い二人を抽出してみます。 以下のようにarrange()
関数を降順で使えば欲しいデータは得られそうです。
しかし、最も得点の高い二人を得るにはどうしたらよいでしょうか?
test_scores %>%
arrange(Subject, -Score)
# # A tibble: 80 × 3
# Name Subject Score
# <chr> <chr> <dbl>
# 1 Tan, Marissa Calligraphy 82
# 2 Duncanson, Jonathan Calligraphy 82
# 3 Lu, Carolyn Calligraphy 77
# 4 Brett, Katie Calligraphy 76
# 5 Pushchak, Stephanie Calligraphy 72
# 6 Nguyen, Remy Calligraphy 66
# 7 Chang, Jenny Calligraphy 63
# 8 Kalam, Boan Calligraphy 60
# 9 Choudhry, Angelina Calligraphy 58
# 10 Hayashida, Eric Calligraphy 52
# # … with 70 more rows
このようなケースでは、行変形を伴う操作としてgroup_by()
およびslice()
関数を使うと良いでしょう。
test_scores %>%
group_by(Subject) %>%
arrange(-Score) %>%
slice(1:2)
# # A tibble: 8 × 3
# # Groups: Subject [4]
# Name Subject Score
# <chr> <chr> <dbl>
# 1 Tan, Marissa Calligraphy 82
# 2 Duncanson, Jonathan Calligraphy 82
# 3 Brett, Katie English 98
# 4 Duncanson, Jonathan English 87
# 5 Brett, Katie Math 98
# 6 Bauer, Elizabeth Math 96
# 7 Duncanson, Jonathan Physics 93
# 8 Bauer, Elizabeth Physics 93
ただ、この例の場合だとarrange()
を使わない実装も可能です。
test_scores %>%
group_by(Subject) %>%
slice_max(Score, n = 2)
# # A tibble: 8 × 3
# # Groups: Subject [4]
# Name Subject Score
# <chr> <chr> <dbl>
# 1 Tan, Marissa Calligraphy 82
# 2 Duncanson, Jonathan Calligraphy 82
# 3 Brett, Katie English 98
# 4 Duncanson, Jonathan English 87
# 5 Brett, Katie Math 98
# 6 Bauer, Elizabeth Math 96
# 7 Duncanson, Jonathan Physics 93
# 8 Bauer, Elizabeth Physics 93
slice_max()
はslice()
の兄弟関数のようなもので、指定した列名のmax値を返してくれます。 group_by()
と組み合わせることで、グループごとのトップ値を抽出することができます。
slice()
にはこのほかにもslice_head()
, slice_tail()
, slice_min()
, slice_max()
, slice_sample()
があります。
まとめ
dplyr::arrange()
関数は列でソートする関数- 複数列同時のソートも可
- デフォルトは昇順(小さい値順)
- その逆は-を付けるか、desc()関数を使う
コメント