よりよい Perl, Awk, sed としての Ruby

[2014/06/21新規] [2014/09/12更新]

主な形式
sed, Awk 風な説明
sed, Awk 風な Ruby スクリプトの概要
簡単な説明
Ruby スクリプトの概要
例題
参考文献

主な形式

ruby -[n|p][l]e 'script' [file...]
ruby [-n|-p][-l] script_file [file...]

sed, Awk 風な説明

ruby -n は『レコード』と呼ばれる行を一つずつパターンスペース '$_' に入力する。ruby -p はさらにそのパターンスペース '$_' を出力する。Ruby スクリプトを '-e script' や 'script_file' で指定することにより様々な処理をすることができる。

まず、入力行は sed, Awk とは異なり、Perl 同様、レコードセパレータである改行コード '\n' が取り除かれずにパターンスペース '$_' に入る。但し、'-l' オプションを指定すると、改行コードが取り除かれ、出力のレコードセパレータに改行コード '\n' が設定される。

また、ruby -na は、Awk のように、フィールドセパレータである空白を区切りとして '$F[0]', '$F[1]', '$F[2]', 〜にその行の『フィールド』群が入る。

sed, Awk 風な Ruby スクリプトの概要

Awk のように 'BEGIN', 'END' のような前処理と、後処理を記す特殊ブロックが使えるが、他はすべて主処理となる。そして、sed, Awk のようなマッチの範囲「式, 式」に処理されるブロックはサポートされないが、条件式で '..' 演算子(２つの式が sed スタイルのときは '...' 演算子)を用いることでそれと似た制御ができる。

例えば以下は、Awk では awk '/^<pre>/,/<\/pre>$/' となる、HTML の 'pre' タグを含むそれに囲まれた行を表示する Ruby スクリプトである。

	ruby -ne 'print if (/^<pre>/../<\/pre>$/)'

ここで、'print' は 'print $_' と等価である。

このように Ruby スクリプトは、オプションにより sed, Awk 風に書けるようになっている。しかし、正規表現による置換についてはその限りではない。

例えば、sed では sed -e 's/&/\&/g;s/</\</g;s/>/\>/g' となる、ソースコードを HTML にペーストできるように「<」から「<」への変換等を行なう Ruby スクリプトは以下のように書かなければならない。

	ruby -pe 'gsub(/&/,"&amp;"); gsub(/</, "&lt;"); gsub(/>/, "&gt;")'

簡単な説明

ruby -n は『レコード』と呼ばれる行を一つずつパターンスペース '$_' に入力する、以下とほぼ等価なスクリプトとなる。

	ruby -e 'while gets do … end'

これはさらに以下とほぼ等価なスクリプトとなる。

	ruby -e '
ARGV.unshift("-") unless ARGV.length > 0
while (filename = ARGV.shift) do
  argf = filename == "-" ? STDIN : open(filename)
  while ($_ = argf.gets) do
    …
  end
  argf.close
end'

ruby -p はさらにそのパターンスペース '$_' を出力する、以下とほぼ等価なスクリプトとなる。

	ruby -e 'while gets do …; print end'

これはさらに以下とほぼ等価なスクリプトとなる。

	ruby -e '
ARGV.unshift("-") unless ARGV.length > 0
while (filename = ARGV.shift) do
  argf = filename == "-" ? STDIN : open(filename)
  while ($_ = argf.gets) do
    …
    print $_
  end
  argf.close
end'

まず、入力行は sed, Awk とは異なり、レコードセパレータである改行コード '\n' が取り除かれずにパターンスペース '$_' に入る。但し、'-l' オプションを指定すると、改行コードが取り除かれ、出力のレコードセパレータに改行コード '\n' が設定される、以下とほぼ等価なスクリプトとなる。

	ruby -e 'BEGIN{ $\ = $/ }; while gets do chomp!; … end'

また、ruby -na は、Awk のように、フィールドセパレータである空白を区切りとして '$F[0]', '$F[1]', '$F[2]', 〜にその行の『フィールド』群が入る、以下とほぼ等価なスクリプトとなる。

	ruby -e 'while gets do $F = $_.split; … end'

このように Ruby は様々な場面で省略可能な引数などのサポートがあり、簡素に書ける反面、一見不明瞭なコードになりがちだが Perl ほどではない。

Ruby スクリプトの概要

例えば先の、HTML の 'pre' タグを含むそれに囲まれた行を表示する Ruby スクリプトは、省略せずに書けば以下のようになる。

	ruby -e '
while $<.gets do
  $stdout.print $_ if ($_ =~ /^<pre>/ .. $_ =~ /<\/pre>$/)
end

例えば先の、ソースコードを HTML にペーストできるように「<」から「<」への変換等を行なう Ruby スクリプトは、省略せずに書けば以下のようになる。

	ruby -e '
while $<.gets do
  $_.gsub!(/&/, "&amp;")
  $_.gsub!(/</, "&lt;")
  $_.gsub!(/>/, "&gt;")
  $stdout.print $_
end'

スクリプトは式のみからなり、プログラミング言語 C などとは異なり、制御構文さえも式である。式には、変数と定数、さまざまなリテラル、それらからなる演算子式、if や while などの制御構造、メソッド呼び出し、クラス／メソッドの定義がある。式と式の区切りは改行か ';' で区切り文となる。ブロック '{' … '}' や 'do' … 'end' 内の最後の区切り ';' は不要、改行は省略できる。よって、Perl と異なり ';' は改行がある限りまず不要である。

変数、定数、リテラル

以下の変数、定数、リテラルがある。

小文字から始まるローカル変数
'$' から始まるグローバル変数
'@' から始まるインスタンス変数
'@@' から始まるクラス変数
'self', 'nil', 'true', 'false' '__FILE__', '__LINE__' の代入不可の疑似変数
数値リテラル(一般的な形式のほかに、C/C++ における、一文字に代わる '?C', '?' 記法がある。但し 1.8 以前)
文字列リテラル('?C', '?' 記法は 1.9 以降は文字列リテラル)、及び、バックスラッシュ記法、式展開と変数展開、コマンド展開、ヒアドキュメント
正規表現リテラル … '/…/', '%r(…)'
配列式 … '[ 0, 1, …]'
ハッシュ式 … '{ 0=>1, 1=>2, …}'
範囲オブジェクト … '1 .. 10'（但し、降順はできない）, '/…/ .. /…/', '(…) ... (…)'
':' から始まるシンボル
％記法

さて、Ruby には Perl における「リファレンス」などは無い、が、オブジェクトのインスタンス変数へのアクセスによって、それが不要となっている。

詳しくは、Ruby リファレンスマニュアル「変数と定数」, 「リテラル」を参照のこと。

真偽値

Ruby では数値 '0' は「偽」ではない。これは Perl や C/C++ などのプログラマが最初に戸惑う仕様であろう。Ruby での「偽」は 'nil' と 'false' のみで、他のオブジェクトはすべて「真」である。

つまり、Ruby では、なんと '!0' は「真」ではない。これは言語仕様に C/C++ のような「bool 値への暗黙の型変換」が採り入れられていないからであろうが、Perl のように意図せず「偽」になる作用とのトレードオフなのだろう。

変数展開、式展開

文字列リテラルの "…" や '%Q!…!' のなかで変数展開を行なうには、変数を '$_' だとして、"#{$_}" や '%Q!#{$_}!' のように '#{…}' で囲む必要がある。Perl やシェルと比べて多少面倒だが、展開されるのは変数のみというわけではなく、囲まれた式そのものなので、Perl やシェルよりも高機能である。よって、以下のような式展開もできてしまう。

#!/usr/bin/ruby
a = [ 0, 1, 2, 3, ]
p %Q!#{a.join(",")}\n!	#=> "0,1,2,3\n"

演算子式

以下の演算子式がある。

`::`	スコープ(再定義不可)
`[]`	配列またはハッシュ添字
`+ ! ~`	単項正、論理否定、ビット否定
`**`	二項累乗
`-`	単項負
`* / %`	二項乗、除、法
`+ -`	二項加、減
`<< >>`	ビット左、右シフト
`&`	ビットAND
`\| ^`	ビットOR、ビットXOR
`> >= < <=`	関係不等号
`<=> == === != =~ !~`	関係等号、関係不等号、マッチ等号、マッチ不等号
`&&`	論理AND(再定義不可)
`\|\|`	論理OR(再定義不可)
`.. ...`	範囲式(再定義不可)
`?:`	三項条件(再定義不可)
`= += -= = /= %= *= &= \|= ^= <<= >>= &&= \|\|=`	単純代入、複合代入(再定義不可)
`not`	論理否定(再定義不可)
`and or`	論理AND、論理OR(再定義不可)

特に、Ruby の演算子は Perl よりもむしろ C++ に近く、文字列の連結は Perl のように '.' ではなく '+' 二項加算演算子である。

しかし、多くのプログラミング言語にある ++, -- の前置・後置ともに、Ruby には存在しない。これは設計思想によるもので、慣れれば Ruby では不要であることがわかってくる。とは言え、++, -- の前置・後置は「返値」のあるメソッドによるオブジェクトの破壊的操作と捉えれば導入可能に思えるのだが… すると +=, -= に加えて =+, =- のような新たな演算子も導入可能であろう。

詳しくは、Ruby リファレンスマニュアル「演算子式」を参照のこと。

多重代入

Ruby には C/C++ などにはない「多重代入」なる式がある。Perl のリスト代入 '($a, $b, $c) = (1, 2, 3)' ともまた異なり、Ruby では '$a, $b, $c = 1, 2, 3' というスタイルとなる。

必ず、Ruby リファレンスマニュアル「多重代入」は一読しておいた方がよいだろう。

制御構造

以下の制御構造がある。

if … [then|^J …] [elsif … then|^J …] [else …] end, unless … [then|^J …] [elsif … then|^J …] [else …] end
… if 修飾子, … unless 修飾子
case […] [when … then|^J …] [else …] end
while … [do|^J …] end, until … [do|^J …] end
… while 修飾子, … until 修飾子
for … in … [do|^J …] end
break […], next […]
redo
raise …
begin … [rescue […] then|^J … [retry] [else …] [ensure …] end
… rescure … 修飾子
return …
BEGIN{ … }, END{ … }

ここで、then, do は省略できると公式には書いてあるが、正確には改行を伴う時のみ省略可であることに注意。

特に、'for (i=0; i<10; i++)' のような繰り返し構文がないので、代わりに '10.times do |i| … end' のようにイテレータによるブロック評価で実現する。しかしこれだと、'for (i=10; i>0; i--)' のような降順の繰り返しができないので、降順の場合は '10.downto(1) do |i| … end' のようにイテレータによるブロック評価で実現する。

詳しくは、Ruby リファレンスマニュアル「制御構造」を参照のこと。

正規表現

Ruby の正規表現は Perl とほとんど同じだ。特に Ruby 1.9 以降はほぼ上位互換となっている。そして、Ruby 1.8 以前は名前付きグループはサポートされていないので注意。

但し、Perl における '%-' に対応する機能がサポートされていないようだ。

定数と特殊変数

Ruby における定数と特殊変数は、すべてのクラスのスーパークラス 'Object' の定数や 'Kernel' モジュールの特殊変数がある。

Object クラス

主な定数は以下の通りである。

ARGV … コマンドライン引数の配列 ARGV[0], ARGV[1] … ARGV[ARGV.size-1]
ENV … 環境変数のハッシュ。ENV[名前]
STDIN … 標準入力
STDOUT … 標準出力
STDERR … 標準エラー出力
ARGF … 現在読み込み中のファイル(ARGV[0..] や STDIN)。'ARGF.file' でファイルオブジェクト、'ARGF.filename' でファイル名が得られる。

Kernel モジュール

まず、グローバルスコープの Kernel 特殊変数には主に以下がある。

$* … Object::ARGV の別名
$0 … 実行中のスクリプト名
$PROGRAM_NAME … 同上
$, … 出力のフィールドセパレータ。既定値は "nil"
$/ … 入力のレコードセパレータ。既定値は "\n"
$-0 … 同上
$; … 入力のフィールドセパレータ。既定値は空白
$-F … 同上
$. … 入力のレコード数
$\ … 出力のレコードセパレータ。既定値は "nil"
$_ … 既定のパターンスペース。gets や readline などで代入され、chomp, split などの既定のレシーバ, print などの既定の引数である。
$< … Object::ARGF の別名
$FILENAME … Object::ARGF.filename の別名
$stdin … Object::STDIN が初期値
$> … Object::STDOUT が初期値
$stdout … 同上
$stderr … Object::STDERR が初期値

次に、スレッドローカルスコープの Kernel 特殊変数には主に以下がある。

$! … 最後に発生した例外オブジェクト
$& … 正規表現で最後にマッチした文字列
$` … 正規表現で最後にマッチした直前の文字列
$' … 正規表現で最後にマッチした直後の文字列
$+ … 正規表現で最後にマッチした最後のグループの文字列
$1, $2 … 正規表現で最後にマッチしたグループの文字列
$~ … 正規表現で最後にマッチしたマッチオブジェクト

ちなみに、グローバル変数のスコープには「グローバルスコープ」と「ローカルスコープ」と「スレッドローカルスコープ」がある。

エスケープ文字

Ruby におけるエスケープ文字(バックスラッシュ記法と正規表現におけるメタ文字)は以下の通りである。

\a - "^G,BEL,アラート(alert)"
\b - "^H,BS,バックスペース(backspace)"、但し、[] 内のみ。
\t - "^I,HT,水平タブ(horizontal tab)"
\n - "^J,LF,改行(new-line)"
\f - "^L,FF,改頁(form feed)"
\r - "^M,CR,行頭復帰(carriage return)"
\v - "^K,VT,垂直タブ(vertical tab)"、但し、[] 内のみ。
\e - "^[,ESC,エスケープ(escape)"
\OOO - 8進数の文字コード
\xHH - 16進数の文字コード
\cC - 制御文字('?C.ord & ~0x60')。C には任意の文字。
\C-c - 制御文字('?c.ord & ~0x60')。c には任意の文字。
\M-c - メタ文字('?c.ord | 0x80')。c には任意の文字。
\M-\C-c - メタ制御文字('?c.ord & ~0x60 | 0x80')。c には任意の文字。
\uHHHH - Unicode 文字 (1.9以降)
\u{HHHH} - Unicode 文字 (1.9以降)
\w - 英数字とアンダースコア「_」（以降、正規表現に関して）
\W - 上記以外
\s - 空白
\S - 上記以外
\d - 数字
\D - 上記以外
\p{} - Unicode プロパティの文字 (1.9以降)
\P{} - 上記以外 (1.9以降)
\X - Unicode「拡張書記素クラスタ」。[] 内では不可。 (1.9以降)
\K - 直前を保持、$& に含めない。[] 内では不可。 (1.9以降)
\h - 16進数字（水平空白の文字クラスではない） (1.9以降)
\H - 上記以外（水平空白の文字クラスではない） (1.9以降)
\R - 総称的な改行。[] 内では不可。 (1.9以降)
\b - ワード境界。但し、[] 内では上述。
\B - 上記以外。[] 内では不可。
\A - 文字列の先頭。[] 内では不可。
\Z - 文字列の末尾。[] 内では不可。
\z - 同上。[] 内では不可。
\G - 文字列の先頭か前回のマッチ直後。[] 内では不可。
\1 - 後方参照。1 には正の整数。[] 内では不可。
\g1 - 後方参照。1 には正の整数。[] 内では不可。0 なら再帰マッチ (1.9以降)
\g<1> - 後方参照。1 には正の整数。[] 内では不可。0 なら再帰マッチ (1.9以降)
\g<-1> - 相対後方参照。1 には負の整数。[] 内では不可。 (1.9以降)
\k'name' - 名前後方参照。[] 内では不可。 (1.9以降)
\k<name> - 同上

このように Ruby 1.9 以降では非常に多くのエスケープ文字がサポートされる。

組み込みライブラリ

Ruby にはクラス、モジュール、オブジェクトにより、組み込みライブラリが標準でサポートされる。

ここで主な組み込みライブラリのリファレンスを列挙しておく。

カーネルモジュール … gets, chomp, print, rand, exit などはここで定義される。
数値クラス … abs, ceil, floor, round などはここで定義される。
整数クラス … times, downto, upto などはここで定義される。
浮動小数点クラス … abs, ceil, floor, round, nan? などはここで定義される。
浮動小数点演算モジュール … sin, cos, exp, log などはここで定義される。
配列クラス … each, push, pop, shift, unshift, sort, bsearch などはここで定義される。
ハッシュクラス … keys, values, each などはここで定義される。
文字列クラス … chomp, chomp!, tr, tr!, gsub, gsub! などはここで定義される。
正規表現クラス … last_match などはここで定義される。
正規表現マッチクラス … post_match, pre_match などはここで定義される。
IO クラス … open, read, seek, tell などはここで定義される。

リンク先のメソッドや定数をよく参考にすること。

以下に '$_' が省略可能なメソッドや式を列挙する。

メソッド	推奨代替	説明
`chomp`	`$_.chomp!`	(`'-n'`\|`'-p'`オプション時のみ)文字列 `'$_'` の末尾の改行を除去する Kernel モジュール関数
`chop`	`$_.chop!`	(`'-n'`\|`'-p'`オプション時のみ)文字列 `'$_'` の末尾を除去する Kernel モジュール関数
`gets`	`$_ = ARGF.gets`	`'ARGF'` から一行を `'$_'` に読み込み(ファイル終端なら `'nil'`)、それを返す Kernel モジュール関数
`readline`	`$_ = ARGF.readline`	`'ARGF'` から一行を `'$_'` に読み込み(ファイル終端なら、例外)、それを返す Kernel モジュール関数
`print`	`print $_`	`'$_'` を `'$stdout'` に出力する Kernel モジュール関数
`sub(/…/, '…')`	`$_.sub!(/…/, '…')`	(`'-n'`\|`'-p'`オプション時のみ)文字列 `'$_'` を置換する Kernel モジュール関数
`gsub(/…/, '…')`	`$_.gsub!(/…/, '…')`	(`'-n'`\|`'-p'`オプション時のみ)文字列 `'$_'` を大域置換するKernel モジュール関数
`if /…/`	`if $_ =~ /…/`	正規表現リテラルを伴う制御構造の if 条件式
`unless /…/`	`unless $_ =~ /…/`	正規表現リテラルを伴う制御構造の unless 条件式
`while /…/`	`while $_ =~ /…/`	正規表現リテラルを伴う制御構造の while 繰り返し式
`until /…/`	`until $_ =~ /…/`	正規表現リテラルを伴う制御構造の until 繰り返し式

例題

代表的な Unix コマンドに相当する Ruby スクリプトを以下にあげる。

`cat`

	ruby -pe ''

このように、cat と同じ ruby スクリプトは「空」となるが、「ruby -ne 'print'」でもよいし、「ruby -ne 'print $_'」でもよいし、「ruby -e 'print while gets'」でもよいし、「perl -e 'while gets do print end'」でもよい。

よりよい Perl, Awk, sed としての Ruby

Contents

主な形式

sed, Awk 風な説明

sed, Awk 風な Ruby スクリプトの概要

簡単な説明

Ruby スクリプトの概要

変数、定数、リテラル

真偽値

変数展開、式展開

演算子式

多重代入

制御構造

正規表現

定数と特殊変数

Object クラス

Kernel モジュール

エスケープ文字

組み込みライブラリ

例題

`cat`

`head -n 1`

`tail -n 1`

`head -n 8`

`tail -n 8`

`wc -l`

`wc -c`

`wc -w`

`grep '^$'`

`grep -v '^$'`

`grep -E '^.+'`

`grep -E -v '^.+'`

`cut -d ':' -f 1,6`

`cut -d ':' -f 1,6 -s`

`fold -b`

`tee filename`

`tr 'A-Za-z' 'N-ZA-Mn-za-m'`

`cat -n`

`cat -b`

`uniq`, `uniq -d`, `uniq -u`

`expand`

`unexpand -a`

`rev`

`tac`, `tail -r`

`fold`

`fold -s`

`strings -a [-n 4] [-t d|o|x]`

`printenv`

`yes [expletive]`

`cmp [-l|-s] file1 file2`

`paste [-d delimiter] [-s] file ...`

`comm [-1] [-2] [-3] file1 file2`

`join [-a file_number|-v file_number] ... [-t char] [-1 field] [-2 field] file1 file2`

`split [-l line_count|-b number[k|m]] [-a suffix_length] [file [name]]`

`csplit [-k] [-s] [-f prefix] [-n number] file arg1 ...argn`

`seq [-f format] [-s separator] [low [increment]] hi`

`jot [-c|-n|-r] [-b word] [-w word] [-s string] [reps [begin [end [s]]]]`

`shuf [-r [-n times]] -e arg...`, `shuf [-r [-n times]] -i 1-6`, `shuf [-r [-n times]] [filename]`

`sort [-c|-m] [-u] [-r] [-d|-f|-i]`

`sort -c [-u] [-r] [-d|-f|-i]`

`sort -m [-u] [-r] [-d|-f|-i]`

`sort [-r] [-u] [-d|-f|-i]`

参考文献