'^$'
`'^$'
`'^.+'
`'^.+'
`':'
-f 1,6`':'
-f 1,6 -s`'A-Za-z'
'N-ZA-Mn-za-m'
`
sed [-n] [options] [-e] 'script' [file...]
'-n'
パターンスペース強制出力の抑止'-f script-file'
スクリプトファイルの指定'-E'
拡張正規表現(POSIX sed の場合)'-r'
拡張正規表現(GNU sed の場合)ストリームエディタ sed は一行ずつ入力しフィルタする。スクリプトを指定することにより様々な編集を施すことができる。
まず、入力行は、末尾の改行コード '\n'
が取り除かれパターンスペースに入る。特に、'\n'
は行の追加の区切りに用いられる。
パターンスペース強制出力の抑止をしていなければ、自動的にパターンスペースが標準出力される。
利用者は、パターンスペースと呼ばれるバッファに対して、コマンドにより、文字置換や正規表現による置換が出来る。 また、アドレスやコマンドリストのグループで柔軟な編集が可能となる。 さらに、パターンスペースに加えて、ホールドスペースと呼ばれるバッファを利用することが出来る。また、 指定したラベルへの遷移、正規表現による条件付き遷移、入力ファイルとは別の外部ファイルとの入出力などができる。
sed スクリプトのコマンドは以下の通りである。
:label | "b", "t" コマンドでの移動先を指すラベル |
#comment | コメント行 |
[address]= | 行番号の標準出力コマンド |
[address]a\^J | 直下のテキストのパターンスペースへの追加コマンド。複数行の場合は行末の改行を '\' でエスケープ。追加は '\n' に続く |
[address]i\^J | 直下のテキストの標準出力コマンド。複数行の場合は行末の改行を '\' でエスケープ |
[address]q | 終了コマンド。パターンスペース強制出力の抑止がされてなければパターンスペースを標準出力、終了。 |
[address]r file | ファイルを標準出力コマンド |
[address][,address]{command;... } | コマンドリストのグループ |
[address][,address]b [label] | ラベルへの遷移コマンド。ラベルを省略した場合はスクリプトの最後へ遷移 |
[address][,address]c\^J | 直下のテキストのパターンスペースへの書換コマンド。スクリプトの最初へ遷移 |
[address][,address]d | パターンスペースの消去コマンド。スクリプトの最初へ遷移 |
[address][,address]D | パターンスペースの最初の行の消去コマンド。パターンスペースがまだ残っているならパターンスペースに新たな入力はしない。そして、スクリプトの最初へ遷移 |
[address][,address]g | ホールドスペースのパターンスペースへの書換コマンド |
[address][,address]G | ホールドスペースのパターンスペースへの追加コマンド。追加は '\n' に続く |
[address][,address]h | パターンスペースのホールドスペースへの書換コマンド |
[address][,address]H | パターンスペースのホールドスペースへの追加コマンド。追加は '\n' に続く |
[address][,address]n | 次の入力行のパターンスペースへの置換コマンド。パターンスペース強制出力の抑止がされてなければパターンスペースを標準出力。次の入力行がなければ、スクリプトの最後へ遷移、終了 |
[address][,address]N | 次の入力行のパターンスペースへの追加コマンド。行番号が変わることに注意。次の入力行がなければ、スクリプトの最後へ遷移、終了 |
[address][,address]p | パターンスペースの標準出力コマンド |
[address][,address]P | パターンスペースの最初の行の標準出力コマンド |
[address][,address]s/BRE/replacement/flags | 正規表現による置換 |
[address][,address]t [label] | 直近の置換が成功した時のラベルへの遷移コマンド。ラベルを省略した場合はスクリプトの最後へ遷移 |
[address][,address]w file | パターンスペースのファイルへの追加コマンド |
[address][,address]x | パターンスペースとホールドスペースの交換コマンド |
[address][,address]y/srcstr/dststr/ | 文字置換 |
コマンドをセミコロン ';'
または改行で繋げるとコマンドリストになる。
前節の address は以下の通りである。
number | パターンスペースへの入力の行番号 |
/BRE/ | パターンスペースが基本正規表現にマッチした行 |
$ | 最終行 |
address! | アドレスの否定 |
BRE は基本正規表現(Basic Regular Expressions)であるが、オプションで ERE - 拡張正規表現(Extended Regular Expressions)を書くことも可能。
&
- マッチ全体\^J
- 改行\
number - 後方参照g
- すべてのマッチを置換。既定値は1番目のみ。p
- 置換が成されたら標準出力I
, i
- 大文字小文字の無視M
, m
- 複数行モードPOSIX sed におけるエスケープ文字は以下の通り。
\n
- "^J,LF,改行(new-line)", 但し、sed では末尾の改行コードは取り除かれるので、行の追加で付加された区切りにマッチする。POSIX sed では、置換先と文字クラス内ではこのエスケープが使えないことが多々あり、注意が必要。GNU sed における拡張エスケープ文字は以下の通り。
\a
- "^G,BEL,アラート(alert)"\t
- "^I,HT,水平タブ(horizontal tab)"\n
- "^J,LF,改行(new-line)", 但し、sed では末尾の改行コードは取り除かれるので、行の追加で付加された区切りにマッチする。GNU sed では、置換先と文字クラス内でこのエスケープを使うことができる。\v
- "^K,VT,垂直タブ(vertical tab)"\f
- "^L,FF,改頁(form feed)"\r
- "^M,CR,行頭復帰(carriage return)"\cC
- "^C,任意の制御文字", C は任意の文字\dDDD
- 10進数の文字コード\oOOO
- 8進数の文字コード\xHH
- 16進数の文字コード\w
- 単語文字, '[_[:alnum:]]'
。文字クラス内では不可。\W
- 単語文字以外, '[^_[:alnum:]]'
。文字クラス内では不可。\b
- 単語境界。文字クラス内では不可。\B
- 非単語境界。文字クラス内では不可。\`
- 複数行モードでのパターンスペース先頭。文字クラス内では不可。\'
- 複数行モードでのパターンスペース末尾。文字クラス内では不可。代表的な Unix のコマンドに相当する sed スクリプトを以下にあげる。
sed -e ''
このように、cat と同じ sed
スクリプトは「空」となる。但し、パターンスペース強制出力の抑止をしない。
sed -ne '1p'
このように、head -n 1 と同じ sed
スクリプトは「1p
」となる。
sed -ne '$p'
このように、tail -n 1 と同じ sed
スクリプトは「$p
」となる。
sed -e '8q'
このように、head -n 8 と同じ sed
スクリプトは「8q
」となる。但し、パターンスペース強制出力の抑止をしない。
さて、`head -n 1`, `tail -n 1`, `head -n n` は以上のように大変簡単であるが、`tail -n n` は少々難しい。現に GNU sed では、二つの例を割いて実現方法を示している。しかし、一例目は POSIX sed では正しく動作しないし、二例目は少々冗長である。ここではより堅牢で単純な実現方法を示そう。
sed -ne ' :b $p 8,$!{ N b b } N D'
最終行のみパターンスペースを出力するが、8行目から最終行まで以外、つまり1行目から7行目までは、入力行をパターンスペースに追加してラベル "b" へ遷移し、それ以外の8行目から最終行までは、入力行をパターンスペースに追加して、パターンスペースの最初の行を除去している。
このように、tail -n 8 と同じ sed
スクリプトは以上のようになる。
sed -ne '$='
このように、wc -l と同じ sed
スクリプトは「$=
」となる。
ところで、`wc -l` は以上のように大変簡単であるが、`wc -c`, `wc -w` は面倒である。現に GNU sed では、wc -c の例と wc -w の例が示されている。こんなトリッキーなことが必要となるなら perl 等の他の言語を採用すべきだ。
'^$'
`
sed -ne '/^$/p'
このように、grep '^$'
と同じ sed
スクリプトは「/^$/p
」となる。
'^$'
`
sed -ne '/^$/!p'
このように、マッチの否定、grep -v '^$'
と同じ sed
スクリプトは「/^$/!p
」となる。
'^.+'
`
sed -E -ne '/^.+/p'
このように、拡張正規表現の grep -E '^.+'
と同じ拡張正規表現の sed
スクリプトは「/^.+/p
」となる。
'^.+'
`
sed -E -ne '/^.+/!p'
このように、拡張正規表現のマッチの否定、grep -E -v '^.+'
と同じ拡張正規表現の sed
スクリプトは「/^.+/!p
」となる。
':'
-f 1,6`
sed -E -e 's/^([^:]*):([^:]*):([^:]*):([^:]*):([^:]*):([^:]*):.*/\1:\6/'
このように、区切り ':'
のフィールド切り取り、cut -d ':'
-f 1,6 但しフィールド数不足の行はそのまま出力と同じ拡張正規表現の sed
スクリプトは以上のようになる。
':'
-f 1,6 -s`
sed -E -ne 's/^([^:]*):([^:]*):([^:]*):([^:]*):([^:]*):([^:]*):.*/\1:\6/p'
このように、区切り ':'
のフィールド切り取り、cut -d ':'
-f 1,6 但しフィールド数不足の行は出力しないと同じ拡張正規表現の sed
スクリプトは以上のようになる。
この例、1行あたりの文字数(既定値は80)を越えたら改行を挿入する sed
スクリプトを示そう。これは 'P'
, 'D'
コマンドの好例となっている。
sed -E -e ' s/^(.{80})(.*)$/\1\ \2/ P D'
行頭から任意の 80 文字とその残りを改行で区切り、行頭から改行までを 'P'
コマンドで標準出力、そして 'D'
コマンドでその残りを同様に処理する。'D'
コマンドでは、その残りが無くならない限り、新たな入力がなされないので、このように実現できる。
このように、fold -b と同じ拡張正規表現の sed
スクリプトは以上のようになる。
sed -e 'w filename'
このように、標準入力を標準出力とファイルに書き出し、tee と同じ sed
スクリプトは「w filename
」となる。但し、パターンスペース強制出力の抑止をしない。
'A-Za-z'
'N-ZA-Mn-za-m'
`
この例、ROT13(と呼ばれる暗号化と言うより難読化)は tr コマンドを使うと表題のように簡単に実現できる。しかし、類似の sed
の 'y'
コマンドは文字コードの範囲を表せないので、非常に使い勝手が悪い。
sed -e 'y/ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz/NOPQRSTUVWXYZABCDEFGHIJKLMnopqrstuvwxyzabcdefghijklm/'
このように、文字置換、tr 'A-Za-z'
'N-ZA-Mn-za-m'
と同じ sed
スクリプトは以上のようになる。但し、パターンスペース強制出力の抑止をしない。
他の sed
の 'y'
コマンドの用例としては、GNU sed の cat -n や cat -b にて、「'y/0123456789/1234567890/'
」のように行番号をインクリメントする中途に用いられている。こんなトリッキーなことが必要となるなら perl 等の他の言語を採用すべきだ。
これらは GNU sed で示される好例となっており、そちらに譲る。
どの例も 'N'
コマンドで入力行をパターンスペースの末尾に '\n'
に続いて追加し、正規表現にて '^\(.*\)\n\1$'
のように後方参照 '\1'
を利用していることにある。
このタブを複数の空白に置換するコマンドを sed
で実現するのは少々難しい。まず、拡張正規表現の GNU sed であれば多少簡単であり、以下のようになる。
sed -r -ne ' h :b /^\n/{ s/\n//g p b } /^$/p /^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/{ s/^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/\1/ x s/^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/\2/ x s/([^\t]{7})\t$/\1 / s/([^\t]{6})\t$/\1 / s/([^\t]{5})\t$/\1 / s/([^\t]{4})\t$/\1 / s/([^\t]{3})\t$/\1 / s/([^\t]{2})\t$/\1 / s/([^\t]{1})\t$/\1 / s/([^\t]{0})\t$/\1 / H g b b }'
一方、POSIX sed だと '[^\n]'
が使えないので、苦肉の策で、拡張正規表現の POSIX sed においては以下のようになる。
sed -E -ne ' h :b /^\n/{ s/\n//g p b } /^$/p /^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/{ s/^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/\1/ x s/^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/\2/ x s/([^ ]{7}) $/\1 / s/([^ ]{6}) $/\1 / s/([^ ]{5}) $/\1 / s/([^ ]{4}) $/\1 / s/([^ ]{3}) $/\1 / s/([^ ]{2}) $/\1 / s/([^ ]{1}) $/\1 / s/([^ ]{0}) $/\1 / H g b b }'
いずれも、行頭からタブストップまで分割して、タブ空白置換を施した上で、分割した余りが保持されているホールドスペースに追加、この処理を最初の追加が現れるまで行ない、改行を除いて出力している。
このように、expand と同じ拡張正規表現の sed
スクリプトは以上のようになる。
この複数の空白をタブに置換するコマンドを sed
で実現するのは少々難しい。まず、拡張正規表現の GNU sed であれば多少簡単であり、以下のようになる。
sed -r -ne ' h :b /^\n/{ s/\n//g p b } /^$/p /^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/{ s/^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/\1/ x s/^([^\n\t]{0,7}\t|[^\n\t]{1,8})(.*)/\2/ # /^ /{ # x # s/ {1,}$/\t/ # b c # } x s/([^\t]{7})\t$/\1 / s/ {2,}$/\t/ #:c H g b b }'
ちなみに、コメント行は本質的には不要であるが、完全に `unexpand -a` の挙動を再現するにはコメントを外す必要がある。
一方、POSIX sed だと '[^\n]'
が使えないので、苦肉の策で、拡張正規表現の POSIX sed においては以下のようになる。
sed -E -ne ' h :b /^\n/{ s/\n//g p b } /^$/p /^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/{ s/^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/\1/ x s/^([[:print:]]{0,7} |[[:print:]]{1,8})(.*)/\2/ # /^ /{ # x # s/ {1,}$/ / # b c # } x s/([^ ]{7}) $/\1 / s/ {2,}$/ / #:c H g b b }'
ちなみに、コメント行は本質的には不要であるが、完全に `unexpand -a` の挙動を再現するにはコメントを外す必要がある。
いずれも、行頭からタブストップまで分割して、空白タブ置換を施した上で、分割した余りが保持されているホールドスペースに追加、この処理を最初の追加が現れるまで行ない、改行を除いて出力している。
このように、unexpand -a と同じ拡張正規表現の sed
スクリプトは以上のようになる。
行毎に文字列を反転する BSD rev(1) コマンド。実用したことはないが、GNU sed における実現例が秀逸なので、ここでさらに単純にして紹介する。
sed -e ' s/^.*$/\ &\ / :x s/\(\n.\)\(.*\)\(.\n\)/\3\2\1/ t x s/\n//g'
行を入力したらまず行頭行末から改行コードで挟んで、改行コードを印に両端の '\n.'
と '.\n'
を交換していく。すると両端の一文字を交換しながら改行コードが中央に移動していき、中央が '\n.\n'
もしくは '\n\n'
となったら置換がなされないので、改行を除去しつつ次のサイクルに遷移する。但し、オリジナルにある不要な判定は除去した。
このように、BSD rev(1) と同じ拡張正規表現の sed
スクリプトは以上のようになる。
最終行から先頭行まで逆順で出力する GNU tac コマンド、`tail -r` に同じ。これも実用したことはないが、GNU sed における、好ましくない実現例は以下の通り。
sed -ne ' 1!G h $p'
ホールドスペースにファイルの内容すべて逆順で保持して最後にすべて出力するという処理なので、そこに書いてある通りメモリが足りなくなるか、仮想メモリで非常に遅くなるだろう。確かに他の方法も思いつかないが、そもそも 'fseek'
等がない sed
にそぐわないことをさせるなら C や perl 等の他の言語を採用すべきだ。
この例、ファイルの連続した印字可能な4文字以上の文字列を表示する sed
スクリプトを示す。この例では strings.sh
という実行権のついたファイルに記述するものとする。まず、拡張正規表現の GNU sed であれば多少簡単であり、以下のようになる。
#!/bin/bash n=4 while [ "$1" != "" ]; do case "$1" in -n) shift; n="$1" ;; *) break ;; esac shift done ${SED:-/usr/local/bin/sed} -r -ne ' /([\f[:print:]]{'"$n"'
,})/{ s/([\f[:print:]]{'"$n"'
,})(.*)$/\ \1\ \2/ s/^[^\n]*\n// P D } ' "$@"
この strings.sh
では、'-n 4'
オプションが指定でき、このように、オプション解析はシェルに任せ、スクリプトにそれを埋め込めば柔軟な sed
スクリプトが書ける。
一方、POSIX sed だと '[\f]'
が使えなかったり '[^\n]'
が使えないので、苦肉の策で、拡張正規表現の POSIX sed においては以下のようになる。
#!/bin/ksh n=4 while [ "$1" != "" ]; do case "$1" in -n) shift; n="$1" ;; *) break ;; esac shift done ${SED:-/usr/bin/sed} -E -ne ' /([^L[:print:]]{'"$n"'
,})/{ s/([^L[:print:]]{'"$n"'
,})(.*)$/\r\ \1\ \2/ s/^[^\r]*\r\n// P D } ' "$@"
但しここで、'^L'
はフォームフィードそのものであることに注意。
このように、strings -a と同じ sed
スクリプトは以上のようになる。