sed basics - ストリームエディタの基礎

[sed における基本正規表現] [sed における拡張正規表現]

[2014/03/01新規] [2014/05/27更新]

主な形式
主なオプション
簡単な説明
sed スクリプトの概要
例題
参考文献

主な形式

sed [-n] [options] [-e] 'script' [file...]

主なオプション

'-n' パターンスペース強制出力の抑止
'-f script-file' スクリプトファイルの指定
'-E' 拡張正規表現(POSIX sed の場合)
'-r' 拡張正規表現(GNU sed の場合)

簡単な説明

ストリームエディタ sed は一行ずつ入力しフィルタする。スクリプトを指定することにより様々な編集を施すことができる。

まず、入力行は、末尾の改行コード '\n' が取り除かれパターンスペースに入る。特に、'\n' は行の追加の区切りに用いられる。

パターンスペース強制出力の抑止をしていなければ、自動的にパターンスペースが標準出力される。

sed スクリプトの概要

利用者は、パターンスペースと呼ばれるバッファに対して、コマンドにより、文字置換や正規表現による置換が出来る。また、アドレスやコマンドリストのグループで柔軟な編集が可能となる。さらに、パターンスペースに加えて、ホールドスペースと呼ばれるバッファを利用することが出来る。また、指定したラベルへの遷移、正規表現による条件付き遷移、入力ファイルとは別の外部ファイルとの入出力などができる。

コマンド

sed スクリプトのコマンドは以下の通りである。

:`label`	`"b"`, `"t"` コマンドでの移動先を指すラベル
#`comment`	コメント行
[`address`]=	行番号の標準出力コマンド
[`address`]a\^J	直下のテキストのパターンスペースへの追加コマンド。複数行の場合は行末の改行を `'\'` でエスケープ。追加は `'\n'` に続く
[`address`]i\^J	直下のテキストの標準出力コマンド。複数行の場合は行末の改行を `'\'` でエスケープ
[`address`]q	終了コマンド。パターンスペース強制出力の抑止がされてなければパターンスペースを標準出力、終了。
[`address`]r `file`	ファイルを標準出力コマンド
[`address`][,`address`]{`command`;... }	コマンドリストのグループ
[`address`][,`address`]b [`label`]	ラベルへの遷移コマンド。ラベルを省略した場合はスクリプトの最後へ遷移
[`address`][,`address`]c\^J	直下のテキストのパターンスペースへの書換コマンド。スクリプトの最初へ遷移
[`address`][,`address`]d	パターンスペースの消去コマンド。スクリプトの最初へ遷移
[`address`][,`address`]D	パターンスペースの最初の行の消去コマンド。パターンスペースがまだ残っているならパターンスペースに新たな入力はしない。そして、スクリプトの最初へ遷移
[`address`][,`address`]g	ホールドスペースのパターンスペースへの書換コマンド
[`address`][,`address`]G	ホールドスペースのパターンスペースへの追加コマンド。追加は `'\n'` に続く
[`address`][,`address`]h	パターンスペースのホールドスペースへの書換コマンド
[`address`][,`address`]H	パターンスペースのホールドスペースへの追加コマンド。追加は `'\n'` に続く
[`address`][,`address`]n	次の入力行のパターンスペースへの置換コマンド。パターンスペース強制出力の抑止がされてなければパターンスペースを標準出力。次の入力行がなければ、スクリプトの最後へ遷移、終了
[`address`][,`address`]N	次の入力行のパターンスペースへの追加コマンド。行番号が変わることに注意。次の入力行がなければ、スクリプトの最後へ遷移、終了
[`address`][,`address`]p	パターンスペースの標準出力コマンド
[`address`][,`address`]P	パターンスペースの最初の行の標準出力コマンド
[`address`][,`address`]s/`BRE`/`replacement`/`flags`	正規表現による置換
[`address`][,`address`]t [`label`]	直近の置換が成功した時のラベルへの遷移コマンド。ラベルを省略した場合はスクリプトの最後へ遷移
[`address`][,`address`]w `file`	パターンスペースのファイルへの追加コマンド
[`address`][,`address`]x	パターンスペースとホールドスペースの交換コマンド
[`address`][,`address`]y/`srcstr`/`dststr`/	文字置換

コマンドをセミコロン ';' または改行で繋げるとコマンドリストになる。

アドレス

前節の address は以下の通りである。

`number`	パターンスペースへの入力の行番号
/`BRE`/	パターンスペースが基本正規表現にマッチした行
$	最終行
`address`!	アドレスの否定

BRE は基本正規表現(Basic Regular Expressions)であるが、オプションで ERE - 拡張正規表現(Extended Regular Expressions)を書くことも可能。

正規表現による置換先の主な特殊文字

& - マッチ全体
\^J - 改行
\number - 後方参照

正規表現による置換の主な `flags`

number - number 番目のマッチのみ置換。既定値は１番目のみ。
g - すべてのマッチを置換。既定値は１番目のみ。
p - 置換が成されたら標準出力
I, i - 大文字小文字の無視
M, m - 複数行モード

正規表現におけるエスケープ文字と GNU 拡張

POSIX sed におけるエスケープ文字は以下の通り。

\n - "^J,LF,改行(new-line)", 但し、sed では末尾の改行コードは取り除かれるので、行の追加で付加された区切りにマッチする。POSIX sed では、置換先と文字クラス内ではこのエスケープが使えないことが多々あり、注意が必要。

GNU sed における拡張エスケープ文字は以下の通り。

\a - "^G,BEL,アラート(alert)"
\t - "^I,HT,水平タブ(horizontal tab)"
\n - "^J,LF,改行(new-line)", 但し、sed では末尾の改行コードは取り除かれるので、行の追加で付加された区切りにマッチする。GNU sed では、置換先と文字クラス内でこのエスケープを使うことができる。
\v - "^K,VT,垂直タブ(vertical tab)"
\f - "^L,FF,改頁(form feed)"
\r - "^M,CR,行頭復帰(carriage return)"
\cC - "^C,任意の制御文字", C は任意の文字
\dDDD - 10進数の文字コード
\oOOO - 8進数の文字コード
\xHH - 16進数の文字コード
\w - 単語文字, '[_[:alnum:]]'。文字クラス内では不可。
\W - 単語文字以外, '[^_[:alnum:]]'。文字クラス内では不可。
\b - 単語境界。文字クラス内では不可。
\B - 非単語境界。文字クラス内では不可。
\` - 複数行モードでのパターンスペース先頭。文字クラス内では不可。
\' - 複数行モードでのパターンスペース末尾。文字クラス内では不可。

例題

代表的な Unix のコマンドに相当する sed スクリプトを以下にあげる。

`cat`

	sed -e ''

このように、cat と同じ sed スクリプトは「空」となる。但し、パターンスペース強制出力の抑止をしない。

sed basics - ストリームエディタの基礎

Contents

主な形式

主なオプション

簡単な説明

sed スクリプトの概要

コマンド

アドレス

正規表現による置換先の主な特殊文字

正規表現による置換の主な flags

正規表現におけるエスケープ文字と GNU 拡張

例題

`cat`

`head -n 1`

`tail -n 1`

`head -n 8`

`tail -n 8`

`wc -l`

`grep '^$'`

`grep -v '^$'`

`grep -E '^.+'`

`grep -E -v '^.+'`

`cut -d ':' -f 1,6`

`cut -d ':' -f 1,6 -s`

`fold -b`

`tee filename`

`tr 'A-Za-z' 'N-ZA-Mn-za-m'`

`uniq`, `uniq -d`, `uniq -u`

`expand`

`unexpand -a`

`rev`

`tac`, `tail -r`

`strings -a [-n 4]`

参考文献

正規表現による置換の主な `flags`