Awk basics - ストリームエディタの発展系 Awk の基礎

[Awk における拡張正規表現]

[2014/03/01新規] [2014/09/12更新]

主な形式
簡単な説明
Awk スクリプトの概要
例題
GNU Awk
参考文献

主な形式

awk [-v assignment]... 'script' [file...]

簡単な説明

Awk は『レコード』と呼ばれる行を一つずつ入力する。Awk スクリプトを指定することにより様々な処理をすることができる。

まず、入力行は、レコードセパレータである改行コード '\n' が取り除かれ '$0' に入る。

また、用途によっては全く不要なことであるが、フィールドセパレータである空白を区切りとして '$1', '$2', 〜にその行の『フィールド』群が入る。

Awk スクリプトは「パターンとそのアクション」の組み合わせで書く。そこでは拡張正規表現、論理演算、算術演算、さらには制御構文を書くことができる。加えて、組み込み関数および「ユーザ定義関数とそのアクション」の組み合わせも利用できる。

ちなみに、sed では可能な、正規表現内の後方参照は Awk ではできないので注意。

Awk の実装にはオリジナルの awk の他に、The One True Awk と呼ばれる nawk やその派生および GNU Awk 等があり、知らないとそれらの方言に悩まされる。それを避けるために POSIX Awk についてまずは学ぶべきである。ここでは特に断らない限り POSIX Awk について述べる。

Awk スクリプトの概要

パターンは 'BEGIN', 'END' のような最初のレコードの前と、最後のレコードの後を表す特殊パターンの他に、真偽値を得る「式」も書けて、アクションは、パターンもしくはパターンの範囲「式, 式」にマッチするときに処理される。これは sed の正規表現や行番号、もしくはそれらの範囲を表す「アドレス」を拡張したものとなっている。

例えば以下は、HTML の 'pre' タグを含むそれに囲まれた行を表示する Awk スクリプトである。

	awk '/^<pre>/,/<\/pre>$/'

「パターンとアクション」のパターンを省略した場合、すべてのレコードでアクションが処理される。一方、アクションを省略した場合、'print' 文が省略されたものとして処理される。'print' は 'print $0' と等価である。

例えば以下は、ソースコードを HTML にペーストできるように「<」から「<」への変換等を行なう Awk スクリプトである。

	awk '{ gsub(/&/, "\\&amp;"); gsub(/</, "\\&lt;" ); gsub(/>/, "\\&gt;"); print }'

アクションは文のリストであり、文は代入式、制御構文、関数呼び出し、'{' 文のリスト '}' である。文の区切りは改行か ';' で区切る。シェルや C/C++ の文と似ているが '}' 直前の ';' が省略できることが異なる。

利用者は、Awk スクリプトでは型なしの変数をいくつも使用することが出来るが、すべては大域変数である。局所変数となり得るのは、ユーザ関数定義での引数のみであり、呼び出し側が使っていない余分な引数が局所変数としてよく使用される。

制御構文

以下の制御構文が使用できる。

if () ... [else ...]
while () ...
do... while ()
for (;;) ...
continue
break
return ...
next
exit
for (variable in array)
nextfile (2012 POSIX)
delete array (2012 POSIX)

'switch' は POSIX Awk ではサポートされないが GNU Awk では可能。'goto' は POSIX Awk でも GNU Awk でもサポートされない。

さらに以下の出力構文がある。

print - 自動改行 ORS、自動区切り OFS 出力。引数が省略された場合は、$0 が指定されたものとなる。
printf - 通常の書式付き出力

演算子

Awk の演算子は C/C++ のそれとおよそ同じだが、その型は基本的に、論理演算と浮動小数点の数値演算、そして文字列の正規表現検査のみである。よって、整数型にあるビット演算に関しては未サポートであり、GNU Awk では組み込み関数でサポートされる。特に注意すべき演算子を以下にあげる。

Awk	C/C++	備考
`expr1 expr2`	`string(expr1) + string(expr2)`	文字列の連結
`expr1 ^ expr2`	`pow(expr1, expr2)`	C/C++ の XOR ではなく、指数関数
`lvalue ^= expr`	`lvalue = pow(lvalue, expr)`	C/C++ の XOR 代入ではなく、指数関数の代入
`expr1 ~ expr2`	`regex_search(expr1, , regex(expr2, ...))`	C/C++ のビット否定ではなく、正規表現のマッチ
`expr1 !~ expr2`	`!regex_search(expr1, , regex(expr2, ...))`	C/C++ のビット否定ではなく、正規表現のマッチの否定

特殊変数

POSIX Awk における特殊変数は以下の通りである。

ARGC - コマンドライン引数の数
ARGV - コマンドライン引数の配列 [0,ARGC-1]
ENVIRON - 環境変数の連想配列 ["名前"]
FILENAME - 処理中のファイル名
RS - 入力のレコードセパレータ。既定値は "\n"
NR - 入力のレコード数
FNR - 入力のレコード数(ファイル毎)
FS - 入力のフィールドセパレータ。既定値は " "
NF - 入力のフィールド数
ORS - 出力のレコードセパレータ。既定値は "\n"
OFS - 出力のフィールドセパレータ。既定値は " "
RSTART - 'match' 組み込み関数におけるマッチした文字列の位置 [1,]
RLENGTH - 'match' 組み込み関数におけるマッチした文字列の長さ
OFMT - 浮動少数点の出力書式。既定値は "%.6g"
CONVFMT - 浮動少数点の変換書式。既定値は "%.6g"
SUBSEP - 疑似的な多次元配列の添字の区切り。既定値は "\x1c,\034,28,^\,IS4(FS)"

エスケープ文字

POSIX Awk におけるエスケープ文字は以下の通りである。

\" - ダブルクォートそのもの
\/ - スラッシュそのもの
\OOO - 8進数の文字コード
\xHH - 16進数の文字コード(POSIX にはない)
\\ - バックスラッシュそのもの
\a - "^G,BEL,アラート(alert)"、nawk では未対応
\b - "^H,BS,バックスペース(backspace)"
\t - "^I,HT,水平タブ(horizontal tab)"
\n - "^J,LF,改行(new-line)"
\v - "^K,VT,垂直タブ(vertical tab)"、nawk では未対応
\f - "^L,FF,改頁(form feed)"
\r - "^M,CR,行頭復帰(carriage return)"
\C - C は上記以外の任意の文字

例えば '(' そのものを表したい場合、'match(, "")' 等のダブルクォート内では、'\\(' としなければならない。さもなくば '\(' も '(' と同じくグループを表すことになってしまう。一方、'/' で括られた正規表現のパターン内では '\(' とすればよい。

組み込み関数

算術関数

atan2(y, x) - y/x についての逆正接関数
cos(x) - x についての余弦関数
sin(x) - x についての正弦関数
exp(x) - x についての指数関数
log(x) - x についての対数関数
sqrt(x) - x の平方根
int(x) - x の小数点以下切捨て
rand() - [0, 1) の乱数
srand([s]) - s で rand() のシード設定(省略した場合は自動設定)

GNU 拡張ビット演算関数

or(v1, v2) - v1 と v2 の論理和
and(v1, v2) - v1 と v2 の論理積
xor(v1, v2) - v1 と v2 の排他的論理和
compl(v) - v のビット否定
lshift(v, c) - v の c ビット左シフト
rshift(v, c) - v の c ビット右シフト

配列

Awk の配列は C/C++ のようなリニアなアドレッシングの配列ではなく、ハッシュ辞書いわゆる連想配列であるので、添字が 0 から始まろうが 1 から始まろうが関係ないし、添字が文字列でも構わない。さらには、添字をカンマで区切ることによって疑似的に多次元配列も扱える。そのとき添字に SUBSEP である '^\' を使うと意図した指示にはならないので注意。

文字列関数

tolower(s) - 文字列 s を小文字化した文字列を返す。s を省略できる実装があり、省略した場合 $0。
toupper(s) - 文字列 s を大文字化した文字列を返す。s を省略できる実装があり、省略した場合 $0。
length[([s])] - 文字列 s の長さを返す。s を省略できる伝統があり、省略した場合 $0。
substr(s, i[, n]) - 文字列 s の部分文字列 [i,i+n] を返す。i は [1,]。n を省略した場合、または n>length(s)-i+1 の場合、n=length(s)-i+1 となる。
index(s, t) - 文字列 s の部分文字列 t を検索して位置 [1,] を返す。見つからなかった場合は 0 を返す。
split(s, a[, fs]) - フィールドセパレータ FS で文字列 s を分割して配列 a に格納、フィールド数を返す。fs を指定した場合、正規表現で分割がなされる。
match(s, ere) - 文字列 s を正規表現 ere で検索してマッチした位置 [1,] を返す。見つからなかった場合は 0 を返す。さらに RSTART には返り値と同値が入り、RLENGTH にはマッチした文字列長かマッチしなかった場合 -1 が入る。
sprintf(fmt, expr[,...]) - 書式付き出力された文字列を返す。書式は printf と同じ。
sub(ere, repl[, in]) - sed の 's/ere/repl/' と同じ正規表現による1回のみ置換し置換回数を返す。in を省略した場合 $0。しかし、置換先にて、後方参照 '\1', '\2' … を使うことができず、マッチ全体をあらわす '&' のみである。GNU Awk ではそれが可能な gensub がある。
gsub(ere, repl[, in]) - sed の 's/ere/repl/g' と同じ正規表現による繰返し置換し置換回数を返す。in を省略した場合 $0。しかし、置換先にて、後方参照 '\1', '\2' … を使うことができず、マッチ全体をあらわす '&' のみである。GNU Awk ではそれが可能な gensub がある。

入出力関数

getline - 次のレコード入力を $0 に入れて、NF, NR, FNR を更新。成功: 1, EOF: 0, -1: 失敗を返す、以下同様。
getline var - 次のレコード入力を var に入れて、NR, FNR を更新。
getline < expression - パスを表す文字列 expression からのレコード入力を $0 に入れて、NF を更新。
getline var < expression - パスを表す文字列 expression からのレコード入力を var に入れる。
expression | getline - 出力構文 expression からのレコード入力を $0 に入れて、NF を更新。
expression | getline var - 出力構文 expression からのレコード入力を var に入れる。
close(expression) - パスを表す文字列 expression をファイルクローズ
fflush(expression) - パスを表す文字列 expression をフラッシュ(2012 POSIX)
system(expression) - 外部コマンドの実行

このように、また、組み込み関数には、ファイル関係の関数が存在しない。よって、ファイルを操作するには system で外部コマンドを呼び出すか、Perl のような別の言語に移行するか、GNU Awk の拡張機能を組み込む必要がある。

例題

代表的な Unix コマンドに相当する Awk スクリプトを以下にあげる。ちなみに、特に断らない限り以下すべては GNU Awk (gawk) でも動作する。

`cat`

	awk '{ print }'

このように、cat と同じ awk スクリプトはパターンを省略した以上のようになるが、「{ print $0 }」でもよいし、アクションを省略した「!0」でもよい。

Awk basics - ストリームエディタの発展系 Awk の基礎

Contents

主な形式

簡単な説明

Awk スクリプトの概要

制御構文

演算子

特殊変数

エスケープ文字

組み込み関数

算術関数

GNU 拡張ビット演算関数

配列

文字列関数

入出力関数

例題

`cat`

`head -n 1`

`tail -n 1`

`head -n 8`

`tail -n 8`

`wc -l`

`wc -c`

`wc -w`

`grep '^$'`

`grep -v '^$'`

`grep -E '^.+'`

`grep -E -v '^.+'`

`cut -d ':' -f 1,6`

`cut -d ':' -f 1,6 -s`

`fold -b`

`tee filename`

`tr 'A-Za-z' 'N-ZA-Mn-za-m'`

`cat -n`

`cat -b`

`uniq`, `uniq -d`, `uniq -u`

`expand`

`unexpand -a`

`rev`

`tac`, `tail -r`

`fold`

`fold -s`

`strings -a [-n 4] [-t d|o|x]`

`printenv`

`yes [expletive]`

`paste [-d delimiter] [-s] file ...`

`comm [-1] [-2] [-3] file1 file2`

`join [-a file_number|-v file_number] ... [-t char] [-1 field] [-2 field] file1 file2`

`split [-l line_count] [-a suffix_length] [file[name]]`

`csplit [-k] [-s] [-f prefix] [-n number] file arg1 ...argn`

`seq [-f format] [-s separator] [low [increment]] hi`

`jot [-c|-n|-r] [-b word] [-w word] [-s string] [reps [begin [end [s]]]]`

Awk での実装に向いていないその他のコマンド

GNU Awk

参考文献