テキストプロセッサとしての Python

[Perl正規表現] [Python more basics]

[2014/07/07新規] [2014/09/12更新]

主な形式
sed, Awk 風な説明
sed, Awk 風な Python スクリプトの概要
簡単な説明
Python スクリプトの概要
例題
参考文献

主な形式

python -c 'script' [file...]
python script_file [file...]

sed, Awk 風な説明

Python は sed, Awk, Perl からの影響を受けていないので、Ruby のようにそれらの流れを汲むシンタックスシュガーは持ち合わせていない。

よって、コマンドライン引数をファイル指定と看做したり、コマンドライン引数が無ければ標準入力から行を簡便に読み込むなどのオプションは存在しない。そこで、敢えてそうした処理をする場合には如何にコードを書くべきか、簡単にまとめておく。

`sed -n`, `perl -nl`, `ruby -nl`

#!/usr/bin/python
import fileinput
for line in fileinput.input():
    line = line.rstrip("\r\n")
    :

fileinput ライブラリはファイル名のリスト、規定値は sys.argv[1:] を一行ずつ読み込む。ファイル名に '-' が指定された場合やリストが空の場合は標準入力から一行ずつ読み込む。

`sed -p`, `perl -pl`, `ruby -pl`

#!/usr/bin/python
import fileinput
for line in fileinput.input():
    line = line.rstrip("\r\n")
    :
    print line

Python はパターンスペースを自動的に出力するようなことはしない為、明示的に出力する必要がある。また、改行を切り取るようなオプションもないので、明示的に rstrip("\r\n") する必要がある。

`perl -p`, `ruby -p`

#!/usr/bin/python
import fileinput
for line in fileinput.input():
    :
    print line,

Python にはパターンスペースを自動的に出力するようなことはしない為、明示的に出力する必要がある。また、'print' 文は ',' で終っていれば、改行を出力しない。

`awk -F ':'`, `perl -F':' -na`, `ruby -F ':' -na`

#!/usr/bin/python
import fileinput
for line in fileinput.input():
    F = line.split(":")
    :

Python は Awk のようにフィールドセパレータでレコードとなる行を切り分けるようなことはしないので、明示的に split(FS) する必要がある。

sed, Awk 風な Python スクリプトの概要

Python には Awk, Perl, Ruby のように 'BEGIN', 'END' のような特殊ブロックなどのようなものは存在しない。しかし、これは上述の Perl, Ruby における '-n', '-p' オプションが存在しないので不要である。

一方、sed, Awk のマッチの範囲「式, 式」に処理されるブロック, Perl, Ruby のような範囲演算子 '..', '...' もサポートされない。よって、明示的にそれらに同等なコードを書く必要がある。

例えば以下は、Awk では awk '/^<pre>/,/<\/pre>$/' となる、HTML の 'pre' タグを含むそれに囲まれた行を表示する Python スクリプトである。

	python -c '
import fileinput
import re
flag = False
for line in fileinput.input():
	if not flag:
		m = re.match(r"^<pre>", line)
		if m: flag = True; print line,
	else:
		print line,
		m = re.match(r"^</pre>$", line)
		if m: flag = False
'

このように Python スクリプトは、sed, Awk 風な省略した Perl, Ruby コードのようなものは書けないようになっている。さらには、複文はセミコロン ';' で一行で書くことは出来るが、制御構文には改行とインデントとその深さが必須となっている。よって、Python では同じ目的なら誰が書いても似たようなコードになるという根拠にもなっている。

例えば、sed では sed -e 's/&/\&/g;s/</\</g;s/>/\>/g' となる、ソースコードを HTML にペーストできるように「<」から「<」への変換等を行なう Python スクリプトは以下のように書かなければならない。

	python -c '
import fileinput
import re
for line in fileinput.input():
	line = re.sub(r"&", "&amp;", line)
	line = re.sub(r"<", "&lt;", line)
	line = re.sub(r">", "&gt;", line)
	print line,
'

簡単な説明

先の perl -p, ruby -p に対応する python スクリプトは、以下とほぼ等価なスクリプトとなる。

	python -c '
import sys
argv = sys.argv[1:]
if not argv: argv.insert(0, "-")
for filename in argv:
    argf = stdin if filename == "-" else open(filename, "r")
    for line in argf:
        print line,
'

ここで for line in ファイルオブジェクト は一行をあたかもリストの一要素かのように次々と辿るイテレータによるループとなる。しかし、残念ながらこのループ内で argf.tell() による「現在のファイル読み込みの位置」を取得しても意図した動作にならない。これは、実は効率化の為に既に多くを読み込んでしまっているからである。ちなみに、先の fileinput ライブラリによる方法でも argf.tell() は実現不可能なようである。

これはさらに以下とほぼ等価なスクリプトとなる。

	python -c '
import sys
argv = sys.argv[1:]
for filename in argv:
    argf = stdin if filename == "-" else open(filename, "r")
    line = argf.readline()
    while line:
        print line,
        line = argf.readline()
'

これならこの while ループ内で argf.tell() による「現在のファイル読み込みの位置」を取得しても意図した動作になる。

ところで、Python ではこの while ループは以下のようには書けない。

    while line = argf.readline():
        print line,

代入文は Python では「式」ではないので値を返さないからである。あまりに杓子定規だが、初心者にはわかりやすいのだろう。

Python スクリプトの概要

例えば先の、ソースコードを HTML にペーストできるように「<」から「<」への変換等を行なう Python スクリプトは、なるべく少ない行数で書けば、推奨はされないが以下のようになる。

	python -c '
import fileinput; import re;
for line in fileinput.input(): line = re.sub(r"&", "&amp;", line); line = re.sub(r"<", "&lt;", line); line = re.sub(r">", "&gt;", line); print line,
'

このように、'for' のような制御構文の前には必ず改行が必要となるが、他の文はセミコロン ';' で継続してもよい。

例えば先の、HTML の 'pre' タグを含むそれに囲まれた行を表示する Python スクリプトは、なるべく少ない行数で書けば、推奨はされないが以下のようになる。

	python -c '
import fileinput; import re; import sys; flag = False
for line in fileinput.input(): flag, rv = ((True, sys.stdout.write(line)) if re.match(r"^<pre>", line) else (False, None)) if not flag else (False if re.match(r"^</pre>", line) else True, sys.stdout.write(line))
'

ここで、'print' ではなく 'sys.write' を使っているのは、'print' は文なので右辺値にはなれないからである。そして、'sys.write' は返り値はないが関数なので、変数 'rv' に代入している。あとは三項演算子 'c ? a : b' に対応する Python の 'a if c else b' 演算子の組み合わせの代入式を 'for' ループで回している。

また、Python では未代入の変数の使用は禁止されており、Perl の 'undef'、Ruby の 'nil' のように Python の 'None' が変数の値になっているわけではない。よって、'flag = False' は必須である。

スクリプトは、さまざまなリテラルからなる式および、それらからなる文（単純文、複合文）からなる。複合文は後に続く文のブロック構造を知らしめる為に、必ず先立って改行が必要となる。ブロック構造は空白によるインデントレベルによって表される。

識別子、リテラル、式

以下の識別子、リテラル、式がある。

予約語
_*, __*__, __* の特別な識別子
文字列リテラル - '', "", r'\d', r"\d" など
数値リテラル - 整数、浮動小数点、複素数
タプル - expr, …, ()
リスト - [expr, …]
辞書 - {expr: expr, …}
集合 - {expr, …}
文字列変換 - `expr, …`
ドットによる属性参照
角括弧による添字もしくはスライス
丸括弧による関数呼び出し
単項演算式、二項演算式
ラムダ式

さて、Python には Perl における「リファレンス」などは無い、が、オブジェクトのインスタンス変数へのアクセスによって、それが不要となっている。

詳しくは、Python 言語リファレンス「リテラル」, 「式」を参照のこと。

真偽値

Python における「偽」は、'None', 'False', 数値 '0', 空のコンテナ(文字列、タプル、リスト、辞書、集合) である。他に、'__len__(self)', '__nonzero__(self)' を持つオブジェクトで偽をかえすものもある。他のオブジェクトはすべて「真」となる。Perl のように文字列 "0" が偽にはならないので安心である。

変数展開、式展開

Python には言語仕様としては変数展開はなく、文字列型の '%' 演算子により、C の sprintf や C++ の boost::format に似た操作を行う。

#!/usr/bin/python
a = 'foo'
b = "bar"
print "%s: %s" % (a, b)	#=> "foo: bar\n"

ここで、第二項はタプルだが要素は式である。よって、以下のような式展開もできてしまう。

#!/usr/bin/python
a = [ 0, 1, 2, 3, ]
print '%s' % (",".join(map(str, a)))	#=> "0,1,2,3\n"

詳しくは、Python 言語リファレンス「文字列フォーマット操作」を参照のこと。

演算子式

以下の演算子式がある。

() [] {} : ``	式結合またはタプル、リスト、辞書、文字列変換
`[] () .`	配列または辞書添字またはスライス、関数呼び出し、属性参照
`**`	二項累乗
`+ - ~`	単項正、単項負、ビット否定
`* / // %`	二項乗、除、除(切り捨て)、法
`+ -`	二項加、減
`<< >>`	ビット左、右シフト
`&`	ビットAND
`^`	ビットXOR
`\|`	ビットOR
`> >= < <= <> == != in, not in, is, is not`	関係等号不等号、メンバシップ検査
`not`	論理否定
`and or`	論理AND、論理OR
`if else`	三項条件
`lambda`	ラムダ式

特に、Python の演算子は Perl よりもむしろ C++ に近く、文字列の連結は Perl のように '.' ではなく '+' 二項加算演算子である。

しかし、残念ながら代入は Python では式ではないので、これが言語に慣れているものにとっては非常に面倒になる。さらに、多くのプログラミング言語にある ++, -- の前置・後置ともに、Python には存在しない。これは設計思想によるもので、慣れれば Python では不要であることがわかってくる。とは言え、すべての代入や、++, -- の前置・後置は「返値」のあるメソッドによるオブジェクトの破壊的操作と捉えれば導入可能に思えるのだが… すると +=, -= に加えて =+, =- のような新たな演算子も導入可能であろう。

一方、優れているのは関係等号不等号と論理ANDの組み合わせで、よくある 'x < y and y < z' を 'x < y < z' と直感的に書けることである。これは他の言語でも採用すべきだ。

また、優先順位の高い '&&', '||', '!' の論理演算が敢えて存在しないのは、これもまた設計思想なのだろう。

詳しくは、Python 言語リファレンス「式」を参照のこと。

代入（タプル代入）

以下の代入文がある。文なので、値を返さない。

= += -= *= /= //= %= **= &= |= ^= <<= >>= 代入、累算代入

Python には C/C++ などにはない「タプル代入」なる式がある。Perl のリスト代入 '($a, $b, $c) = (1, 2, 3)' ともまた異なり、Python では 'a, b, c = 1, 2, 3' というスタイルとなる。

詳しくは、Python 言語リファレンス「代入文」を参照のこと。

制御構文

以下の複合文がある。

if … : … [elif … : …] [else : …]
while … : … [else : …]
for … in … : … [else : …]
try … : …　[except [… [as|, …]] : …] [else : …] [finally : …]
try … : … finally : …
with … [as …] [, … [as …]] : …
def …(…): …
class …[(…)]: …

ブロック構造を表す改行とインデントレベルは省略できないので注意。

特に、'for (i=0; i<10; i++)' のような繰り返し構文がないので、代わりに 'for i in range(10): …' のようにリスト生成による繰り返し文で実現する。しかしこれだと、'for (i=10; i>0; i--)' のような降順の繰り返しができないので、降順の場合は 'for i in range(10, 0, -1):' のようにリスト生成による繰り返し文で実現する。

詳しくは、Python 言語リファレンス「複合文」を参照のこと。

式文と代入文の他に、以下の単純文がある。

assert
pass … 何もしない文。構文として文は必須なので C/C++ の「;」のように使う。
del
print
return … 値を返して抜ける。
yield
raise
break … 繰り返しを終了
continue … 繰り返しを継続
import … モジュールのロード
global … グローバル変数の宣言
exec

詳しくは、Python 言語リファレンス「単純文」を参照のこと。

正規表現

Python の正規表現は Perl とほとんど同じだ。

但し、Perl における '%-' に対応する機能や POSIX 文字クラスがサポートされていないようだ。

定数と特殊変数

Python における定数と特殊変数は、それぞれのライブラリ内で定義されており、以下の組み込み定数、および、対話モードで最後に表示された結果である '_' 以外のグローバルスコープ変数は存在しないようだ。

False … bool 型の「偽」
True … bool 型の「真」
None … types.NoneType 型のただ一つの値で、値がないことを表すのに使用される。
NotImplemented … リッチ比較メソッドで返される未実装を表すのに使用される。
Ellipsis
__debug__

よく使う 'sys', 'os', 'fileinput' ライブラリの定数、変数、メソッドを以下に示す。それぞれ 'import' 文を要する。

sys.argv[0] … 実行中のスクリプト名
sys.argv … 実行中のスクリプト名とコマンドライン引数の配列 sys.argv[0], sys.argv[1] … sys.argv[len(sys.argv)-1]
sys.__stdin__ … 標準入力
sys.__stdout__ … 標準出力
sys.__stderr__ … 標準エラー出力
sys.stdin … sys.__stdin__ が初期値
sys.stdout … sys.__stdout__ が初期値
sys.stderr … sys.__stderr__ が初期値
os.environ … 環境変数の辞書。os.environ[名前]
fileinput.lineno() … 入力のレコード数
fileinput.filename() … 現在読み込み中のファイル名

すべての変数は何もしなければローカルスコープとなる。しかし、'import' したモジュール名と同一の変数名は実質使えないので、'sys', 'os' などの変数名は避ける必要がある。

エスケープ文字

Python におけるエスケープ文字(バックスラッシュ記法と正規表現におけるメタ文字)は以下の通りである。

\^J - 無視
\\ - バックスラッシュ
\' - シングルクォート
\" - ダブルクォート
\a - "^G,BEL,アラート(alert)"
\b - "^H,BS,バックスペース(backspace)"、但し、[] 内のみ。
\t - "^I,HT,水平タブ(horizontal tab)"
\n - "^J,LF,改行(new-line)"
\f - "^L,FF,改頁(form feed)"
\r - "^M,CR,行頭復帰(carriage return)"
\v - "^K,VT,垂直タブ(vertical tab)"、但し、[] 内のみ。
\OOO - 8進数の文字コード
\xHH - 16進数の文字コード
\uHHHH - Unicode 文字(16-bit)
\UHHHHHHHH - Unicode 文字(32-bit)
[#\N{name}] - Unicode プロパティ文字
\w - 英数字とアンダースコア「_」（以降、正規表現に関して）
\W - 上記以外
\s - 空白
\S - 上記以外
\d - 数字
\D - 上記以外
\X - Unicode「拡張書記素クラスタ」。[] 内では不可。 (1.9以降)
\K - 直前を保持、$& に含めない。[] 内では不可。 (1.9以降)
\b - ワード境界。但し、[] 内では上述。
\B - 上記以外。[] 内では不可。
\A - 文字列の先頭。[] 内では不可。
\Z - 文字列の末尾。[] 内では不可。
\1 - 後方参照。1 には正の整数。[] 内では不可。
\g<1> - 後方参照。1 には正の整数。[] 内では不可。
\g<name> - 名前後方参照。[] 内では不可。

このように Python 1.5 以降では非常に多くのエスケープ文字がサポートされる。

組み込み型と組み込みライブラリ

Python には組み込み型、組み込み関数、組み込みオブジェクト、組み込みモジュールにより、標準ライブラリがサポートされる。

ここで主な組み込み型、標準ライブラリのリファレンスを列挙しておく。

bool 型と真理値テスト
比較と数値型(int, long, float, complex)
イテレータ型(iterator, generator) … next など
シーケンス型(str, unicode, bytearray, list, tuple, xrange) … index, count など
集合型(set, fronzenset) … add, remove, discard, pop, clear, issubset, issuperset など
マップ型(dictionary) … pop, clear, items, keys, values, iteritems, iterkeys, itervalues など
ファイルオブジェクト(file) … close, fileno, flush, isatty, next, read, readline, seek, tell, truncate, write など
その他、メモリビュー型、コンテキストマネージャ型、モジュール型、など
組み込み関数 … len, cmp, filter, map, reduce など、下記参照
数の抽象基底クラス
数学関数 … sin, cos, exp, log など
一般的な文字列操作
正規表現操作 … match, search, split, findall, finditer, sub, subn および「マッチオブジェクト」など
ファイルオブジェクト … next, read, seek, tell など

リンク先のメソッドや定数をよく参考にすること。

組み込み関数

組み込み関数は以下の通りである。

	len(obj)	-> int
	cmp(o, p)	-> int
	chr(i)		-> str
	unichr(i)	-> str
	bin(i)		-> str
	hex(i)		-> str
	str([obj])	-> str
	repr(obj)	-> str
	ord(c)		-> int
	bool([o=False])		-> bool
	int([v=0[, base=10]])	-> int
	long([v=0[, base=10]])	-> long
	float([v=0])		-> float
	complex([rv=0[, iv=0]])	-> complex
	abs(v)			-> numbers
	oct(i)			-> str
	pow(xv, yv[, zv])	-> xv**yv|xv**yv%zv
	round(v[, i=0])		-> float
	divmod(v, w)		-> (v//w, v%w)
	print(obj[,...][,sep=''][,end=''][,file=sys.stdout])	# print文とは別なので注意！
	unicode([obj[, encoding[, errors]]])	-> unicode

	all(it) 		-> bool
	any(it) 		-> bool
	max(it[…])		-> obj
	min(it[…])		-> obj
	next(it[, def])		-> obj
	sum(it[, start=0])	-> obj

	open(name[, mode[, bufsize]])	-> file
	format(v[, fs])			-> fmt

	iter(o[, sentinel])			-> iterator
	list([it])				-> list, []
	set([it])      				-> set, {}
	frozenset([it])				-> frozenset
	dict([arg])				-> dictionary, { …: …, ... }
	memoryview(obj)				-> memoryview
	tuple([it])				-> tuple, ()
	bytearray([so[, encoding[, errors]]])	-> sequence
	xrange([startv, ]stopv[, stepv])	-> xrange
	slice([startv, ]stopv[, stepv])		-> slice
	range([startv, ]stopv[, stepv])		-> []
	enumerate(s[, i])			-> ((i, s[i]), ...)
	filter(f, it)				-> [it[], ...]
	map(f, it, ...)				-> []
	reduce(f, it[, init])			-> []
	reversed(it)				-> iterator
	sorted(it[, cmpf[, keyf[, reverse]])	-> []
	zip([it, ...])				-> [(), ...]

	file		
	basestring	
	classmethod	
	staticmethod	

	property(getter[, setter[, deleter[, doc]]])	-> property
	callable(obj)			-> bool
	isinstance(obj, classinfo)	-> bool	# classinfo: class | (class1, ...) 
	issubclass(obj, classinfo)	-> bool
	hasattr(obj, name)		-> bool
	getattr(obj, name[, def])	-> obj|def
	setattr(obj, name, v)		
	delattr(obj, name)		
	dir([obj])			-> [ name, ... ]
	hash(obj)			-> int
	id(obj)				-> int
	object()			-> obj
	super([type, [obj|type]])	
	type(obj)			-> type
	type(name, bases, dict)		-> type
	globals()			-> {}
	locals()			-> {}
	vars([obj])			-> {}|property
	__import__(name[, globals[, locals[, fromlist[, level]]]]))	-> obj
	reload(module)							-> obj
	compile(so, name, mode[, flags[, dont_inherit]])		-> obj
	eval(expr[, globals[, locals]])		-> obj
	execfile(name[, globals[, locals]])	-> obj
	help([obj])		
	input([prompt])		-> obj
	raw_input([prompt])	-> str

例題

代表的な Unix コマンドに相当する Python スクリプトを以下にあげる。

`cat`

	python -c '
import fileinput
for line in fileinput.input():
	print line,
'

このように、cat と同じ python スクリプトは以上のようになる。

テキストプロセッサとしての Python

Contents

主な形式

sed, Awk 風な説明

`sed -n`, `perl -nl`, `ruby -nl`

`sed -p`, `perl -pl`, `ruby -pl`

`perl -p`, `ruby -p`

`awk -F ':'`, `perl -F':' -na`, `ruby -F ':' -na`

sed, Awk 風な Python スクリプトの概要

簡単な説明

Python スクリプトの概要

識別子、リテラル、式

真偽値

変数展開、式展開

演算子式

代入（タプル代入）

制御構文

正規表現

定数と特殊変数

エスケープ文字

組み込み型と組み込みライブラリ

組み込み関数

例題

`cat`

`head -n 1`

`tail -n 1`

`head -n 8`

`tail -n 8`

`wc -l`

`wc -c`

`wc -w`

`grep '^$'`

`grep -v '^$'`

`grep -E '^.+'`

`grep -E -v '^.+'`

`cut -d ':' -f 1,6`

`cut -d ':' -f 1,6 -s`

`fold -b`

`tee filename`

`tr 'A-Za-z' 'N-ZA-Mn-za-m'`

`cat -n`

`cat -b`

`uniq`, `uniq -d`, `uniq -u`

`expand`

`unexpand -a`

`rev`

`tac`, `tail -r`

`fold`

`fold -s`

`strings -a [-n 4] [-t d|o|x]`

`printenv`

`yes [expletive]`

`cmp [-l|-s] file1 file2`

`paste [-d delimiter] [-s] file ...`

`comm [-1] [-2] [-3] file1 file2`

`join [-a file_number|-v file_number] ... [-t char] [-1 field] [-2 field] file1 file2`

`split [-l line_count|-b number[k|m]] [-a suffix_length] [file [name]]`

`csplit [-k] [-s] [-f prefix] [-n number] file arg1 ...argn`

`seq [-f format] [-s separator] [low [increment]] hi`

`jot [-c|-n|-r] [-b word] [-w word] [-s string] [reps [begin [end [s]]]]`

`shuf [-r [-n times]] -e arg...`, `shuf [-r [-n times]] -i 1-6`, `shuf [-r [-n times]] [filename]`

`sort [-c|-m] [-u] [-r] [-d|-f|-i]`

`sort -c [-u] [-r] [-d|-f|-i]`

`sort -m [-u] [-r] [-d|-f|-i]`

`sort [-r] [-u] [-d|-f|-i]`

参考文献