視覚障害者のための
正規表現入門2



【法則:文字の連なり】
文字の連なりはそのまま正規表現です。
たとえば、

わたし

という単語は、そのままで正規表現です。
正規表現としての「わたし」は、全角ひらがな「わ」の次に、全角ひらがな「た」がきて、そのあとに全角ひらがな「し」がくるという法則を表現します。
あたりまえのことのようですが、このことはしっかり理解しておかなければなりません。
正規表現「わたし」は、

わ た し
ワタシ


には適合(マッチ)しません。
「わ た し」は文字のあいだに全角空白が入っています。
「ワタシ」はカタカナです。
「私」は漢字です。
いずれも、「わ」の次に「た」、その次に「し」がくるという法則に適合しません。(視覚障害者の場合、各種リーダーは空白や文字の種類を読み上げませんから、注意が必要です。1文字ずつ走査して文字を読み上げさせてください。) 

 しかし、正規表現「わたし」は、

わたしは、
わたしが、
わたしと、

などに含まれる「わたし」という部分には適合(マッチ)します。
なぜなら正規表現「わたし」は、「わ」の次には「た」がきて、「た」の次には「し」がくる、という約束を定めているものの、「し」の次になにがくるか、まったく定めていません。だから、どんな文字が続いてもいいし、「し」ですべてが終わっていてもいいわけです。

同様に、正規表現「わたし」は、「わ」の前にどんな文字があるか、まったく規定していません。
だから、

あわたし (粟田氏)
いわたしぎかい (磐田市議会)

などにふくまれる「わたし」という部分に適合(マッチ)します。
さらには、母親が子供に向かっていう、

「そのおもちゃを早くわたしなさい!」

の「わたし」という部分にも適合します。
もちろん、

「そのおもちゃを早く渡しなさい!」

ならマッチしません。「渡し」が漢字だからです。

つまり言葉の意味はまったく関係ない。文字の連なり方がすべてだというわけです。
おわかりいただけたでしょうか。
これが正規表現の基本です。


次の項目へ
前の項目へ
正規表現入門の目次ページ
文字主体トップページ








Copyright(C) 2003 Kazuhiro Kito All rights reserved