C++Builderで正規表現を使うには

2006年3月13日(月) 17時58分38秒 [C++ Builder]

C++Builderで正規表現を使うには

何で今まで気づかなかったんだ…。
C++ Builderにも、正規表現を使う方法がありました。
うがー。この存在に気づいてれば、もっとスマートに解決してた事柄がいくつもいくつもある気がするですよ…。orz

C++ Builderで正規表現を使うには、次の2つの方法があります。

TRegexpクラスを使う（regexp.h）
POSIX互換関数を使う（pcreposi.h）

pcreposi.hをインクルードして実現できるPOSIX互換関数を使った方が、高機能な正規表現の解釈が可能っぽいです。ただし、日本語はダメなようですが。正規表現でのマッチの判断に日本語も使いたいなら、TRegexpクラスを使えばよいです。ただ、TRegexpクラスの場合は、使える正規表現の表現内容がちょっと乏しい感じがしますが。
とりあえず、両方で書いてみて、望みの正規表現が使える方を採用すればいいんじゃないですかね。

マッチの判断に日本語を使わないんなら、もうpcreposi.hを使うのがいいと思います。

以下、C++Builder MLに流れてたサンプルそのまんまですが、メモしときます。
まず、pcreposi.hをインクルードしてPOSIX互換関数を使う場合。

#include <pcreposi.h>

void __fastcall TForm1::Button1Click(TObject *Sender)

{

   regex_t regex;

   regcomp(&regex, Edit1->Text.c_str(), 0);

   regmatch_t match[10];

   AnsiString string = Memo1->Lines->Text;

   int ret = regexec(&regex, string.c_str(), 10, match, 0);

   if(ret != REG_NOMATCH){

      regmatch_t& m = match[0];

      Memo2->Lines->Add(string.SubString(m.rm_so + 1, m.rm_eo - m.rm_so));

      m = match[1];

      Memo2->Lines->Add(string.SubString(m.rm_so + 1, m.rm_eo - m.rm_so));

   }

   else{

      Memo2->Lines->Add("マッチしません");

   }

   regfree(&regex);

}

Memo1に対象文字列が入ります。Edit1に正規表現が入ってて、その結果がMemo2に入ります。

次に、TRegexpクラスを使う場合。

#include <regexp.h>

void __fastcall TForm1::Button1Click(TObject *Sender)

{

   TRegexp ex(Edit1->Text.c_str());

   size_t length;

   int pos = ex.find(Memo1->Lines->Text.c_str(),&length,0);

   if (pos >= 0){

      Memo2->Lines->Add(Memo1->Lines->Text.SubString(pos + 1,length));

   }

   else{

      Memo2->Lines->Add("マッチしません");

   }

}

基本的に、TRegexpクラスを使っても、POSIX互換関数を使っても、同じ処理ができます。ただ、HTMLを解析する場合などで、次のような正規表現を書いた場合、TRegexpクラスではうまくマッチできません。

<div.*>[\W\w]*?</div>

上記の正規表現では、「[\W\w]*」に一致する長さを最小限にするため、「*」の後に「?」を加えています。この「量指定子の一致部分を最小限にする」という意味での「?」がTRegexpクラスでは扱えないようです。POSIX互換関数の方だとうまくいきます。

「.*?」と書かずに「[\W\w]*?」と書いているのは、改行も含めるためです。正規表現で「.」（ドット）は、「改行以外の1文字」に該当するので、改行を含めるためには、「\w\W」みたいにする必要があります。（\wは単語構成文字、\Wは単語構成文字以外に一致。）

※日本語を扱って、「萌[えへ] 」みたいな正規表現を使いたい場合は、TRegexpクラスでないとダメなようですが。

というわけで、C++Builderでも、ずいぶん楽に正規表現が扱えるという事実に気づいたというお話でした…。
もっと早く気づきたかった…。orz

参考・元ネタ：

ツイート facebookシェア LINEで送るはてなブックマーク Pocket URLとタイトルをコピー ☕ コーヒーをおごる

この日記へのコメントはお気軽に！コメント数:0件

著者紹介

にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊＋小説1冊)。著書や記事は「西村文宏(にしむらふみひろ)」名義。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

にしし(西村文宏)連絡先

☕ コーヒーをおごる

製作ツール

以下のようなツールを作って配布しています。

CGIてがろぐお手軽マイクロブログ的フリーCGI

➡ 備忘録・メモ帳・日記・チャットツールなどとしてのほか、「自分専用Twitter」などとしても活用可能な、お手軽メモ掲示板フリーCGIです。
CGIさんごよみスキン式のカレンダー表示フリーCGI

➡ カレンダー形式でスケジュールを表示できる予定表掲示板フリーCGIです。日本の祝日規則や移動祝日にも対応するほか、独自記念日の登録や、RSS配信も可能。