一般的に使用される文字セットを識別する簡単な方法を提供します。
構文
MultiCharEsc ::= '.' | ('\' [sSiIcCdDwW])
解説
文字シーケンス | 等価の文字クラス |
---|---|
. |
[^\n\r] |
\s |
[#x20\t\n\r] |
\S |
[^\s] |
\i |
文字 | '_' | ';' と一致するイニシャル名文字のセット |
\I |
[^\i] |
\c |
NameChar と一致する名前文字のセット。 |
\C |
[^\c] |
\d |
\p{Nd} |
\D |
[^\d] |
\w |
[#x0000=#x10FFFF]-[\p{P}\p{Z}\p{C}] (句読点、区切り文字、その他の文字セットを除くすべての文字) |
\W |
[^\w] |
注意
ここで定義する正規表現言語は、UCS (Universal Character Set) 文字シーケンスにおける正規表現に一般的な回答を与えようとするものではありません。この言語は、『Unicode Regular Expressions Guidelines』(http://www.unicode.org/unicode/reports/tr18/) に定義されている "レベル 1" 機能のサポートを目的としています。
参照
リファレンス
XML スキーマの正規表現
XML スキーマ正規表現参照チャート