正則表達式的編譯表示形式。
指定為字元串的正則表達式必須首先被編譯為此類別的實例。然後,可將得到的模式用於創建 Matcher 物件,依照正則表達式,該物件可以與任意字元序列匹配。執行匹配所涉及的所有狀態都駐留在匹配器中,所以多個匹配器可以共享同一模式。
因此,典型的調用順序是
 Pattern p = Pattern.compile("a*b");
 Matcher m = p.matcher("aaaaab");
 boolean b = m.matches();
在僅使用一次正則表達式時,可以方便地通過此類別定義 matches 方法。此方法編譯表達式並在單個調用中將輸入序列與其匹配。語句
 boolean b = Pattern.matches("a*b", "aaaaab");
等效於上面的三個語句,儘管對於重複的匹配而言它效率不高,因為它不允許重用已編譯的模式。
此類別的實例是不可變的,可供多個並發執行緒安全使用。Matcher 類別的實例用於此目的則不安全。
正則表達式的建構摘要
建構
匹配


字元
x
字元 x
\\
反斜線字元
\0n
帶有八進制值 0 的字元 n (0 <= n <= 7)
\0nn
帶有八進制值 0 的字元 nn (0 <= n <= 7)
\0mnn
帶有八進制值 0 的字元 mnn<= m <= 3<= n <= 7
\xhh
帶有十六進制值 0x 的字元 hh
\uhhhh
帶有十六進制值 0x 的字元 hhhh
\t
製表符號 ('\u0009')
\n
新行(換行)符號 ('\u 000A ')
\r
Enter符號 ('\u000D')
\f
換頁符號 ('\u 000C ')
\a
報警 (bell) 符號 ('\u0007')
\e
轉義符號 ('\u001B')
\cx
對應於 x 的控制符號


字元類別
[abc]
ab 或 c(簡單類別)
[^abc]
任何字元,除了 ab 或 c(否定)
[a-zA-Z]
a 到 z 或 A 到 Z,兩頭的字母包括在內(範圍)
[a-d[m-p]]
a 到 d 或 m 到 p[a-dm-p](並集)
[a-z&&[def]]
de 或 f(交集)
[a-z&&[^bc]]
a 到 z,除了 b 和 c[ad-z](減去)
[a-z&&[^m-p]]
a 到 z,而非 m 到 p[a-lq-z](減去)


預定義字元類別
.
任何字元(與行結束符號可能匹配也可能不匹配)
\d
數字:[0-9]
\D
非數字: [^0-9]
\s
空白字元:[ \t\n\x0B\f\r]
\S
非空白字元:[^\s]
\w
單詞字元:[a-zA-Z_0-9]
\W
非單詞字元:[^\w]


POSIX 字元類別(僅 US-ASCII
\p{Lower}
小寫字母字元:[a-z]
\p{Upper}
大寫字母字元:[A-Z]
\p{ASCII}
所有 ASCII[\x00-\x 7F ]
\p{Alpha}
字母字元:[\p{Lower}\p{Upper}]
\p{Digit}
十進制數字:[0-9]
\p{Alnum}
字母數字字元:[\p{Alpha}\p{Digit}]
\p{Punct}
標點符號號:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
\p{Graph}
可見字元:[\p{Alnum}\p{Punct}]
\p{Print}
可列印字元:[\p{Graph}\x20]
\p{Blank}
空格或製表符號:[ \t]
\p{Cntrl}
控制字元:[\x00-\x 1F \x 7F ]
\p{XDigit}
十六進制數字:[0 -9a -fA-F]
\p{Space}
空白字元:[ \t\n\x0B\f\r]


java.lang.Character 類別(簡單的 java 字元型別
\p{javaLowerCase}
等效於 java.lang.Character.isLowerCase()
\p{javaUpperCase}
等效於 java.lang.Character.isUpperCase()
\p{javaWhitespace}
等效於 java.lang.Character.isWhitespace()
\p{javaMirrored}
等效於 java.lang.Character.isMirrored()


Unicode 塊和類別別的類別
\p{InGreek}
Greek 塊(簡單)中的字元
\p{Lu}
大寫字母(簡單類別別
\p{Sc}
貨幣符號號
\P{InGreek}
所有字元,Greek 塊中的除外(否定)
[\p{L}&&[^\p{Lu}]] 
所有字母,大寫字母除外(減去)


邊界匹配器
^
行的開頭
$
行的結尾
\b
單詞邊界
\B
非單詞邊界
\A
輸入的開頭
\G
上一個匹配的結尾
\Z
輸入的結尾,僅用於最後的結束符號(如果有的話)
\z
輸入的結尾


Greedy 數量詞
X?
X,一次或一次也沒有
X*
X,零次或多次
X+
X,一次或多次
X{n}
X,恰好 n 
X{n,}
X,至少 n 
X{n,m}
X,至少 n 次,但是不超過 m 


Reluctant 數量詞
X??
X,一次或一次也沒有
X*?
X,零次或多次
X+?
X,一次或多次
X{n}?
X,恰好 n 
X{n,}?
X,至少 n 
X{n,m}?
X,至少 n 次,但是不超過 m 


Possessive 數量詞
X?+
X,一次或一次也沒有
X*+
X,零次或多次
X++
X,一次或多次
X{n}+
X,恰好 n 
X{n,}+
X,至少 n 
X{n,m}+
X,至少 n 次,但是不超過 m 


Logical 運算符號
XY
X 後跟 Y
X|Y
X 或 Y
(X)
X,作為捕獲組


Back 參考
\n
任何匹配的 nth 捕獲組


參考
\
Nothing,但是參考以下字元
\Q
Nothing,但是參考所有字元,直到 \E
\E
Nothing,但是結束從 \Q 開始的參考


特殊建構(非捕獲)
(?:X)
X,作為非捕獲組
(?idmsux-idmsux) 
Nothing,但是將匹配標誌i d m s u x on - off
(?idmsux-idmsux:X)  
X,作為帶有給定標誌 i d m s u x on - off非捕獲組
(?=X)
X,通過零寬度的正 lookahead
(?!X)
X,通過零寬度的負 lookahead
(?<=X)
X,通過零寬度的正 lookbehind
(?<!X)
X,通過零寬度的負 lookbehind
(?>X)
X,作為獨立的非捕獲組

反斜線字元 ('\'用於參考轉義建構,如上表所定義的,同時還用於參考其他將被解釋為非轉義建構的字元。因此,表達式 \\ 與單個反斜線匹配,而 \{ 與左括號匹配。
在不表示轉義建構的任何字母字元前使用反斜線都是錯誤的;它們是為將來擴展正則表達式語言保留的。可以在非字母字元前使用反斜線,不管該字元是否非轉義建構的一部分。
根據 Java Language Specification 的要求,Java 源程式碼的字元串中的反斜線被解釋為 Unicode 轉義或其他字元轉義。因此必須在字元串文字值中使用兩個反斜線,表示正則表達式受到保護,不被 Java 位元組碼編譯器解釋。例如,當解釋為正則表達式時,字元串文字值 "\b" 與單個退格字元匹配,而 "\\b" 與單詞邊界匹配。字元串文字值 "\(hello\)" 是非法的,將導致編譯時錯誤;要與字元串 (hello) 匹配,必須使用字元串文字值 "\\(hello\\)"
字元類別
字元類別可以出現在其他字元類別中,並且可以包含並集運算符號(隱式)和交集運算符號 (&&)。並集運算符號表示至少包含其某個操作數類別中所有字元的類別。交集運算符號表示包含同時位於其兩個操作數類別中所有字元的類別。
字元類別運算符號的優先級如下所示,按從最高到最低的順序排列:
1    
文字值轉義    
\x
2    
分組
[...]
3    
範圍
a-z
4    
並集
[a-e][i-u]
5    
交集
[a-z&&[aeiou]]
注意,元字元的不同集合實際上位於字元類別的內部,而非字元類別的外部。例如,正則表達式 . 在字元類別內部就失去了其特殊意義,而表達式 - 變成了形成元字元的範圍。
行結束符號
行結束符號 是一個或兩個字元的序列,標記輸入字元序列的行結尾。以下程式碼被識別為行結束符號:
  • 新行(換行)符號 ('\n')
  • 後面緊跟新行符號的Enter符號 ("\r\n")
  • 單獨的Enter符號 ('\r')
  • 下一行字元 ('\u0085')
  • 行分隔符號 ('\u2028'
  • 段落分隔符號 ('\u2029)
如果啟動 UNIX_LINES 模式,則新行符號是唯一識別的行結束符號。
如果未指定 DOTALL 標誌,則正則表達式 . 可以與任何字元(行結束符號除外)匹配。
預設情況下,正則表達式 ^ 和 $ 忽略行結束符號,僅分別與整個輸入序列的開頭和結尾匹配。如果啟動 MULTILINE 模式,則 ^ 在輸入的開頭和行結束符號之後(輸入的結尾)才發生匹配。處於 MULTILINE 模式中時,$ 僅在行結束符號之前或輸入序列的結尾處匹配。
組和捕獲
捕獲組可以通過從左到右計算其開括號來編號。例如,在表達式 ((A)(B(C))) 中,存在四個這樣的組:
1    
((A)(B(C)))
2    
\A
3    
(B(C))
4    
(C)
組零始終代表整個表達式。
之所以這樣命名捕獲組是因為在匹配中,保存了與這些組匹配的輸入序列的每個子序列。捕獲的子序列稍後可以通過 Back 參考在表達式中使用,也可以在匹配操作完成後從匹配器獲取。
與組關聯的捕獲輸入始終是與組最近匹配的子序列。如果由於量化的緣故再次計算了組,則在第二次計算失敗時將保留其以前捕獲的值(如果有的話)例如,將字元串 "aba" 與表達式 (a(b)?)+ 相匹配,會將第二組設置為 "b"。在每個匹配的開頭,所有捕獲的輸入都會被丟棄。
以 (?) 開頭的組是純的非捕獲 組,它不捕獲文本,也不針對組合計進行計數。
Unicode 支持
此類別符號合 Unicode Technical Standard #18:Unicode Regular Expression Guidelines  1 級和 RL2.1 Canonical Equivalents
Java 源程式碼中的 Unicode 轉義序列(如 \u2014)是按照 Java Language Specification 的 第 3.3 中的描述處理的。這樣的轉義序列還可以由正則表達式解析器直接實作,以便在從檔案或鍵盤擊鍵讀取的表達式中使用 Unicode 轉義。因此,可以將不相等的字元串 "\u2014" 和 "\\u2014" 編譯為相同的模式,從而與帶有十六進制值 0x2014 的字元匹配。
 Perl 中一樣,Unicode 塊和類別別是使用 \p 和 \P 建構編寫的。如果輸入具有屬性 prop,則與 \p{prop} 匹配,而輸入具有該屬性時與\P{prop} 不匹配。塊使用前綴 In 指定,與在 InMongolian 中一樣。可以使用可選前綴 Is 指定類別別:\p{L} 和 \p{IsL} 都表示 Unicode 字母的類別別。塊和類別別在字元類別的內部和外部都可以使用。
受支持的類別別是由 Character 類別指定版本中的 The Unicode Standard 的類別別。類別別名稱是在 Standard 中定義的,即標準又豐富。Pattern所支持的塊名稱是 UnicodeBlock.forName 所接受和定義的有效塊名稱。
行為類似 java.lang.Character boolean 是 methodname 方法(廢棄的類別別除外)的類別別,可以通過相同的 \p{prop} 語法來提供,其中指定的屬性具有名稱 javamethodname
 Perl 5 相比較
Pattern 引擎用有序替換項執行傳統上基於 NFA 的匹配,與 Perl 5 中進行的相同。
此類別不支持 Perl 建構:
  • 條件建構 (?{X}) 和 (?(condition)X|Y)
  • 嵌入式程式碼建構 (?{code}) 和 (??{code})
  • 嵌入式註釋語法 (?#comment) 
  • 預處理操作 \l \u\L 和 \U
此類別支持但 Perl 不支持的建構:
  • Possessive 數量詞,它可以盡可能多地進行匹配,即使這樣做導致所有匹配都成功時也如此。
  • 字元類別並集和交集,如上文所述。
 Perl 的顯著不同點是:

  •  Perl 中,\1 到 \9 始終被解釋為 Back 參考;如果至少存在多個子表達式,則大於 9 的反斜線轉義數按 Back 參考對待,否則在可能的情況下,它將被解釋為八進制轉義。在此類別中,八進制轉義必須始終以零開頭。在此類別中,\1 到 \9 始終被解釋為 Back 參考,較大的數被接受為 Back 參考,如果在正則表達式中至少存在多個子表達式的話;否則,解析器將刪除數字,直到該數小於等於組的現有數或者其為一個數字。
  • Perl 使用 g 標誌請求恢復最後匹配丟失的匹配。此功能是由 Matcher 類別顯式提供的:重複執行 find 方法調用可以恢復丟失的最後匹配,除非匹配器被重置。
  •  Perl 中,位於表達式頂級的嵌入式標記對整個表達式都有影響。在此類別中,嵌入式標誌始終在它們出現的時候才起作用,不管它們位於頂級還是組中;在後一種情況下,與在 Perl 中類似,標誌在組的結尾處還原。
  • Perl 允許錯誤匹配建構,如在表達式 *a 中,以及不匹配的括號,如在在表達式 abc] 中,並將其作為文字值對待。此類別還接受不匹配的括號,但對 + * 不匹配元字元有嚴格限制;如果遇到它們,則拋出 PatternSyntaxException

有關正則表達式建構行為更準確的描述,請參見 Mastering Regular Expressions, 2nd Edition,該書由 Jeffrey E. F. FriedlO'Reilly  Associates 合著,於 2002 年出版。
arrow
arrow
    全站熱搜

    戮克 發表在 痞客邦 留言(0) 人氣()