易語言-正則表示式中的一些高階規則?

匹配次數中的貪婪與非貪婪

在使用修飾匹配次數的特殊符號時，有幾種表示方法可以使同一個表示式能夠匹配不同的次數，比如："{m,n}", "{m,}", "?", "*", "+"，具體匹配的次數隨被匹配的字串而定。這種重複匹配不定次數的表示式在匹配過程中，總是儘可能多的匹配。比如，針對文字 "dxxxdxxxd"，舉例如下：

表示式

匹配結果

(d)(\w+)

“\w+”將匹配第一個“d”之後的所有字元“xxxdxxxd”

(d)(\w+)(d)

“\w+”將匹配第一個“d”和最後一個“d”之間的所有字元 “xxxdxxx”。雖然“\w+”也能夠匹配上最後一個“d”，但是為了使整個表示式匹配成功，“\w+”可以“讓出”它本來能夠匹配的最後一個“d”

由此可見，“\w+”在匹配的時候，總是儘可能多的匹配符合它規則的字元。雖然第二個舉例中，它沒有匹配最後一個“d”，但那也是為了讓整個表示式能夠匹配成功。同理，帶“*”和“{m,n}”的表示式都是儘可能地多匹配，帶“?”的表示式在可匹配可不匹配的時候，也是儘可能的“要匹配”。這種匹配原則就叫作“貪婪”模式。

非貪婪模式：

在修飾匹配次數的特殊符號後再加上一個“?”號，則可以使匹配次數不定的表示式儘可能少的匹配，使可匹配可不匹配的表示式，儘可能的“不匹配”。這種匹配原則叫作“非貪婪”模式，也叫作“勉強”模式。如果少匹配就會導致整個表示式匹配失敗的時候，與貪婪模式類似，非貪婪模式會最小限度的再匹配一些，以使整個表示式匹配成功。舉例如下，針對文字“dxxxdxxxd”舉例：

表示式

匹配結果

(d)(\w+?)

“\w+?”將盡可能少的匹配第一個“d”之後的字元，結果是：“\w+?”只匹配了一個“x”

(d)(\w+?)(d)

為了讓整個表示式匹配成功，“\w+?”不得不匹配“xxx”才可以讓後邊的“d”匹配，從而使整個表示式匹配成功。因此，結果是：“\w+?”匹配“xxx”

更多的情況，舉例如下：

舉例1：表示式“(.*)”與字串“

”匹配時，匹配的結果是：成功；匹配到的內容是“

”整個字串，表示式中的“”將與字串中最後一個“”匹配。

舉例2：相比之下，表示式“(.*?)”匹配舉例1中同樣的字串時，將只得到“

”，再次匹配下一個時，可以得到第二個“

”。

反向引用 \1, \2...

表示式在匹配時，表示式引擎會將小括號“( )”包含的表示式所匹配到的字串記錄下來。在獲取匹配結果的時候，小括號包含的表示式所匹配到的字串可以單獨獲取。這一點，在前面的舉例中，已經多次展示了。在實際應用場合中，當用某種邊界來查詢，而所要獲取的內容又不包含邊界時，必須使用小括號來指定所要的範圍。比如前面的“(.*?)”。

其實，“小括號包含的表示式所匹配到的字串”不僅是在匹配結束後才可以使用，在匹配過程中也可以使用。表示式後邊的部分，可以引用前面“括號內的子匹配已經匹配到的字串”。引用方法是“\”加上一個數字。“\1”引用第1對括號內匹配到的字串，“\2” 引用第2對括號內匹配到的字串……以此類推，如果一對括號內包含另一對括號，則外層的括號先排序號。換句話說，哪一對的左括號“(”在前，那這一對就先排序號。

舉例如下：

舉例1：表示式“(' ")(.*?)(\1)”在匹配“ 'Hello', "World"”時，匹配結果是：成功；匹配到的內容是：“'Hello'”。再次匹配下一個時，可以匹配到“"World"”。

舉例2：表示式“(\w)\1{4,}”在匹配“aa bbbb abcdefg ccccc 111121111 999999999”時，匹配結果是：成功；匹配到的內容是“ccccc”。再次匹配下一個時，將得到 999999999。這個表示式要求“\w”範圍的字元至少重複5次，注意與“\w{5,}”之間的區別。

舉例3：表示式“<(\w+)\s*(\w+(=(' ").*?\4)?\s*)*>.*? ”在匹配“”時，匹配結果是成功。如果“”與“”不配對，則會匹配失敗；如果改成其他配對，也可以匹配成功。

預搜尋，不匹配；反向預搜尋，不匹配

前面的章節中，本書講到了幾個代表抽象意義的特殊符號：“^”，“$”，“\b”。它們都有一個共同點，那就是：它們本身不匹配任何字元，只是對“字串的兩頭”或者“字元之間的縫隙”附加了一個條件。理解到這個概念以後，本節將繼續介紹另外一種對“兩頭”或者“縫隙”附加條件的，更加靈活的表示方法。

正向預搜尋：“(?=xxxxx)”，“(?!xxxxx)”

格式：“(?=xxxxx)”，在被匹配的字串中，它對所處的“縫隙”或者“兩頭”附加的條件是：所在縫隙的右側，必須能夠匹配上 xxxxx 這部分的表示式。因為它只是在此作為這個縫隙上附加的條件，所以它並不影響後邊的表示式去真正匹配這個縫隙之後的字元。這就類似“\b”，本身不匹配任何字元。“\b”只是將所在縫隙之前、之後的字元取來進行了一下判斷，不會影響後邊的表示式來真正的匹配。

舉例1：表示式“Windows (?=NT XP)”在匹配“Windows 98, Windows NT, Windows 2000”時，將只匹配“Windows NT”中的“Windows”，其他的“Windows”字樣則不被匹配。

舉例2：表示式“(\w)((?=\1\1\1)(\1))+”在匹配字串“aaa ffffff 999999999”時，將可以匹配6個“f”的前4個，可以匹配9個“9”的前7個。這個表示式可以讀解成：重複4次以上的字母數字，則匹配其剩下最後2位之前的部分。當然，這個表示式可以不這樣寫，在此的目的是作為演示之用。

格式：“(?!xxxxx)”，所在縫隙的右側，必須不能匹配 xxxxx 這部分表示式。

舉例3：表示式“((?!\bstop\b).)+”在匹配“fdjka ljfdl stop fjdsla fdj”時，將從頭一直匹配到“stop”之前的位置，如果字串中沒有“stop”，則匹配整個字串。

舉例4：表示式“do(?!\w)”在匹配字串“done, do, dog”時，只能匹配“do”。在本條舉例中，“do”後邊使用“(?!\w)”和使用“\b”效果是一樣的。

反向預搜尋：“(?<=xxxxx)”，“(?

這兩種格式的概念和正向預搜尋是類似的，反向預搜尋要求的條件是：所在縫隙的“左側”，兩種格式分別要求必須能夠匹配和必須不能夠匹配指定表示式，而不是去判斷右側。與“正向預搜尋”一樣的是：它們都是對所在縫隙的一種附加條件，本身都不匹配任何字元。

舉例5：表示式“(?<=\d{4})\d+(?=\d{4})”在匹配“1234567890123456”時，將匹配除了前4個數字和後4個數字之外的中間8個數字。由於 JScript.RegExp 不支援反向預搜尋，因此，本條舉例不能夠進行演示。很多其他的引擎可以支援反向預搜尋，比如：Java 1.4 以上的 java.util.regex 包，.NET 中System.Text.RegularExpressions 名稱空間，以及本站推薦的最簡單易用的 DEELX 正則引擎。

規則, 易語言, 表示式, 正則, 易語言正則表示式語法, 易語言正則表示式, 易語言正則表示式教程, 易語言正則表示式模組, 易語言正則表示式原始碼, 易語言正則表示式類, 易語言正則表示式建立, 易語言正則表示式替換, 易語言正則表示式工具,

相關問題答案

Have any Question?

Let us answer it!