當(dāng)前位置：首頁(yè) > 公眾號(hào)精選 > C語(yǔ)言與CPP編程

數(shù)據(jù)處理，你不得不會(huì)的「正則表達(dá)式」

時(shí)間：2020-12-27 23:38:06

關(guān)鍵字：數(shù)據(jù) 計(jì)算機(jī)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]若要判斷一個(gè)輸入的QQ號(hào)是否有效，你會(huì)如何處呢？

若要判斷一個(gè)輸入的QQ號(hào)是否有效，你會(huì)如何處呢？

首先你得分析一下其對(duì)應(yīng)規(guī)則，依次列出：

長(zhǎng)度大于5，小于等于11；
首位不能為0；
是否為純數(shù)字？

規(guī)則既列，接著就該嘗試實(shí)現(xiàn)了，那么用什么來(lái)表示字符串呢？在C++中，最容易想到的就是string了，其中提供了許多成員函數(shù)可以處理字符串，所以有了如下實(shí)現(xiàn)：

 1std::string?qq;
 2std::cin?>>?qq;
 3
 4//?1.?判斷位數(shù)是否合法
 5if?(qq.length()?>=?5?&&?qq.length()?<=?11)
 6{
 7????//?2.?判斷是否非'0'開(kāi)頭
 8????if?(qq[0]?!=?'0')
 9????{
10????????//?3.?判斷是否為純數(shù)字
11????????auto?pos?=?std::find_if(qq.begin(),?qq.end(),?[](const?char&?ch)?{
12????????????return?ch?'0'?||?ch?>?'9';
13????????});
14????????if?(pos?==?qq.end())
15????????????std::cout?<"valid.\n";
16????}
17}

雖然寫出來(lái)了，但是有沒(méi)有感到異常繁瑣？這還僅僅是一個(gè)對(duì)應(yīng)規(guī)則較少的處理，便如此麻煩，若是要檢測(cè)IP地址、身份證號(hào)，或是解析一段HTML數(shù)據(jù)，或是其它更復(fù)雜的字串，那豈非更令人叫苦不迭？

當(dāng)然，也有許多擴(kuò)展庫(kù)對(duì)字符串處理提供了方便，其中比較好用的是boost中的string_algo庫(kù)（已于C++17納入了標(biāo)準(zhǔn)庫(kù)，并改名為string_view），但本篇主要說(shuō)C++11的regex庫(kù)，其對(duì)復(fù)雜數(shù)據(jù)的處理能力非常強(qiáng)，比如可以用它來(lái)檢測(cè)QQ號(hào)：

1std::regex?qq_reg("[1-9]\\d{4,11}");
2bool?ret?=?std::regex_match(qq,?qq_reg);
3std::cout?<"valid"?:?"invalid")?<std::endl;

是不是超級(jí)方便呢？那么接下來(lái)便來(lái)看看如何使用「正則表達(dá)式」。

正則程序庫(kù)（regex）

「正則表達(dá)式」就是一套表示規(guī)則的式子，專門用來(lái)處理各種復(fù)雜的操作。

std::regex是C++用來(lái)表示「正則表達(dá)式」（regular expression）的庫(kù)，于C++11加入，它是class std::basic_regex<>針對(duì)char類型的一個(gè)特化，還有一個(gè)針對(duì)wchar_t類型的特化為std::wregex。

正則文法（regex syntaxes）

std::regex默認(rèn)使用是ECMAScript文法，這種文法比較好用，且威力強(qiáng)大，常用符號(hào)的意義如下：

符號(hào)	意義
^	匹配行的開(kāi)頭
$	匹配行的結(jié)尾
.	匹配任意單個(gè)字符
[…]	匹配[]中的任意一個(gè)字符
(…)	設(shè)定分組
\	轉(zhuǎn)義字符
\d	匹配數(shù)字[0-9]
\D	\d 取反
\w	匹配字母[a-z]，數(shù)字，下劃線
\W	\w 取反
\s	匹配空格
\S	\s 取反
+	前面的元素重復(fù)1次或多次
*	前面的元素重復(fù)任意次
?	前面的元素重復(fù)0次或1次
{n}	前面的元素重復(fù)n次
{n,}	前面的元素重復(fù)至少n次
{n,m}	前面的元素重復(fù)至少n次，至多m次
\|	邏輯或

上面列出的這些都是非常常用的符號(hào)，靠這些便足以解決絕大多數(shù)問(wèn)題了。

匹配（Match）

字符串處理常用的一個(gè)操作是「匹配」，即字符串和規(guī)則恰好對(duì)應(yīng)，而用于匹配的函數(shù)為std::regex_match()，它是個(gè)函數(shù)模板，我們直接來(lái)看例子：

 1std::regex?reg("<.*>.*");
 2bool?ret?=?std::regex_match("value",?reg);
 3assert(ret);
 4
 5ret?=?std::regex_match("value",?reg);
 6assert(!ret);
 7
 8std::regex?reg1("<(.*)>.*");
 9ret?=?std::regex_match("value",?reg1);
10assert(ret);
11
12ret?=?std::regex_match("value
",?std::regex("<(.*)>value"));
13assert(ret);
14
15//?使用basic文法
16std::regex?reg2("<\\(.*\\)>.*",?std::regex_constants::basic);
17ret?=?std::regex_match("value",?reg2);
18assert(ret);

這個(gè)小例子使用regex_match()來(lái)匹配xml格式（或是html格式）的字符串，匹配成功則會(huì)返回true，意思非常簡(jiǎn)單，若是不懂其中意思，可參照前面的文法部分。

對(duì)于語(yǔ)句中出現(xiàn)\\，是因?yàn)閈需要轉(zhuǎn)義，C++11以后支持原生字符，所以也可以這樣使用：

1std::regex?reg1(R"(<(.*)>.*)");
2auto?ret?=?std::regex_match("value",?reg1);
3assert(ret);

但C++03之前并不支持，所以使用時(shí)要需要留意。

若是想得到匹配的結(jié)果，可以使用regex_match()的另一個(gè)重載形式：

 1std::cmatch?m;
 2auto?ret?=?std::regex_match("value",?m,?std::regex("<(.*)>(.*)"));
 3if?(ret)
 4{
 5????std::cout?<std::endl;
 6????std::cout?<std::endl;
 7????std::cout?<std::endl;
 8}
 9
10std::cout?<"----------------"?<std::endl;
11
12//?遍歷匹配內(nèi)容
13for?(auto?i?=?0;?i?14{
15????//?兩種方式都可以
16????std::cout?<"?"?<std::endl;
17}
18
19std::cout?<"----------------"?<std::endl;
20
21//?使用迭代器遍歷
22for?(auto?pos?=?m.begin();?pos?!=?m.end();?++pos)
23{
24????std::cout?<std::endl;
25}

輸出結(jié)果為：

 1value
 216
 30
 4----------------
 5value?value
 6xml?xml
 7value?value
 8xml?xml
 9----------------
10value
11xml
12value
13xml

cmatch是class template std::match_result<>針對(duì)C字符的一個(gè)特化版本，若是string，便得用針對(duì)string的特化版本smatch。同時(shí)還支持其相應(yīng)的寬字符版本wcmatch和wsmatch。

在regex_match()的第二個(gè)參數(shù)傳入match_result便可獲取匹配的結(jié)果，在例子中便將結(jié)果儲(chǔ)存到了cmatch中，而cmatch又提供了許多函數(shù)可以對(duì)這些結(jié)果進(jìn)行操作，大多方法都和string的方法類似，所以使用起來(lái)比較容易。

m[0]保存著匹配結(jié)果的所有字符，若想在匹配結(jié)果中保存有子串，則得在「正則表達(dá)式」中用()標(biāo)出子串，所以這里多加了幾個(gè)括號(hào)：

1std::regex("<(.*)>(.*)")

這樣這些子串就會(huì)依次保存在m[0]的后面，即可通過(guò)m[1],m[2],…依次訪問(wèn)到各個(gè)子串。

搜索（Search）

「搜索」與「匹配」非常相像，其對(duì)應(yīng)的函數(shù)為std::regex_search，也是個(gè)函數(shù)模板，用法和regex_match一樣，不同之處在于「搜索」只要字符串中有目標(biāo)出現(xiàn)就會(huì)返回，而非完全「匹配」。

還是以例子來(lái)看：

 1std::regex?reg("<(.*)>(.*)");
 2std::cmatch?m;
 3auto?ret?=?std::regex_search("123value456",?m,?reg);
 4if?(ret)
 5{
 6????for?(auto&?elem?:?m)
 7????????std::cout?<std::endl;
 8}
 9
10std::cout?<"prefix:"?<std::endl;
11std::cout?<"suffix:"?<std::endl;

輸出為：

1value
2xml
3value
4xml
5prefix:123
6suffix:456

這兒若換成regex_match匹配就會(huì)失敗，因?yàn)閞egex_match是完全匹配的，而此處字符串前后卻多加了幾個(gè)字符。

對(duì)于「搜索」，在匹配結(jié)果中可以分別通過(guò)prefix和suffix來(lái)獲取前綴和后綴，前綴即是匹配內(nèi)容前面的內(nèi)容，后綴則是匹配內(nèi)容后面的內(nèi)容。

那么若有多組符合條件的內(nèi)容又如何得到其全部信息呢？這里依舊通過(guò)一個(gè)小例子來(lái)看：

 1std::regex?reg("<(.*)>(.*)");
 2std::string?content("123value456centerhahahawindowthe?end");
 3std::smatch?m;
 4auto?pos?=?content.cbegin();
 5auto?end?=?content.cend();
 6for?(;?std::regex_search(pos,?end,?m,?reg);?pos?=?m.suffix().first)
 7{
 8????std::cout?<"----------------"?<std::endl;
 9????std::cout?<std::endl;
10????std::cout?<1)?<std::endl;
11????std::cout?<2)?<std::endl;
12????std::cout?<3)?<std::endl;
13}

輸出結(jié)果為：

 1----------------
 2value
 3xml
 4value
 5xml
 6----------------
 7center
 8widget
 9center
10widget
11----------------
12window
13vertical
14window
15vertical

此處使用了regex_search函數(shù)的另一個(gè)重載形式（regex_match函數(shù)亦有同樣的重載形式），實(shí)際上所有的子串對(duì)象都是從std::pair<>派生的，其first（即此處的prefix）即為第一個(gè)字符的位置，second（即此處的suffix）則為最末字符的下一個(gè)位置。

一組查找完成后，便可從suffix處接著查找，這樣就能獲取到所有符合內(nèi)容的信息了。

分詞（Tokenize）

還有一種操作叫做「切割」，例如有一組數(shù)據(jù)保存著許多郵箱賬號(hào)，并以逗號(hào)分隔，那就可以指定以逗號(hào)為分割符來(lái)切割這些內(nèi)容，從而得到每個(gè)賬號(hào)。

而在C++的正則中，把這種操作稱為Tokenize，用模板類regex_token_iterator<>提供分詞迭代器，依舊通過(guò)例子來(lái)看：

1std::string?mail("123@qq.vip.com,456@gmail.com,789@163.com,abcd@my.com");
2std::regex?reg(",");
3std::sregex_token_iterator?pos(mail.begin(),?mail.end(),?reg,?-1);
4decltype(pos)?end;
5for?(;?pos?!=?end;?++pos)
6{
7????std::cout?<str()?<std::endl;
8}

這樣，就能通過(guò)逗號(hào)分割得到所有的郵箱：

1123@qq.vip.com
2456@gmail.com
3789@163.com
4abcd@my.com

sregex_token_iterator是針對(duì)string類型的特化，需要注意的是最后一個(gè)參數(shù)，這個(gè)參數(shù)可以指定一系列整數(shù)值，用來(lái)表示你感興趣的內(nèi)容，此處的-1表示對(duì)于匹配的正則表達(dá)式之前的子序列感興趣；而若指定0，則表示對(duì)于匹配的正則表達(dá)式感興趣，這里就會(huì)得到“,"；還可對(duì)正則表達(dá)式進(jìn)行分組，之后便能輸入任意數(shù)字對(duì)應(yīng)指定的分組，大家可以動(dòng)手試試。

替換（Replace）

最后一種操作稱為「替換」，即將正則表達(dá)式內(nèi)容替換為指定內(nèi)容，regex庫(kù)用模板函數(shù)std::regex_replace提供「替換」操作。

現(xiàn)在，給定一個(gè)數(shù)據(jù)為"he…ll..o, worl..d!"，思考一下，如何去掉其中誤敲的“.”？

有思路了嗎？來(lái)看看正則的解法：

1char?data[]?=?"he...ll..o,?worl..d!";
2std::regex?reg("\\.");
3//?output:?hello,?world!
4std::cout?<std::regex_replace(data,?reg,?"");

我們還可以使用分組功能：

1char?data[]?=?"001-Neo,002-Lucia";
2std::regex?reg("(\\d+)-(\\w+)");
3//?output:?001?name=Neo,002?name=Lucia
4std::cout?<std::regex_replace(data,?reg,?"$1?name=$2");

當(dāng)使用分組功能后，可以通過(guò)$N來(lái)得到分組內(nèi)容，這個(gè)功能挺有用的。

實(shí)例（Examples）

1. 驗(yàn)證郵箱

這個(gè)需求在注冊(cè)登錄時(shí)常有用到，用于檢測(cè)用戶輸入的合法性。

若是對(duì)匹配精確度要求不高，那么可以這么寫：

1std::string?data?=?"123@qq.vip.com,456@gmail.com,789@163.com,abcd@my.com";
2std::regex?reg("\\w+@\\w+(\\.\\w+)+");
3
4std::sregex_iterator?pos(data.cbegin(),?data.cend(),?reg);
5decltype(pos)?end;
6for?(;?pos?!=?end;?++pos)
7{
8????std::cout?<str()?<std::endl;
9}

這里使用了另外一種遍歷正則查找的方法，這種方法使用regex iterator來(lái)迭代，效率要比使用match高。這里的正則是一個(gè)弱匹配，但對(duì)于一般用戶的輸入來(lái)說(shuō)沒(méi)有什么問(wèn)題，關(guān)鍵是簡(jiǎn)單，輸出為：

1123@qq.vip.com
2456@gmail.com
3789@163.com
4abcd@my.com

但若我輸入一個(gè)“Abc0_@aAa1.123.456.789”，它依舊能匹配成功，這明顯是個(gè)非法郵箱，更精確的正則應(yīng)該這樣寫：

 1std::string?data?=?"123@qq.vip.com,?\
 2???????????456@gmail.com,?\
 3???????????789@163.com.cn.mail,?\
 4???????????abcd@my.com,?\
 5???????????Abc0_@aAa1.123.456.789?\
 6???????????haha@163.com.cn.com.cn";
 7std::regex?reg("[a-zA-z0-9_]+@[a-zA-z0-9]+(\\.[a-zA-z]+){1,3}");
 8
 9std::sregex_iterator?pos(data.cbegin(),?data.cend(),?reg);
10decltype(pos)?end;
11for?(;?pos?!=?end;?++pos)
12{
13????std::cout?<str()?<std::endl;
14}

輸出為：

1123@qq.vip.com
2456@gmail.com
3789@163.com.cn.mail
4abcd@my.com
5haha@163.com.cn.com

2. 匹配IP

有這樣一串IP地址，192.68.1.254 102.49.23.013 10.10.10.10 2.2.2.2 8.109.90.30，
要求：取出其中的IP地址，并按地址段順序輸出IP地址。

有點(diǎn)晚了，便不詳細(xì)解釋了，這里直接給出答案，可供大家參考：

 1std::string?ip("192.68.1.254?102.49.23.013?10.10.10.10?2.2.2.2?8.109.90.30");
 2
 3std::cout?<"原內(nèi)容為：\n"?<std::endl;
 4
 5//?1.?位數(shù)對(duì)齊
 6ip?=?std::regex_replace(ip,?std::regex("(\\d+)"),?"00$1");
 7
 8std::cout?<"位數(shù)對(duì)齊后為：\n"?<std::endl;
 9
10//?2.?有0的去掉
11ip?=?std::regex_replace(ip,?std::regex("0*(\\d{3})"),?"$1");
12
13std::cout?<"去掉0后為：\n"?<std::endl;
14
15//?3.?取出IP
16std::regex?reg("\\s");
17std::sregex_token_iterator?pos(ip.begin(),?ip.end(),?reg,?-1);
18decltype(pos)?end;
19
20std::set<std::string>?ip_set;
21for?(;?pos?!=?end;?++pos)
22{
23????ip_set.insert(pos->str());
24}
25
26std::cout?<"------\n最終結(jié)果：\n";
27
28//?4.?輸出排序后的數(shù)組
29for?(auto?elem?:?ip_set)
30{
31????//?5.?去掉多余的0
32????std::cout?<std::regex_replace(elem,?
33????????std::regex("0*(\\d+)"),?"$1")?<std::endl;
34}

輸出結(jié)果為：

 1原內(nèi)容為：
 2192.68.1.254?102.49.23.013?10.10.10.10?2.2.2.2?8.109.90.30
 3位數(shù)對(duì)齊后為：
 400192.0068.001.00254?00102.0049.0023.00013?0010.0010.0010.0010?002.002.002.002?008.00109.0090.0030
 5去掉0后為：
 6192.068.001.254?102.049.023.013?010.010.010.010?002.002.002.002?008.109.090.030
 7------
 8最終結(jié)果：
 92.2.2.2
108.109.90.30
1110.10.10.10
12102.49.23.13
13192.68.1.254

THE END

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問(wèn)題，請(qǐng)聯(lián)系我們，謝謝！

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開(kāi)發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)