php⼩经验:解析preg_match与preg_match_all函数
在 PHP 应⽤中,正则表达式主要⽤于:
•正则匹配:根据正则表达式匹配相应的内容
•正则替换:根据正则表达式匹配内容并替换
•正则分割:根据正则表达式分割字符串
在 PHP 中有两类正则表达式函数,⼀类是 Perl 兼容正则表达式函数,⼀类是 POSIX 扩展正则表达式函数。⼆者差别不⼤,⽽且推荐使⽤Perl 兼容正则表达式函数,因此下⽂都是以 Perl 兼容正则表达式函数为例⼦说明。
Perl 兼容模式的正则表达式函数,其正则表达式需要写在定界符中。任何不是字母、数字或反斜线()的字符都可以作为定界符,通常我们使⽤ / 作为定界符。具体使⽤见下⾯的例⼦。
尽管正则表达式功能⾮常强⼤,但如果⽤普通字符串处理函数能完成的,就尽量不要⽤正则表达式函数,因为正则表达式效率会低得多。关于普通字符串处理函数。
preg_match()
preg_match() 函数⽤于进⾏正则表达式匹配,成功返回 1 ,否则返回 0 。
int preg_match( string pattern, string subject [, array matches ] )
参数说明
pattern正则表达式
subject需要匹配检索的对象
matches可选,存储匹配结果的数组, $matches[0] 将包含与整个模式匹配的⽂本,$matches[1] 将包含与第⼀个捕获的括号中的⼦模式所匹配的⽂本,以此类推
复制代码代码如下:
<?php
if(preg_match("/php/i", "PHP is the web scripting language of choice.", $matches)){
print "A match was found:". $matches[0];
} else {
print "A match was not found.";
}
>
复制代码代码如下:
A match was found: PHP
在该例⼦中,由于使⽤了 i 修正符,因此会不区分⼤⼩写去⽂本中匹配 php 。
preg_match() 第⼀次匹配成功后就会停⽌匹配,如果要实现全部结果的匹配,即搜索到subject结尾处,则需使⽤
preg_match_all() 函数。
复制代码代码如下:
<?php
// 从 URL 中取得主机名
preg_match("/^()?([^/]+)/i","www.jb51/index.html", $matches);
$host = $matches[2];
// 从主机名中取得后⾯两段
preg_match("/[^./]+.[^./]+$/", $host, $matches);
echo "域名为:{$matches[0]}";
>
复制代码代码如下:
域名为:jb51
preg_match_all()
preg_match_all() 函数⽤于进⾏正则表达式全局匹配,成功返回整个模式匹配的次数(可能为零),如果出错返回 FALSE 。int preg_match_all( string pattern, string subject, array matches [, int flags ] )
参数说明
pattern正则表达式
subject需要匹配检索的对象
matches存储匹配结果的数组
可选,指定匹配结果放⼊ matches 中的顺序,可供选择的标记有:
flags 可选,指定匹配结果放⼊ matches 中的顺序,可供选择的标记有:
1. PREG_PATTERN_ORDER:默认,对结果排序使 $matches[0] 为全部模式匹配的数
组,$matches[1] 为第⼀个括号中的⼦模式所匹配的字符串组成的数组,以此类推
2. PREG_SET_ORDER:对结果排序使 $matches[0] 为第⼀组匹配项的数组,$matches[1] 为第⼆组
匹配项的数组,以此类推
3. PREG_OFFSET_CAPTURE:如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符
串偏移量
下⾯的例⼦演⽰了将⽂本中所有 <pre></pre> 标签内的关键字(php)显⽰为红⾊。
复制代码代码如下:
正则匹配指定中文汉字<?php
$str = "<pre>学习php是⼀件快乐的事。</pre><pre>所有的phper需要共同努⼒!</pre>"; $kw = "php";
preg_match_all('/<pre>([sS]*?)</pre>/',$str,$mat);
for($i=0;$i<count($mat[0]);$i++){
$mat[0][$i] = $mat[1][$i];
$mat[0][$i] = str_replace($kw, '<span >'.$kw.'</span>', $mat[0][$i]); $str = str_replace($mat[1][$i], $mat[0][$i], $str);
}
echo $str;
>
正则匹配中⽂汉字根据页⾯编码不同⽽略有区别:
•GBK/GB2312编码:[x80-xff>]+ 或 [xa1-xff]+
•UTF-8编码:[x{4e00}-x{9fa5}]+/u
复制代码代码如下:
<?php
$str = "学习php是⼀件快乐的事。";
preg_match_all("/[x80-xff]+/", $str, $match);
//UTF-8 使⽤:
//preg_match_all("/[x{4e00}-x{9fa5}]+/u", $str, $match);
print_r($match);
>
复制代码代码如下:
Array
(
[0] => Array
(
[0] => 学习
[1] => 是⼀件快乐的事。
)
)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论