正则表达式教程之重复匹配详解_正则表达式

来源:脚本之家  责任编辑:小易  

在方括号内用^符号表示排除某个字符,使用示例如下:public static void main(String[]args){String regex="[^a]*;匹配一个不包含字母a的字符串boolean hasA="abcd".matches(regex);结果为falseSystem.out.println(hasA);hasA="bcd".matches(regex);结果为trueSystem.out.println(hasA);}注意:如果不在方括号内使用表示匹配输入字符串的开始位置www.zgxue.com防采集请勿采集本网。

本文实例讲述了正则表达式教程之重复匹配。分享给大家供大家参考,具体如下:

取?[\\s]*[\\s\\/]*>[\\s]*){2,}

注:在所有例子中正则表达式匹配结果包含在源文本中的【和】之间,有的例子会使用Java来实现,如果是java本身正则表达式的用法,会在相应的地方说明。所有java例子都在JDK1.6.0_13下测试通过。

1.给定的字符串是否符合正则表达式的过滤逻辑(称作\"匹配\");2.可以通过正则表达式,从字符串中获取我们想要的特定部分。正则表达式的特点是: 1.灵活性、逻辑性和功能性非常强;2.可以迅速地用极简单的方式

一、有多少个匹配

java正则表达式提取需要用到zdMatcher类。正则规则内就是“一个数字加上大于等于0个非数字再加容上结束符” Pattern pattern Pattern.compile(\"(\\\\d)[^\\\\d]*\") Matcher matcher pattern.matcher

前面几篇讲的都是匹配一个字符,但是一个字符或字符集合要匹配多次,应该怎么做呢?比如要匹配一个电子邮件地址,用之前说到的方法,可能有人会写出像\w@\w\.\w这样的正则表达式,但这个只能匹配到像a@b.c这样的地址,明显是不正确的,接下来就来看看如何匹配电子邮件地址。

要看你用什么语言的正则了,你可以这么写: set\\s+[a-zA-Z]+\\s+([a-zA-Z]+)然后获取分组$1里的值就是了 另楼下的代码可以改为: [a-zA-Z]+\\s+)[a-zA-Z]+这样就可以匹配了,只是需要你的正则引擎支持这种

首先要知道电子邮件地址的组成:以字母数字或下划线开头的一组字符,后面跟@符号,再后面是域名,即用户名@域名地址。不过这也跟具体的邮箱服务提供商有关,有的在用户名中也允许.字符。

正则有贪婪和非贪婪模式,所以你的最后集合只会有这两种的数据,不会出现如:zobo,boco。关于java正则表达式的语法可以参考:java正则表达式语法详解及其使用代码实例 搜索\"正则\"的分享列表

1、匹配一个或多个字符

要想匹配同一个字符(或字符集合)的多次重复,只要简单地给这个字符(或字符集合)加上一个+字符作为后缀就可以了。+匹配一个或多个字符(至少一个)。如:a匹配a本身,a+将匹配一个或多个连续出现的a;[0-9]+匹配多个连续的数字。

注意:在给一个字符集合加上+后缀的时候,必须把+放在字符集合的外面,否则就不是重复匹配了。如[0-9+]这样就表示数字或+号了,虽然语法上正确,但不是我们想要的了。

文本:Hello, mhmyqn@qq.com or mhmyqn@126.com is my email.

正则表达式:\w+@(\w+\.)+\w+

结果:Hello, 【mhmyqn@qq.com】 or 【mhmyqn@126.com】 is my email.

分析:\w+可以匹配一个或多个字符,而子表达式(\w+\.)+可匹配像xxxx.edu.这样的字符串,而最后不会是.字符结尾,所以后面还会有一个\w+。像mhmyqn@xxxx.edu.cn这样的邮件地址也会匹配到。

2、匹配零个或多个字符

匹配零个或多个字符使用元符*,它的用法和+完全一样,只要把它放在一下字符或字符集合的后面,就可以匹配该字符(或字符集合)连续出现零次或多次。如正则表达式ab*c可以匹配ac、abc、abbbbbc等。

3、匹配零个或一个字符

匹配零个或一个字符使用元字符?。像上一篇说到的匹配一个空白行使用正则表达式\r\n\r\n,但在Unix和Linux中不需要\r,就可以使用元字符?,\r?\n\r?\n这样既可匹配windows中的空白行,也可匹配Unix和Linux中的空白行。下面来看一个匹配http或https协议的URL的例子:

文本:The URL is http://www.mikan.com, to connect securely use https://www.mikan.cominstead.

正则表达式:https?://(\w+\.)+\w+

结果:The URL is 【http://www.mikan.com】, to connect securely use 【https://www.mikan.com】 instead.

分析:这个模式以https?开头,表示?之前的一个字符可以有,也可以没有,所以它能匹配http或https,后面部分和前一个例子一样。

二、匹配的重复次数

正则表达式里的+、*和?解决了很多问题,但是:

1)+和*匹配的字符个数没有上限。我们无法为它们将匹配的字符个数设定一个最大值。

2)+、*和?至少匹配一个或零个字符。我们无法为它们将匹配的字符个数另行设定一个最小值。

3)如果只使用*和+,我们无法把它们将匹配的字符个数设定为一个精确的数字。

正则表达式里提供了一个用来设定重复次数的语法,重复次数要用{和}字符来给出,把数值写在它们中间。

1、为重复匹配次数设定一个精确值

如果想为重复匹配次数设定一个精确的值,把那个数字写在{和}之间即可。如{4}表示它前面的那个字符(或字符集合)必须在原始文本中连续重复出现4次才算是一个匹配,如果只出现了3次,也不算是一个匹配。

如前面几篇中说到的匹配页面中颜色的例子,就可以用重复次数来匹配:#[[:xdigit:]]{6}或#[0-9a-fA-F]{6},POSIX字符在java中是#\\p{XDigit}{6}。

2、为重复匹配次数设定一个区间

{}语法还可以用来为重复匹配次数设定一个区间,也就是为重复匹配次数设定一个最小值和最大值。这种区间必须以{n, m}这样的形式给出,其中n>=m>=0。如检查日期格式是否正确(不检查日期的有效性)的正则表达式(如日期2012-08-12或2012-8-12):\d{4}-\d{1,2}-\d{1,2}。

3、匹配至少重复多少次

{}语法的最后一种用法是给出一个最小的重复次数(但不必给出最大重复次数),如{3,}表示至少重复3次。注意:{3,}中一定要有逗号,而且逗号后不能有空格。否则会出错。

来看一个例子,使用正则表达式把所有金额大于$100的金额找出来:

文本:

$25.36

$125.36

$205.0

$2500.44

$44.30

正则表达式:$\d{3,}\.\d{2}

结果:

$25.36

【$125.36】

【$205.0】

【$2500.44】

$44.30

+、*、?可以表示成重复次数:

+等价于{1,}

*等价于{0,}

?等价于{0,1}

三、防止过度匹配

?只能匹配零个或一个字符,{n}和{n,m}也有匹配重复次数的上限,但是像*、+、{n,}都没有上限值,这样有时会导致过度匹配的现象。

来看匹配一个html标签的例子

文本:

Yesterday is <b>history</b>,tomorrow is a <B>mystery</B>, but today is a <b>gift</b>.

正则表达式:<[Bb]>.*</[Bb]>

结果:

Yesterday is 【<b>history</b>,tomorrow is a <B>mystery</B>, but today is a <b>gift</b>】.

分析:<[Bb]>匹配<b>标签(不区分大小写),</[Bb]>匹配</b>标签(不区分大小写)。但结果却不是预期的那样有三个,第一个</b>标签之后,一直到最后一个</b>之间的东西全部匹配出来了。

为什么会这样呢?因为*和+都是贪婪型的元字符,它们在匹配时的行为模式是多多益善,它们会尽可能从一段文本的开头一直匹配到这段文本的末尾,而不是从这段文本的开头匹配到碰到第一个匹配时为止。

当不需要这种贪婪行为时,可以使用这些元字符的懒惰型版本。懒惰意思是匹配尽可能少的字符,与贪婪型相反。懒惰型元字符只需要给贪婪型元字符加上一个?后缀即可。下面是贪婪型元字符的对应懒惰型版本:

*       *?

+       +?

{n,}   {n,}?

所以上面的例子中,正则表达式只需要改成<[Bb]>.*?</[Bb]>即可,结果如下:

<b>history</b>

<B>mystery</B>

<b>gift</b>

四、总结

正则表达式的真下威力体现在重复次数匹配方面。这里介绍了+、*、?几种元字符的用法,如果要精确的确定匹配次数,使用{}。元字符分贪婪型和懒惰型两种,在需要防止过度匹配的场合下,请使用懒惰型元字符来构造正则表达式。在下一篇中将会介绍位置匹配。

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:

http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:

http://tools.jb51.net/regex/create_reg

希望本文所述对大家正则表达式学习有所帮助。

只需要在匹配的时候判断之前有没有相同的内容就可以了例如:'r'\\d+)?\\k'r'.*\\k'r')解释:'r'\\d+)#捕获数字并存放到分组r里\\k'r'.*\\k'r')#断言之前的文本中不存在与分组r重复的内容,\\k'r'表示引用之前捕获的分组r另:如果字符串很长很长很长,则不推荐使用正则表达式来排除重复项,因为效率较低内容来自www.zgxue.com请勿采集。


  • 本文相关:
  • python使用中文正则表达式匹配指定中文字符串的方法示例
  • ios 正则表达式判断纯数字及匹配11位手机号码的方法
  • go语言正则表达式用法实例小结【查找、匹配、替换等】
  • 正则表达式匹配ip的表达式(推荐)
  • 正则表达式m修饰符(多行匹配)
  • 正则表达式全局匹配模式(g修饰符)
  • java使用正则表达式(regex)匹配中文实例代码
  • 正则表达式匹配(url、电话、手机、邮箱)的实例代码
  • 正则匹配原理之 逆序环视深入 .
  • 正则表达式\w元字符使用介绍
  • 论坛ubb代码 推荐
  • 正则表达式详述 二
  • 完美email验证正则表达式
  • 几种常见攻击的正则表达式
  • 使用linux正则表达式灵活搜索文件中的文本
  • 乱象,印迹 正则学习问答
  • 修改月光博客网站中php常用正则表达式中出现的错误
  • js正则表达式验证数字(非常全)
  • 正则表达式去除相同匹配结果
  • java正则表达式,如何表示一个非某个字符的匹配
  • js正则表达式 匹配两个特定字符间的内容
  • 请问怎么用java正则表达式提取以下文本中指定的内容
  • 如何用正则表达式去除重复的
  • 必须且只含有数字和字母,6-10位的正则表达式怎么写?
  • java正则表达式如何获取字符串中所有匹配内容
  • 正则表达式:如何匹配指定单词后的第二个单词?
  • JAVA正则表达式怎么匹配所有符合要求的子字符串
  • C# 提取多个想要的数据用正则表达式怎么写?
  • 网站首页网页制作脚本下载服务器操作系统网站运营平面设计媒体动画电脑基础硬件教程网络安全javascriptasp.netphp编程ajax相关正则表达式asp编程jsp编程编程10000问css/htmlflex脚本加解密web2.0xml/rss网页编辑器相关技巧安全相关网页播放器其它综合dart首页正则表达式python使用中文正则表达式匹配指定中文字符串的方法示例ios 正则表达式判断纯数字及匹配11位手机号码的方法go语言正则表达式用法实例小结【查找、匹配、替换等】正则表达式匹配ip的表达式(推荐)正则表达式m修饰符(多行匹配)正则表达式全局匹配模式(g修饰符)java使用正则表达式(regex)匹配中文实例代码正则表达式匹配(url、电话、手机、邮箱)的实例代码正则匹配原理之 逆序环视深入 .正则表达式\w元字符使用介绍论坛ubb代码 推荐正则表达式详述 二完美email验证正则表达式几种常见攻击的正则表达式使用linux正则表达式灵活搜索文件中的文本乱象,印迹 正则学习问答修改月光博客网站中php常用正则表达式中出现的错误js正则表达式验证数字(非常全)java 正则表达式详解比较正宗的验证邮箱的正则表达式正则表达式匹配任意字符(包括换最新手机号码、电话号码正则表达javascript 手机号码正则表达式验js利用正则配合replace替换指定字正则表达式匹配不包含某些字符串正则中需要转义的特殊字符小结js正则函数match、exec、test、s最全的常用正则表达式大全——包js正则表达式之match函数讲解正则的几个基本概念ios开发常用的正则表达式正则表达式的高级技巧分享如何用javascript正则表达式验证身份证号正则表达式regular expression详述(一)eregi_replace与preg_replace 函数代码的javascript email邮箱/邮件地址的正则表达正则替换实现输入框只能有数字、中英文逗55分钟学会正则表达式
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved