常见的Regex表达式(更新RFC标准的email检验)

数字(Number)

除正常的数字(digit)以外,还有可能包括正、负号,科学计数法,小数位,甚至用逗号分隔千分位。html

逻辑规则:git

  • 起始位后必定是+/-号,也能够没有 ^[+-]?
  • 至少有一位以上的数字 \d+
  • 可能会跟着千分位分隔的逗号,暂时不考虑是否必定是3位分隔,规则能够出现一次或屡次 (,\d+)*
  • 若是是小数那么必定是小数点后带有至少一位以上的数字,规则仅能出现一次 (.\d+)
  • 若是是科学计数法,则前面必定是小数,后面跟有e和次幂,规则仅能出现一次 (.\d+(e\d+))
  • 任何数字的结尾必须是数字

知足上述条件检验数字的正则表达式为:^[+-]?\d+(,\d+)*(.\d+(e\d+)?)?$正则表达式

符合该条件的example包括:浏览器

  • 3 (整数)
  • 3.14 (小数)
  • +3.14 (带有+标识数字)
  • -2.5 (带有-标识数字)
  • 128,234 (会计计数法)
  • 1.9e10 (科学计数法)

且过滤掉小数点重复出现屡次,科学技术法不合规或重复出现屡次,非数字如720p的字符串
此处尤为要注意科学的条件,前面必须是合法小数后面是e和次幂,注意次幂必须有。服务器


电话号码(Phone Numbers)

美国的电话号码规则:总计10位数字,但有可能带有国家号码1。能够接受的输入格式包括:dom

  • xxx-xxx-xxxx
  • xxx xxx xxxx
  • (xxx)xxx-xxxx
  • xxxxxxxxxx
  • 1 上述格式组合
  • +1 上述格式组合

知足上述条件检验美国电话的正则表达式为:^(+?1[\s-])?(?\d{3})?[\s-]?\d{3}[\s-]?\d{4}$ide

进一步能够将国家号的验证修改成(+?\d+[\s-])?,这样就能够支持诸如+86, 86 , 86-这样的格式了。函数

中国的手机规则:总计11位数字,通常状况下不加上任何特殊符号的分隔。若是仅考虑如下4种格式:翻译

  • xxxxxxxxxxx
  • +86-xxxxxxxxxxx
  • +86 xxxxxxxxxxx
  • +86xxxxxxxxxxx

知足上述条件检验中国手机号码的正则表达式为:^(+86[\s-]?)?\d{11}$code


邮件(Email)

因为工做须要,更详细的查阅了RFC对于邮件地址的标准要求。Google了好久竟然始终没有找到一份靠谱的中文翻译。在此共享给你们,但愿你们不用再去痛苦的翻那RFC晦涩的文档。

根据RFC 3696的规定,邮件地址(Email Address)被@符号分割为如下两个组成部分:local name和domain name.

Local Name

  • 长度不超过64个字符
  • 能够由除@、反斜杠()、双引号("")、逗号和方括号([ ])以外,任何ASCII Graphic字符组成。
  • 可使用句号(.),可是不能出如今首尾的位置
  • 对于一些特殊状况,如老旧的系统、特殊目的的服务器,可使用所有ASCII字符(包括控制字符在内),可是必须使用反斜杠转义单个字符,或者使用双引号转义整个字符串。

Domain Name

  • 长度不超过255个字符
  • 只可使用字母、数字和短横线(-)
  • 可使用短横线(-),可是不能出如今首尾的位置
  • 其他的要求包括顶级域名的白名单,每一级域名不能够超过64个字符、不可所有由数字组成等等

对于平常使用中,忽略Local Name第4点的要求1和Domain Name对域名合法性的过滤,可使用以下正则表达式检验Email的合法性:

^[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+(.[A-Za-z0-9!#$%&'+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?.)+[A-Za-z0-9]+(-[A-Za-z0-9]+)?$

若是使用Javascript的话,能够经过split函数,进一步检验每一部分的长度。

isemail: function(string){
    if(typeof string === "string"){
        var regex = /^[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[A-Za-z0-9!#$%&'*+/=?^_`{|}~-]+)*@([A-Za-z0-9]+(?:-[A-Za-z0-9]+)?\.)+[A-Za-z0-9]+(?:-[A-Za-z0-9]+)?$/;
        var temp = string.split("@");
        return regex.test(string) && temp[0].length <= 64 && temp[1].length <= 255;
     }
     else{
         return false;
     }
}

邮件的格式较为复杂,虽然实际上容许多级域名,只要长度保证在255个字符之内便可。不过更加常见的状况是,考虑@前面使用字符和.的状况,以及@后面可能会有二级域名的状况。若是不要求严格性而只是起到对于用户的提示做用的话,知足上述条件检验邮件的正则表达式为:^[\w.]+(+[\w.]+)?@\w+(.\w+){1,2}$

若是可能的话,理解了原理以后,仍是更加推荐使用成熟的库自带的email检验函数,毕竟重复造轮子不是一件很是有效率的事情。


密码(Password)

不一样强度的密码,
要求至少包含数字或字母:[\da-zA-Z]\d+[a-zA-Z]+[\da-zA-Z]

必须数字、字母和特殊字符3种混排的:
(\d+[a-zA-Z]+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #数字开头 |(\d+[-=\[];',./~!@#$%^&()_+|{}:"<>?]+[a-zA-Z]+) #数字开头
|([a-zA-Z]+\d+[-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+) #字母开头 |([a-zA-Z]+[-=\[];',./~!@#$%^&
()+|{}:"<>?]+\d+) #字母开头
|([-=\\\[\];',./~!@#$%^&*()_+|{}:"<>?]+\d+[a-zA-Z]+) #特殊字符开头 |([-=\[];',./~!@#$%^&*()
+|{}:"<>?]+[a-zA-Z]+\d+) #特殊字符开头


IP地址

IP地址是由4个使用句号(.)分割的数字序列组成,每段的数值取值在0-255之间。
因为数字会被当成字符看待,而没有大小关系,使用正则表达式检验数字范围是一件很是麻烦的事情。

检验IP地址的正则表达式以下:
(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9]).{3}(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])

使用Javascript,稍微优雅一点的表达方式

ip: function(string){
    var octet = '(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])';
    var ip    = '(?:' + octet + '\\.){3}' + octet;
    var ipRE  = new RegExp( '^' + ip + '$' );
    return ipRE.test(string);
}

HTML

HTML更为推荐使用其余的方式而非正则表达式进行过滤。
获取Tag:<(\w+)
获取Tag内容:>([\w\s])<
获取Attribute的值:='([\w://.]
)


更新记录

2014年9月5日修改
本来的正则表达式中没有考虑到yeelan0319@sf.com.32y8498这样的内容也会被断定为true。仍是对于正则表达式并不是“所有字符串匹配”,而是只要出现“符合正则表达式规定的内容便可”的理解不够透彻。说来讲去最后好像仍是推荐使用已经成熟的库比较好,毕竟重复造轮子是一件太过于低效率的事情

2015年3月4日修改
根据RFC规定,更新了符合RFC详细要求的email的正则表达式。
添加了IP地址的检验正则


  1. 虽然此处没有考虑Local Name的第4点要求,可是RFC中其实规定,浏览器(Client Side)端检验不该该拒绝该格式的输入,而应该交由邮件服务器实际在执行过程当中判断其合法性,由于这样的格式实际上是彻底合法的。此处实际上是我偷懒了。 

相关文章
相关标签/搜索