ECMAScriptjavascript类型系统——正则表明式RegExp类型

实例方法

  RegExp对象的实例方法共5个,分为两类。包括toString()、toLocalString()、valueOf()这3种对象通用方法和test()、exec()正则匹配方法

对象通用方法

  RegExp对象继承了Object对象的通用方法toString()、toLocaleString()、valueOf()这两个章程

【toString()】

  toString()方法重回正则表达式的字面量

【toLocaleString()】

  toLocaleString()方法重回正则表明式的字面量

【valueOf()】

  valueOf()方法再次回到重返正则表达式对象自我

  [注意]任凭正则表明式的成立形式是哪一种,那四个主意都只回去其字面量格局

var pattern = new RegExp('[bc]at','gi');
console.log(pattern.toString()); // '/[bc]at/gi'
console.log(pattern.toLocaleString()); // '/[bc]at/gi'
console.log(pattern.valueOf()); // /[bc]at/gi

var pattern = /[bc]at/gi;
console.log(pattern.toString()); // '/[bc]at/gi'
console.log(pattern.toLocaleString()); // '[bc]at/gi'
console.log(pattern.valueOf()); // /[bc]at/gi

正则匹配方法

  正则说明式RegExp对象的正则匹配方法唯有四个:分别是exec()和test()

【exec()】

  exec()方法专门为捕获组而计划,接受一个参数,即要应用格局的字符串。然后回到包含匹配项音信的数组,在一贯不匹配项的情状下回到null

  在万分项数组中,第一项是与整个情势匹配的字符串,其他项是与形式中的捕获组匹配的字符串,假诺情势中绝非捕获组,则该数组只包含一项

  再次回到的数组包含六个附加的性质:index和input。index表示匹配项在字符串的地方,input表示应用正则表达式的字符串

var text = 'mom and dad and baby and others';
var pattern = /mom( and dad( and baby)?)?/gi;
var matches = pattern.exec(text);
console.log(pattern,matches);
//pattern.lastIndex:20
//matches[0]:'mom and dad and baby'
//matches[1]:' and dad and baby'
//matches[2]:' and baby'
//matches.index:0
//matches.input:'mom and dad and baby and others'   

  对于exec()方法而言,固然在模式中安装了大局标志(g),它每一回也只会重回一个匹配项。在不设置全局标志的意况下,在同一个字符串上屡次调用exec(),将一向重临第一个匹配项的信息;而在安装全局标志的情事下,每回调用exec()都会在字符串中持续搜寻新匹配项

var text = 'cat,bat,sat,fat';
var pattern1 = /.at/;
var matches = pattern1.exec(text);
console.log(pattern1,matches);
//pattern1.lastIndex:0
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'

var text = 'cat,bat,sat,fat';
matches = pattern1.exec(text);    
console.log(pattern1,matches);    
//pattern1.lastIndex:0
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'

var text = 'cat,bat,sat,fat';
var pattern2 = /.at/g;
var matches = pattern2.exec(text);
console.log(pattern2,matches);    
//pattern2.lastIndex:3
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'

var text = 'cat,bat,sat,fat';
matches = pattern2.exec(text);
console.log(pattern2,matches);    
//pattern2.lastIndex:7
//matches[0]:'bat'
//matches.index:4
//matches.input:'cat,bat,sat,fat'    

  【tips】用exec()方法找出配合的所有职位和所有值

var string = 'j1h342jg24g234j 3g24j1';
var pattern = /\d/g;
var valueArray = [];//值
var indexArray = [];//位置
var temp;
while((temp=pattern.exec(string)) != null){
    valueArray.push(temp[0]);
    indexArray.push(temp.index);  
}
//["1", "3", "4", "2", "2", "4", "2", "3", "4", "3", "2", "4", "1"] [1, 3, 4, 5, 8, 9, 11, 12, 13, 16, 18, 19, 21]
console.log(valueArray,indexArray); 

【test()】

  test()方法用来测试正则表达式能否在字符串中找到匹配文本,接收一个字符串参数,匹配时再次来到true,否则重临false

var text = '000-00-000';
var pattern = /\d{3}-\d{2}-\d{4}/;
if(pattern.test(text)){
    console.log('The pattern was matched');
}

  同样地,在调用test()方法时,会招致RegExp对象的lastIndex属性的变迁。若是指定了全局形式,每一遍执行test()方法时,都会从字符串中的lastIndex偏移值开端尝试匹配,所以用同一个RegExp多次说明不同字符串,必须在历次调用之后,将lastIndex值置为0

var pattern = /^\d{4}-\d{2}-\d{2}$/g;
console.log(pattern.test('2016-06-23'));//true
console.log(pattern.test('2016-06-23'));//false

//正确的做法应该是在验证不同字符串前,先将lastIndex重置为0
var pattern = /^\d{4}-\d{2}-\d{2}$/g;
console.log(pattern.test('2016-06-23'));//true
pattern.lastIndex = 0;
console.log(pattern.test('2016-06-23'));//true

  前边介绍过,javascript有9个用于存储捕获组的构造函数属性,在调用exec()或test()方法时,这些属性会被自动填写

  [注意]辩护上,应该保留整个表达式匹配文本的RegExp.$0并不设有,值为undefined

if(/^(\d{4})-(\d{2})-(\d{2})$/.test('2016-06-23')){
    console.log(RegExp.$1);//'2016'
    console.log(RegExp.$2);//'06'
    console.log(RegExp.$3);//'23'
    console.log(RegExp.$0);//undefined
}

 

前方的话

  前面已经介绍过javascript中正则表明式的基础语法。javascript的RegExp类表示正则表明式,String和RegExp都定义了法子,使用正则表明式能够开展强有力的格局匹配和文本检索与替换。本文将介绍正则表达式的RegExp对象,以及正则表明式涉及到的性质和措施

 

参考资料

【1】 阮一峰Javascript标准参照教程——标准库RegExp对象
http://javascript.ruanyifeng.com/stdlib/regexp.html
【2】《正则指导》第12章 JavaScript
【3】《javascript权威指南(第6版)》第10章 正则表达式的形式匹配
【4】《javascript高级程序设计(第3版)》第5章 引用类型
【5】《javascript语言美观(修订版)》第8章 方法

 

对象

  javascript中的正则表明式用RegExp对象表示,有二种写法:一种是字面量写法;另一种是构造函数写法

Perl写法

  正则表达式字面量写法,又叫Perl写法,因为javascript的正则表明式特性借鉴自Perl

  正则表明式字面量定义为含有在一对斜杠(/)之间的字符,并且能够设置3个标志

var expression = /pattern/flags;

  正则表达式的匹配格局协助下列3个标志:

  g:表示全局(global)情势,即格局将被应用于所有字符串,而非在发现第一个匹配项时即刻停止

  i:表示不区分轻重缓急写(case-insensitive)形式,即在规定匹配项时忽略形式与字符串的大大小小写

  m:表示多行(multiline)模式,即在抵达一行文本末尾时还会持续寻找下一行中是不是存在与情势匹配的项

//匹配字符串所有'at'的实例
var p = /at/g;
//test()方法返回一个布尔值表示是否可以找到匹配项
console.log(p.test('ata'));//true
console.log(p.test('aba'));//false

RegExp构造函数

  和普通的放手对象一样,RegExp正则表明式对象也支撑new+RegExp()构造函数的样式

  RegExp构造函数接收多少个参数:要配合的字符串格局(pattern)和可选的标志字符串(flags),标志字符串和字面量的多少个标志含义相同:’g’、’i’、’m’

  RegExp构造函数的三个参数都是字符串。且使用字面量格局定义的别样表明式都可应用构造函数

//匹配字符串所有'at'的实例
var p1 = /at/g;
//同上
var p2 = new RegExp('at','g');

  [注意]ECMAScript3业内规定,一个正则表达式直接量会在实施到它时转换为一个RegExp对象,同一段代码所表示正则表明式直接量的每回运算都回去同一个目标。ECMAScript5规范则做了反倒的规定,同一段代码所代表的正则表明式直接量的历次运算都回去新对象。IE6-8一向是按部就班ECMAScript5正规的艺术实现的,所以并没有兼容性问题

  由于正则表明式字面量并不襄助变量,所以只要正则表达式中冒出变量只可以利用RegExp构造函数以字符串拼接的模式,将变量拼接到RegExp构造函数的参数中

  【tips】通过类名classname获取元素

function getByClass(obj,classname){
    var elements = obj.getElementsByTagName('*');
    var result = [];
    var pattern = new RegExp( '(^|\\s)'+ classname + '(\\s|$)');
    for(var i = 0; i < elements.length; i++){
        if(pattern.test(elements[i].className)){
            result.push(elements[i]);
        }
    }
    return result;
}

 

实例属性

  每个RegExp实例对象都富含如下5个属性

global:    布尔值,表示是否设置了g标志
ignoreCase:  布尔值,表示是否设置了i标志
lastIndex:   整数,表示开始搜索下一个匹配项的字符位置,从0算起
multiline:   布尔值,表示是否设置了标志m
source:    正则表达式的字符串表示,按照字面量形式而非传入构造函数中的字符串模式返回

var pattern = new RegExp('\\[bc\\]at','i');
console.log(pattern.global);//false
console.log(pattern.ignoreCase);//true    
console.log(pattern.multiline);//false
console.log(pattern.lastIndex);//0
console.log(pattern.source);//'\[bc\]at'

  如果应用RegExp的exec()或test()函数,并且设定了全局形式’g’,正则说明式的匹配就会从lastIndex的职位上马,并且在每一遍匹配成功之后再行设定lastIndex。这样,就可以在字符串中另行迭代,依次寻找各样匹配结果。不过,如果需要对不同字符串调用同一个RegExp的exec()或test()方法,那多少个变量也恐怕会带动出人意料的配合结果,所以在转移字符串时,要显式地将RegExp的lastIndex置为0

//exec()方法以数组形式返回匹配项
var p = /\w/g;
var s = 'ab';
console.log(p.lastIndex);//0
console.log(p.exec(s));//['a']
console.log(p.lastIndex);//1
console.log(p.exec(s));//['b']
console.log(p.lastIndex);//2
console.log(p.exec(s));//null
console.log(p.lastIndex);//0

var p = /\w/g;
var s1 = 'ab';
var s2 = 'ba';
console.log(p.lastIndex);//0
console.log(p.exec(s1));//['a']
console.log(p.lastIndex);//1
console.log(p.exec(s2));//['a']
console.log(p.lastIndex);//2

 

构造函数属性

  RegExp构造函数属性被看作静态属性,这多少个属性基于所推行的方今四遍正则表明式操作而变更

  有二种办法访问它们,即长属性名和短属性名。短属性名大都不是有效的ECMAScript标识符,所以必须透过方括号语法来拜会它们

长属性名        短属性名                说明
input             $_                最近一次要匹配的字符串
lastMatch         $&                最近一次的匹配项
lastParen         $+                最近一次匹配的捕获组
leftContext       $`                input字符串中lastMatch之前的文本
multiline         $*                布尔值,表示是否所有表达式都使用多行模式
rightContext      $'                input字符串中lastMatch之后的文本

  使用这么些属性,可以从exec()方法或test()方法执行的操作中提取出更有血有肉的音信

//test()用于测试一个字符串是否匹配某个正则表达式,并返回一个布尔值
var text = 'this has been a short summer';
var pattern = /(.)hort/g;
if(pattern.test(text)){
    console.log(RegExp.input);//'this has been a short summer'
    console.log(RegExp.leftContext);//'this has been a '
    console.log(RegExp.rightContext);//' summer'
    console.log(RegExp.lastMatch);//'short'
    console.log(RegExp.lastParen);//'s'
    console.log(RegExp.multiline);//false
    console.log(RegExp['$_']);//'this has been a short summer'
    console.log(RegExp['$`']);//'this has been a '
    console.log(RegExp["$'"]);//' summer'
    console.log(RegExp['$&']);//'short'
    console.log(RegExp['$+']);//'s'
    console.log(RegExp['$*']);//false        
}

  javascript有9个用于存储捕获组的构造函数属性,在调用exec()或test()方法时,这多少个属性会被电动填写

  [注意]理论上,应该保留整个表明式匹配文本的RegExp.$0并不设有,值为undefined

//RegExp.$1\RegExp.$2\RegExp.$3……到RegExp.$9分别用于存储第一、第二……第九个匹配的捕获组
var text = 'this has been a short summer';
var pattern = /(..)or(.)/g;
if(pattern.test(text)){
    console.log(RegExp.$1);//sh
    console.log(RegExp.$2);//t
}