str.replace()
能够一次处理一整个Series。str.replace()
的正式形式为 Series.str.replace(pat, repl) ,其中pat为想要寻找的模式,通常为正则表达式,repl为要替换进去的字符串或函数。html
下面是几个简单的例子,X表明一个Series,repl皆为字符串:正则表达式
X.str.replace(r"iphone\s+7", "iphone7") #为了将iphone7视为一个词,把iphone 7转换为iphone7,去除空格。 X.str.replace(r"16gbiphone", "16gb iphone") #将16gbiphone转换无16gb iphone,增长空格。 X.str.replace(r"fl\s?\.?\s?oz", "floz") #将fl.oz或fl . oz转换为floz
若是是一些比较复杂的状况,则须要将repl自定义为函数:iphone
1) 将1.101000变为1.101,即将后面的"0"去掉。函数
remove0 = lambda m:m.group(0).rstrip("0") X.str.replace(r"\d\.\d*[1-9]+0+", remove0)
本例中将repl定义为一个匿名函数,m.group(0)
为匹配到的全部字符串,注意其不会匹配到1.000的状况,由于pat中存在[1-9]。url
2) 将1.000kg变为1kg,这里由于要去除的.
和0
两个字符位于中间,因此没法用上面的rstrip()
。spa
table1 = str.maketrans("","","0.") remove1 = lambda m:m.group(0).translate(table1) X.str.replace(r"\.0+[a-z]+", remove1)
例中使用str.maketrans()
方法指定想要删除的字符,再用translate()
删除.net
3) 将0.0300kg转换为0.03kg。这里因为0.03自己存在0,因此不能用str.maketrans()
了,由于会将全部0都删除。因此这里用两个正则表达式分别找到0.03和kg,再拼接起来:code
def remove2(data): al1 = re.findall(r"\d+\.\d*[1-9]+0+",data.group(0)) al2 = re.findall(r"[a-z]+",data.group(0)) return al1[0].rstrip("0") + al2[0] X.str.replace(r"\d+\.\d*[1-9]+0+[a-z]+", remove2)
4) 商品中有不少衣服鞋子之类的,通常都标有尺码,好比3",15”等。这里要把后面的尺码符号‘ ” ’提取出来并用“colon”表示,让模型识别出前面的数字3和15是表明尺码大小。htm
def findcolon(data): al1 = re.findall(r'\d{1,2}\.\d{1,3}|\d{1,2}|1\d{2}', data.group(0)) return al1[0]+" colon " X.str.replace(r'(?:\d{1,2}\.\d{1,3}|\d{1,2}|1\d{2})(?:\s?\")', findcolon) # 匹配2.3“, 55", 132"等,转换为2.3 colon