小小明 凹凸数据 数组
小小明,「凹凸数据」专栏做者,Pandas数据处理专家,致力于帮助无数数据从业者解决数据处理难题。编辑器
凹凸们,你们好
咱们都知道Pandas里支持正则替换比较舒服,可是Excel却没有一个能够支持正则的函数!!!
不过我发现借助VBA就能够在Excel实现正则的抽取、搜索和替换,简直如虎添翼有没有~今天我要给你们分享一个我本身用VBA编写的神器,让你的Excel可以直接支持正则。看彻底文,若是有收获,别忘了点赞支持一下
先看看效果吧:ide
对于一列数据:函数
中楼层(共9层)|2007年建|1室1厅|24.78平米|北 地下室|2014年建|1室0厅|39.52平米|东 底层(共2层)5室3厅|326.56平米|东南西北
咱们想提取出其中的 层、楼层数、建筑年份、户型、大小和方向,咱们能够选中一排的六个单元格,而后输入公式:工具
=re_extract(A1,"([^|(]+)(?:\(共(\d+)层\))?(?:\|(\d{4})年建\|)?(\d室\d厅)\|([\d.]+)平米\|([东南西北]+)")
而后按下Ctrl+shift+Enter(表示数组公式),便可获得以下结果:开发工具
中楼层 9 2007 1室1厅 24.78 北 地下室 0 2014 1室0厅 39.52 东 底层 2 0 5室3厅 326.56 东南西北
效果以下:
?:表示当前括号内部是非捕获组。
再看一个简单的例子,对于一列数据:idea
小五87 张三丰98 东方不败76 杨过88
咱们想将姓名和成绩分开,能够选中一排的二个单元格,而后输入公式:3d
=re_extract(A1,"(.+?)(\d+)")
而后按下Ctrl+shift+Enter(表示数组公式),便可获得以下结果。
效果:excel
对于一列数据:code
联想/LENOVO 狮乐/SHILE Midea/美的 联想/LENOVO 松下/Panasonic 红叶/RedLeaf 纳米亚 富士施乐/FujiXerox 佳印 佳能/CANON TCL
咱们想提取其中的中文品牌,对于没有中文的才用英文,能够输入公式:
=re_find(A1,"[\u4e00-\u9fa5]+|^\w+$")
最终结果:
固然正则搜索也支持数组公式,再看一个例子,对于下面一列数据:
ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18
咱们须要取出全部
的ENBCUCPFunction/CULTE/RATFreq/EutranFreqLTE四个字段对应的值,能够选中一排的四个单元格,而后输入公式:
=re_find(A1,"[-_\d]+")
便可获得结果:
280419 1 1 18 279719 1 1 18 280196 1 1 18 280198 1 1 18 280219 1 1 18 280228 1 1 18 280242 1 1 18 279519 1 1 18 279619 1 1 18 279633 1 1 18 280032 1 1 18 280382 1 1 18 279731 1 1 18 280019 1 1 18 279819 1 1 18 280319 1 1 18 280191 1 1 18 280194 1 1 18 460-01_280192 1 1 18 280197 1 1 18 280199 1 1 18 279419 1 1 18 279488 1 1 18
效果:
对于下面这列数据,咱们但愿仅保留EutranFreqLTE对应的值,多个值用;拼接:
ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=19 ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18 ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=19
能够输入公式:
=re_sub(A1,".+?(\d+)(;|$)", "$1$2")
获得结果:
18 18 18 18 18 18;19 18;19 18 18 18;19 18;19 18;19 18;19 18 18 18 18 18 18 18 18 18 18;19
效果:
再举个例子,对于下面这列数据,想去掉全部的非中文字符和被括号括起来的字符:
中山-Z-古镇华艺集团路口-280308-1-2-OF 中山-ZD-古镇华艺集团路口-280308-2-1-OF 中山-Z-古镇华艺集团路口-280308-2-2-OF 中山-ZD-横栏富横东路-280227-1-1-OF 中山-Z-横栏富横东路-280227-1-2-OF 中山-ZD-横栏富横东路-280227-2-1-OF 中山-Z-横栏富横东路-280227-2-2-OF 中山-ZD-横栏富横东路-280227-3-1-OF 中山-Z-横栏富横东路-280227-3-2-OF 中山-Z-三角电信营业厅(室分QCELL)-278903-1-1-MF 中山-Z-三角高平营业厅(室分QCELL)-278902-1-1-MF 中山-ZD-横栏中艺重工-280009-1-1-OF 中山-ZD-横栏中艺重工-280009-2-1-OF 中山-ZD-横栏中艺重工-280009-3-1-OF 中山-Z-横栏三沙商富路-279966-1-2-OF 中山-ZD-横栏三沙商富路-279966-1-1-OF 中山-ZD-横栏新丰物流-279974-1-1-OF 黄圃奥杰斯电器LTGX_3_F
输入一下公式:
=re_sub(A1,"[A-Z0-9_\-]+|\(.*\)", "")
便可获得:
中山古镇华艺集团路口 中山古镇华艺集团路口 中山古镇华艺集团路口 中山横栏富横东路 中山横栏富横东路 中山横栏富横东路 中山横栏富横东路 中山横栏富横东路 中山横栏富横东路 中山三角电信营业厅 中山三角高平营业厅 中山横栏中艺重工 中山横栏中艺重工 中山横栏中艺重工 中山横栏三沙商富路 中山横栏三沙商富路 中山横栏新丰物流 黄圃奥杰斯电器
效果:
好了,演示完效果,咱们如今来看看如何开发这三个函数吧。
首先打开excel软件,点击开发工具->Visual Basic(或者直接按快捷键Alt+F11),打开VBA的编辑器:
右键单击当前工做薄对象插入模块:
在模块中插入如下代码:
Option Explicit Public Function re_sub(sText As String, pattern As String, repl As String) Dim oRegExp As Object Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示仅匹配第一个符合项 .IgnoreCase = False '区分大小写 .pattern = pattern re_sub = .Replace(sText, repl) End With End Function Public Function re_find(sText As String, pattern As String) Dim oRegExp As Object, match As Object, matches As Object Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示仅匹配第一个符合项 .IgnoreCase = True '不区分大小写 .pattern = pattern Set matches = .Execute(sText) End With Dim d As Object Set d = CreateObject("Scripting.Dictionary") For Each match In matches d.Add match, Null Next re_find = d.keys End Function Public Function re_extract(sText As String, pattern As String) Dim oRegExp As Object, match As Object, matches As Object, i As Integer Set oRegExp = CreateObject("vbscript.regexp") With oRegExp .Global = True 'True表示匹配全部, False表示仅匹配第一个符合项 .IgnoreCase = True '不区分大小写 .pattern = pattern Set matches = .Execute(sText)(0).submatches End With Dim d As Object Set d = CreateObject("Scripting.Dictionary") For i = 0 To matches.Count - 1 d.Add matches(i), Null Next re_extract = d.keys End Function
而后按下Ctrl+S保存:
保存在我的宏工做簿:
C:\Users\{userName}\AppData\Roaming\Microsoft\Excel\XLSTART\
对于家庭和学生版2016,我的宏工做簿在:
C:\Users\{userName}\AppData\Local\Packages\Microsoft.Office.Desktop_8wekyb3d8bbwe\LocalCache\Roaming\Microsoft\Excel\XLSTART
{userName}表示你当前的用户名。
格式为xlam,文件名无所谓。
而后在这个电脑的任什么时候候,任何地方打开excel软件均可以直接使用上面开发好的正则处理函数了!
非捕获组
功能:让某个圆括号只用于分组,而不捕获其中的内容。
方法:将(内容)改成(?:内容)
(?=abc)是正则中表示位置的语法,用于表示一个位置,表示当前位置的右边必须是abc字符而不会匹配abc自己。
完结,撒花!干货分享,求个三连~