Zsh 开发指南（第二篇字符串处理之经常使用操做）

时间 2019-11-16

原文原文链接

导读

字符串处理是 shell 脚本的重点部分，由于 shell 脚本主要的工做是和文件或者其余程序打交道，数据格式一般是文本，而处理没有统一格式的文本文件出奇地复杂，shell 命令中也有不少都是处理文本的。用 bash 处理文本的话，由于自身的功能有限，常常须要调用像 awk、sed、grep、cat、cut、comm、dirname、basename、expr、sort、uniq、head、tail、tac、tr、wc 这样命令，不留神脚本就成了命令大聚会。命令用法各异，有的很简单（好比 cut、tr、wc），看一眼 man 就会用；有的很复杂（好比 awk、sed、grep），用了好多年基本也只会用不多一部分功能。互相配合也容易出现各类各样的问题（好比要命的空格和换行符问题），难以调试，调用命令的开销也很大。而用好了 zsh 的话，能够大幅减小这些命令的使用（并不能彻底避免，由于某些场景确实比较适合用这样的命令处理，好比处理一个大文本文件），而且大幅提高脚本的性能（主要由于减小了进程启动的开销，好比一次简单的字符串替换，调用外部命令实现比内部实现的时间要多好几个数量级）。git

但也所以 zsh 的字符串处理功能很复杂，能够说 zsh 的字符串处理功能，要比绝大多数编程语言自带的字符串函数库或者类库要强大（在不依赖外部命令的状况）。同时各类用法也比较怪异，不少时候简洁性和可读性是有矛盾的，很难兼顾。而 shell 的使用场景决定简洁性是不能被牺牲掉的，即便用 Python 这样比较简洁的语言来处理字符串，不少时候也只能写出冗长的代码，而 zsh 常常能够一行搞定（可能有人想到了 Perl，Perl 在处理文本方面确实有比较明显的优点，但使用 Perl 的话也要承担更多的成本），若是再加上适当地使用外部命令，基本能够应付大多数字符串处理场景。由于字符串处理的内容比较丰富，我会分多篇文章写。本篇只涉及最基础和经常使用的字符串操做，包括字符串的拼接、切片、截断、查找、遍历、替换、匹配、大小写转换、分隔等等。github

字符串定义和简单比较，我已经在前一篇文章提过了，如今直接进入正题。正则表达式

字符串长度

% str=abcde
% echo $#str
5

# 读取函数或者脚本的第一个参数的长度
% echo $#1复制代码

字符串拼接

% str1=abc
% str2=def

% str2+=$str1
% echo $str2
defabc

% str3=$str1$str2
abcdefabc复制代码

字符串切片

字符串切片以前也提过，这里简单复习一下。逗号先后不能有空格。字符位置是从 1 开始算起的。shell

% str=abcdef
% echo $str[2,4]
bcd
% echo $str[2,-1]
bcdef

# $1 是文件或者函数的第一个参数
echo ${1[2,4]}复制代码

字符串切片还有另外一种风格的方法，即 bash 风格，功能大同小异。一般没有必要用这个，并且由于字符位置是从 0 开始算，容易混淆。编程

% str=abcdef
% echo ${str:1:3}
bcd
% echo ${str:1:-1}
bcde复制代码

字符串截断

% str=abcdeabcde

# 删除左端匹配到的内容，最小匹配
% echo ${str#*b}
cdeabcde

# 删除右端匹配到的内容，最小匹配
% echo ${str%d*}
abcdeabc

# 删除左端匹配到的内容，最大匹配
% echo ${str##*b}
cde

# 删除右端匹配到的内容
% echo ${str%%d*}
abc复制代码

字符串查找

子字符串定位。数组

% str=abcdef

# 这里用的是 i 的大写，不是 L 的小写
% echo $str[(I)cd]
3

# I 是从右往左找，若是找不到则为 0, 方便用来判断
% (($str[(I)cd])) && echo good
good

# 找不到则为 0
% echo $str[(I)cdd]
0

# 也可使用小 i，小 i 是从左往右找，找不到则返回数组大小 + 1
% echo $str[(i)cd]
3

% echo $str[(i)cdd]
7复制代码

遍历字符

% str=abcd

% for i ({1..$#str}) {
>    echo $str[i]
>}
a
b
c
d复制代码

字符串替换

按内容替换和删除字符。bash

% str=abcabc

# 只替换找到的第一个
% echo ${str/bc/ef}
aefabc

# 删除匹配到的第一个
% echo ${str/bc}
aabc

# 替换全部找到的
% echo ${str//bc/ef}
aefaef

# 删除匹配到的全部的
% echo ${str//bc}
aa


% str=abcABCabcABCabc

# /# 只从字符串开头开始匹配，${str/#abc} 也同理
% echo ${str/#abc/123}
123ABCabcABCabc

# /% 只从字符串结尾开始匹配，echo ${str/%abc} 也同理
% echo ${str/%abc/123}
abcABCabcABC123


% str=abc
# 若是匹配到了则输出空字符串
% echo ${str:#ab*}

# 若是匹配不到，则输出原字符串
% echo ${str:#ab}
abc

# 加 (M) 后效果反转
% echo ${(M)str:#ab}复制代码

按位置删除字符。微信

%str=abcdef

# 删除指定位置字符
% str[1]=
% echo $str
bcdef

# 能够删除多个
% str[2,4]=
% echo $str
bf复制代码

按位置替换字符。app

% str=abcdefg

# 一对一地替换
% str[2]=1
% echo $str
a1cdefg

# 能够多对多（也包括一对多和多对一）地替换字符，两边的字符数量不须要一致。
# 把第2、三个字符替换成 2345
% str[2,3]=2345
% echo $str
a2345defg复制代码

判断字符串变量是否存在

若是用 [[ "$strxx" == "" ]] ，那没法区分变量是没有定义仍是内容为空，在某些状况是须要区分两者的。编程语言

% (($+strxx)) && echo good

% strxx=""
% (($+strxx)) && echo good
good复制代码

(($+var)) 的用法也能够用来判断其余类型的变量，若是变量存在则返回真（0），不然返回假（1）。

字符串匹配判断

判断是否包含字符串。

% str1=abcd
% str2=bc

% [[ $str1 == *$str2* ]] && echo good
good复制代码

正则表达式匹配。

% str=abc55def

# 少许字符串的话，尽可能不要用 grep
# 本文不讲正则表达式格式相关内容
# 另外 zsh 有专门的正则表达式模块
% [[ $str =~ "c[0-9]{2}\de" ]] && echo a
a复制代码

大小写转换

% str="ABCDE abcde"

# 转成大写，(U) 和 :u 两种用法效果同样
% echo ${(U)str} --- ${str:u}
ABCDE ABCDE --- ABCDE ABCDE

# 转成小写，(L) 和 :l 两种用法效果同样
% echo ${(L)str} --- ${str:l}
abcde abcde --- abcde abcde

# 转成首字母大写
% echo ${(C)str} 
Abcde Abcde复制代码

目录文件名截取

% filepath=/a/b/c.x

# :h 是取目录名，即最后一个 / 以前的部分，若是没有 / 则为 .
% echo ${filepath:h}
/a/b

# :t 是取文件名，即最后一个 / 以后的部分，若是没有 / 则为字符串自己
% echo ${filepath:t}
c.x

# :e 是取文件扩展名，即文件名中最后一个点以后的部分，若是没有点则为空
% echo ${filepath:e}
x

# :r 是去掉末尾扩展名的路径
% echo ${filepath:r}
/a/b/c复制代码

字符串分隔

# 使用空格做为分隔符，多个空格也只算一个分隔符
% str='aa bb cc dd'
% echo ${str[(w)2]}
bb
% echo ${str[(w)3]}
cc

# 指定分隔符
% str='aa--bb--cc'
# 若是分隔符是 : 就用别的字符做为左右界，好比 ws.:.
% echo ${str[(ws:--:)3]}
cc复制代码

多行字符串

字符串定义能够跨行。

% str="line1 > line2"
% echo $str
line1
line2复制代码

读取文件内容到字符串

# 比用 str=$(cat filename) 性能好不少
str=$(<filename)

# 比用 cat filename 性能好不少，引号不能省略
echo "$(<filename)"

# 遍历每行，引号不能省略
for i (${(f)"$(<filename)"}) {
    echo $i
}复制代码

读取文件指定行。

文件 test.txt 内容以下：

line 1. apple
line 2. orange复制代码

# 小文件或者须要频繁调用时，尽可能不要用 sed
% echo ${"$(<test.txt)"[(f)2]}
line 2. orange

# 输出包含 “ang” 的第一行
% echo ${"$(<test.txt)"[(fr)*ang*]}
line 2. orange

# 输出包含 pp 的第一行，但从左截掉 “line” 4个字符。
echo ${"$(<test.txt)"[(fr)*pp*]#line}复制代码

读取进程输出到字符串

读进程输出和读文件相似。

上边字符串相关的处理，直接把 $(<test.txt) 换成 $(命令) 便可。若是必定须要一个文件名，能够这样。

# 返回 fd 路径，优先使用，但某些场景会出错
% wc -l <(ps)
4 /proc/self/fd/11

# 临时文件，会自动删除，适合上边用法出错的状况
% wc -l =(ps)
3 /tmp/zshMWDpqD复制代码

参考

tim.vanwerkhoven.org/post/2012/1…

全系列文章地址：github.com/goreliu/zsh…

付费解决 Windows、Linux、Shell、C、C++、AHK、Python、JavaScript、Lua 等领域相关问题，灵活订价，欢迎咨询，微信 ly50247。

Zsh 开发指南（第二篇 字符串处理之经常使用操做）

导读