谈谈字符串翻转

时间 2019-11-16

标签谈谈字符串翻转繁體版

原文原文链接

题图来自 Unsplashobjective-c

字符串翻转做为算法题已是一个不能再基础的问题了，无非就是逆序遍历、双指针遍历、递归，代码也能分分钟写出来：算法

void strrev(char *str) {
    size_t start = 0;
    size_t end = start + strlen(str) - 1;
    
    while (start < end) {
        char ch = str[start];
        str[start++] = str[end];
        str[end--] = ch;
    }
}
复制代码

OK，上面的代码放到 LeetCode 上绝对是能 AC 的，可是实际状况中能 AC 吗？答案确定是不能的！一个靠谱的字符串翻转算法题放到 LeetCode 上至少是 Medium 的难度。swift

首先咱们知道字符串有编码规则，好比咱们经常使用的 UTF-8，Windows 早期采用的 UTF-16（函数名有 W 后缀的 API 采用这种编码）等等...对于英文字母等 ASCII 字符的状况，UTF-8 和 ASCII 编码都是一个字节，因此上述的方法没有太大问题。然而对于有中文的状况，一个中文字符在 UTF-8 中会占 3 个字节，若是单纯的按字节翻转就会出现乱码。函数

那怎么解决呢？性能

最简单的方法就是使用 mbstowcs 函数将 char * 类型的字符串转换为 wchar_t 类型的宽字符串，wchar_t 这个类型在 Linux、UNIX 系统上占 4 个字节，在 Windows 上占 2 个字节。4 个字节意味着字符将用 UTF-32 来编码，无论是汉字仍是 Emoji 都能存放下来。但对于 2 个字节，也就是 UTF-16，汉字是能表示，可是 Emoji 这类位于辅助平面码位的字符须要两个码元来表示，本文的方法就暂不适用了。测试

首先咱们来看一下改进版的字符串翻转：ui

static void strrev2(char *str) {
    setlocale(LC_CTYPE, "UTF-8");
    size_t len = mbstowcs(NULL, str, 0);
    wchar_t *wcs = (wchar_t *) calloc(len + 1, sizeof(wchar_t));
    mbstowcs(wcs, str, len + 1);
    
    size_t start = 0;
    size_t end = start + len - 1;
    
    while (start < end) {
        wchar_t wc = wcs[start];
        wcs[start++] = wcs[end];
        wcs[end--] = wc;
    }
    
    wcstombs(str, wcs, wcstombs(NULL, wcs, 0));
    free(wcs);
}
复制代码

使用 mbstowcs 这类转换函数首先须要设置字符串的系统编码，否则函数没法肯定你传入的 char * 是个什么东西，本文中无论是源码仍是系统环境的 std I/O 都采用 UTF-8 编码。编码

接下来咱们调用一次 mbstowcs 不传入目标地址和字符长度，这可让函数直接计算所需的 wchar_t 个数并返回回来以便咱们申请内存。spa

而后就是基于 wchar_t 的一个常规字符串翻转了，最后别忘了转换回去，释放内存便可。指针

Bonus: Cocoa 开发中的字符串翻转

做为 iOS 开发者，固然还要考虑 OC 中的解决方法了。

方案 1：

经过 API 遍历子串，而后前向插入到新的 NSMutableString 中。

- (NSString *)my_stringByReversing {
    NSMutableString *reversed = [NSMutableString stringWithCapacity:self.length];
    NSRange range = NSMakeRange(0, self.length);
    [self enumerateSubstringsInRange:range
                             options:NSStringEnumerationByComposedCharacterSequences
                          usingBlock:^(NSString * _Nullable substring, NSRange substringRange,
                                       NSRange enclosingRange, BOOL * _Nonnull stop) {
                              [reversed insertString:substring atIndex:0];
                          }];
    return [reversed copy];
}
复制代码

这种方法是效果最好的，它会将 Composed Emoji（如 👨‍👩‍👧‍👧）也提取出来，由于这类 Emoji 是由多个 Unicode 字符组合而成的，因此即使是 4 个字节的 wchar_t 也容纳不下。但这种方法的弊端就是开销太大，稍后咱们作一个比较。

方案 2：

经过 API 获取到 C String，而后用文章开头所述的方法处理，再从新用处理后的 C String 构造 NSString。

- (NSString *)my_stringByReversing2 {
    NSUInteger length = [self lengthOfBytesUsingEncoding:NSUTF8StringEncoding];
    char *buf = calloc(length + 1, 1);
    [self getCString:buf maxLength:length + 1 encoding:NSUTF8StringEncoding];
    strrev2(buf);
    NSString *reversed = [NSString stringWithCString:buf encoding:NSUTF8StringEncoding];
    free(buf);
    return reversed;
}
复制代码

这种方法的好处就是高效，经测试，它与遍历的方法相比有 100 多倍的性能提高，可是问题就是没法处理复杂的 Emoji。

两种方法，在使用中须要好好衡量一下。

方案 3：

Swift。Swift 的 String 的基本单位是 Character，它是 Unicode Scalar 的集合，表示了一个可渲染的字符，包括 Composed Emoji。而且，String 是实现了 BidirectionalCollection，拥有 reversed 方法，能够轻松实现字符串翻转。另外要提醒你们一下，正因为 Swift 的 String 是基于 Character 的，对于取某个字符这样的操做，能复用以前的 Index 就复用，我见过不少人喜欢写

str.index(str.startIndex, offsetBy: i)
复制代码

这样是很费性能的，由于 Index 的移动操做须要从起点遍历计算，用这种方法遍历一遍字符串的复杂度近似是 O(n!)。

你们有兴趣能够试试 Swift 的性能~