Base64 编码原理及代码实现

Base64 编码原理及代码实现

原文地址(其实做者仍是本人啦):www.sanphantom.com/?p=81html

所谓 base64 编码就是从 ASCII 码表中选取64个可打印字符(A-Za-z0-9+/)做为基本字符集对其它字符进行编码转换。加上做为填充的 “=” 其实是 65 个字符。网络

Base64 产生的缘由

要想了解 base64 就得先了解下 ASCII 码表, ASCII 码表是由以英语为母语的美国制定。英语用128个符号编码就够了,可是用来表示其余语言,128个符号是不够的。好比,在法语中,字母上方有注音符号,它就没法用 ASCII 码表示。因而,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。好比,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,能够表示最多256个符号。ui

可是,这里又出现了新的问题。不一样的国家有不一样的字母,所以,哪怕它们都使用256个符号的编码方式,表明的字母却不同。好比,130在法语编码中表明了é,在希伯来语编码中却表明了字母Gimel (ג),在俄语编码中又会表明另外一个符号。可是无论怎样,全部这些编码方式中,0--127表示的符号是同样的,不同的只是128--255的这一段。编码

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,确定是不够的,就必须使用多个字节表达一个符号。好比,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,因此理论上最多能够表示 256 * 256 = 65536 个符号。加密

而在网络上交换数据时,好比说从A地传到B地,每每要通过多个路由设备,因为不一样的设备对字符的处理方式有一些不一样,这样那些不可见字符就有可能被处理错误,这是不利于传输的。因此就先把数据先作一个 Base64 编码,通通变成可见字符,这样出错的可能性就大下降了。spa

为何是 Base64?

为何是 base64 而不是 base12八、base256 呢?其实缘由很简单,由于在 ASCII 码表中的可打印字符只有 95 个,因此选取 64 个可打印字符是最为合理的。既然如此,那是否是也有 base3二、base16 呢?对,固然能够有。只是目前大多用到的仍是 base64 编码。.net

Base64 编码的理论实现

前面根据 A-Za-z0-9+/ 字符集能够获得一张索引表:code

索引 对应字符 索引 对应字符 索引 对应字符 索引 对应字符
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w
15 P 32 g 49 x
16 Q 33 h 50 y

Base64 具体编码转换步骤以下:htm

  1. 将待转换的字符串以每 3 个字节分为一组,1byte = 8bit,每一组正好 24 个二进制位。
  2. 将上面的 24 个二进制位划分为每 6 位一组,造成 4 组。
  3. 每组前面加两个 0,造成 8 位一组,即 4 个字节。
  4. 根据上面 Base64 对照表获取对应的值,造成 Base64 编码。

**举个例子:**下面表格是以字符串 "Man" 做为原始字符串进行 Base64 编码的过程。blog

文本 M a n
ASCII 77 97 110
二进制 01001101 01100001 01101110
分组 00 010011 00 010110 00 000101 00 101110
索引 19 22 5 46
Base64编码 T W F u

那么你可能会问,若是我原始字符串少于 3 个字节怎么办呢?

若是输入原始字符串长度不能被 3 整除的话,咱们须要用 "=" 对其 Base64 编码进行填充。为何须要 "=" 填充呢?由于 Base64 解码是以 4 位字符一划分的,若是你不对其进行填充就会致使解码失败。

当原始字符串的二进制位不是 6 的倍数的时候,咱们依然会将其划分为 6 位一组,而后将最后一组用 0 填充至 6 位(在末尾填充)。

**举个例子:**下面是对字符串 "AB" 的编码过程,其编码结果为 "QUI="。

文本 A B
ASCII 65 66
二进制 01000001 01000010
分组 00 010000 00 010100 00 001000
索引 16 20 8
Base64编码 Q U I =

注意:中文字符有不少的编码,如 UTF-八、GBK、GB2312 等,不一样的编码都会对 Base64 编码产生影响。

源代码

base64.h

/*base64.h*/
#ifndef _BASE64_H
#define _BASE64_H

#include <stdlib.h>
#include <string.h>
#include <math.h>

inline unsigned int BASE64_ENCODE_SIZE(unsigned int len) { // 计算字符串加密后的长度(不包括填充字符 '=')
    return ceil(len * 8 / 6);
}

unsigned char *base64encode(const unsigned char *str, unsigned int len);
unsigned char *base64decode(const unsigned char *str, unsigned int len);

#endif
复制代码

base64.c

#include <stdio.h>
#include "base64.h"

#define CHARPAD '='

extern inline unsigned int BASE64_ENCODE_SIZE(unsigned int);

/* Base64 编码表 */
static const unsigned char base64_table_encode[] = {
    'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H',
    'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
    'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',
    'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',
    'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
    'o', 'p', 'q', 'r', 's', 't', 'u', 'v',
    'w', 'x', 'y', 'z', '0', '1', '2', '3',
    '4', '5', '6', '7', '8', '9', '+', '/',
};

unsigned char *base64encode(const unsigned char *str, unsigned int len) {
    int i = 0, j = 0, k = 0;
    unsigned int encodeSize = BASE64_ENCODE_SIZE(len);
    unsigned char *result = (unsigned char *) malloc(sizeof(unsigned char) * encodeSize + 4);

    result[encodeSize] = '\0'; /* 构造字符串 */

    for(i = 0, j = 0; i < encodeSize; i += 4, j += 3)
    {
        result[i] = base64_table_encode[(str[j] >> 2) & 0x3f];
        
        if (i + 1 >= encodeSize) break;
        result[i+1] = base64_table_encode[((str[j] & 0x3) << 4) | ((str[j+1] >> 4) & 0xf)];
        
        if (i + 2 >= encodeSize) break;
        result[i+2] = base64_table_encode[((str[j+1] & 0xf) << 2) | ((str[j+2] >> 6) & 0x3)];

        if (i + 3 >= encodeSize) break;
        result[i+3] = base64_table_encode[(str[j+2] & 0x3f)];
    }

    return result;
}
复制代码

Reference

www.ruanyifeng.com/blog/2007/1…

blog.csdn.net/wo541075754…

相关文章
相关标签/搜索