短网址原理和实现

1.背景介绍

相信不少人手机上都收到过一些营销短信,短信里面有时候会附带一些网址,以下图 git

这些网址每每都是很是短,可是当咱们打开以后,若是你仔细观察,中间会有跳转,最终浏览器地址栏显示的网址并非你短信里面看到的网址,这就是短网址!

2.原理和应用

短网址通常是采用一个很是短域名下,路径参数通常只有3-6个字符组成,很是简洁!github

使用短网址的前提是先生成短网址,主要是采用某种算法让一段短的字符对应一个长的字符,好比说从经常使用的0-九、a-z、A-Z共62个字符中选择6个字符,那意味着有62的6次方种组合,大概有568亿不重复的短网址可用!golang

服务器经过路径参数查询到真实的长网址,而后使用301/302跳转到真实的网址便可!算法

关于跳转,301 是永久重定向,302 是临时重定向。短地址一经生成就不会变化,因此用 301 是符合 http 语义的,浏览器会记录跳转地址,同时对服务器压力也会有必定减小。可是若是使用了 301,咱们就没法统计到短地址被点击的次数了,若是对数据统计有要求的话,使用302跳转可能比较好一些!数据库

短网址的主要好处是方便传输记忆,特别是在短信里面使用的时候,短信对内容字数有限制,还有好比说微博分享也使用了短网址!数组

3.市面现有案例

目前市面上有不少免费的短连接服务,功能基本上都同样,也没有什么限制!浏览器

(1)百度的短连接(dwz.cn/),百度不只仅提供了网页入口,也提供了接口和开发文档,简单易用!安全

(2)新浪的短连接(sina.lt/),目前仅提供网页入口,未发现接口服务!bash

(3)淘宝的短连接(tb.am/),目前仅提供网页入口,未发现接口服务!服务器

市面还有不少其它的小的公司提供短连接服务,有些是部分免费,有些短连接是有效期的,这里不一一介绍!

4.经常使用算法

网上比较流行的算法有进制算法、摘要(Hash)算法、随机数算法,下面简单介绍一下:

一.进制算法

这个算法网上也有叫做自增序列算法,特色就是永不重复,设置 id 自增,一个 10进制 id 对应一个62进制的数值,1对1,也就不会出现重复的状况,这个利用的就是低进制转化为高进制时,字符数会减小的特性。

计算机中常见的进制有2进制,8进制,10进制,16进制,进制越大,可以表示的数越大,占用的字数也越少。下面举个例:

10进制的1000,在8进制里面是1750,在16进制里面就是3E8,那在62进制里面呢?有人说,计算机里面没有62进制。。。虽然没有,可是咱们能够造一个,进制的转换算法是固定的,最多见的就是“除基取余法”!

咱们假设62进制的字符序列为 0-9a-zA-Z,顺序能够打乱,可是应该固定下来,是一个从0角标开始的到61的数组,咱们暂且称之为字母表!

====> 1000/62 = 16,余8

====> 16/62 = 0,余16

余数获得的数字是1六、8,而后找到字母表里面角标为16和8的字符拼起来,就是g8,很是短,只有2位数!假如说咱们想至少产生6位字符,那么咱们能够从一个比较大的数字开始,具体能够看下图:

1位	62	0 - 61
2位	3844	62 - 3843
3位	约 23万	3844 - 238327
4位	约 1400万	238328 - 14776335
5位	约 9.1亿	14776336 - 916132831
6位	约 568亿	916132832 - 56800235583
复制代码

二.Hash算法

第一种方式:

简单的对长连接进行加盐md5,会生成一个32位的字符串,随机从里面取6个字符,或者简单粗暴取最后6位,可是md5只包含0-9A-Fa-f,比字母表的里面字符还少,冲突概率更大!

第二种方式:

1.将长网址 md5 生成 32 位签名串,分为 4 段, 每段 8 个字节

2.对这四段循环处理, 取 8 个字节, 将他当作 16 进制串与 0x3fffffff(30位1) 与操做, 即超过 30 位的忽略处理

3.这 30 位分红 6 段, 每 5 位的数字做为字母表的索引取得特定字符, 依次进行得到 6 位字符串

4.总的 md5 串能够得到 4 个 6 位串,取里面的任意一个就可做为这个长 url 的短 url 地址

生成的方式更加复杂,重复的概率低,可是依然会出现冲突!

三.随机数算法

这个更简单,直接对这个62个字符数组作随机选择,选择其中6个字符看成短连接码,简单易用,可是不免会出现重复冲突!

四.算法对比

第一种算法只要解决自增id问题就能够避免冲突,自增id能够采用数据库自增主键,每次生成短码只需一次数据库操做(insert操做,获取主键id,而后算出短码便可)

第二种和第三种算法其实都差很少,都是依赖于程序随机,容易出现冲突,这就须要每次在插入数据库的时候判重,效率低一些!

5.安全

短连接虽然方便了传输和记忆,可是因为连接组成的字符个数少,更容易被爆破、猜想攻击,攻击者能够轻松遍历全部字符组成的连接!

因此不建议使用短连接发送具备私密性的网址,好比说重置密码连接,对一些权限、敏感信息的连接要作好二次鉴权!

最后,推荐一个使用golang写的短网址项目,能够做为一个单独服务部署使用: github.com/praglody/sh…

相关文章
相关标签/搜索