你们好,我又来了,答应云栖论坛一周一篇文章, 因为工做太忙已中断1个多月实在抱歉,这一次写点轻松有趣的东西-快速的作个资源搜索站html
依稀记得十来年前,带宽还只有2M的时候,受各个论坛启发,作了能够搜索嘿嘿嘿资源的搜索站前端
一晃这么多年过去,嘿嘿嘿的东西依然喜欢,但世间却变化万千git
资源种类已不只仅是X片,高清电影、纪录片、无损音乐、美剧、大型软件等等,彷佛更加吸引github
资源呈现方式也百花齐放,从最先的BT文件、电驴地址,到如今的磁链地址、各类云盘等等数据库
而传统的P2P下载方式也变得格格不入,由于硬盘容量已经大到但凡大一点云存储服务商都把全部资源缓存在本身的服务器上,进行哈希匹配后直接提供离线下载资源(这也直接致使快播王欣被抓)缓存
所以,做为资源的入口,电驴地址和磁链地址依然有着强大的生命力,受益于各商家庞大的离线存储,电驴、磁链地址已经近乎等同于直接的HTTP地址,而且有着比HTTP地址更友好的通用性。服务器
随手百度一下BT搜索、磁链搜索关键词,就会出来不少相似的搜索网站,好比如下这些多线程
而今天,咱们也来搭建一个相似的网站,只不过架构
借助新技术,不只搭建过程更加简化,建设思路也能有所革新,因此今天文章的主题就是:asp.net
使用阿里云开放搜索服务快速搭建资源搜索网站
先看一下最终的建设效果(访问地址:https://sodemo.alphams.cn/)
那么下面咱们就一步一步来搭建这个简单的资源搜索网站
1、搭建前的一些准备和分析
资源搜索网站有以下几个关键点:
一、原始数据
没有个几百万条初始搜索数据,都很差意思和别人说是作资源站的,在这个案例里面,咱们采用了simplecd官方制做的电驴地址打包,虽然年代比较久远,但也有百万条左右,下载地址为:
https://www.douban.com/group/topic/17230136/
请注意保护版权!
二、数据存储与检索
十多年前资源的数量以百万计算,如今一个饱满的资源站的资源数量应该早已过亿,数据库大小也应该在50G以上,这样的数据,使用阿里云RDS MySQL数据库具备较高的性价比,数据量再大一些还能够结合DRDS分布式数据库一同使用
对于具体的检索技术,不一样的数据库的全文索引、分词等技术各不相同,甚至连MySQL的各类版本之间的处理都有区别,而因为数据库我是确实不会。。要是会的话就不至于一直用Linq ORM了。。我想象中的100万条数据全文检索的速度应该在0.01秒左右,但本身操做MySQL进行配置和优化,始终达不到这样的查询效率
所以今天这里选择了阿里云的开放搜索服务,让阿里云来处理这些难点。
这也是今天的一个主要讲解重点,实测证实,确实检索效率很高!
三、数据爬虫与更新
初始数据载入后,后续的数据更新也很是重要,主要靠爬虫程序进行每日更新,重点在于爬虫程序的效率的所爬目标的资源质量,这里有两个难点
1)所爬目标资源。电影站、软件站、BT搜索站等等,均可以是爬虫目标资源,而若是掌握了搜索引擎的高级用法,并引入无限数量的代理IP,则能够对搜索引擎直接进行定向爬取,效果更加。如能作到每日新增10万左右新资源,则是一个比较完美的效果。
2)爬虫程序。若是仅仅是对HTML进行查询和分析,则须要很高的正则使用技巧,而若是涉及到语义分析的话,更须要很强的语言分析相关技术。爬虫程序的逻辑编写,我想.NET Framework 4.5是再适合不过了,拥有先进的多线程并行库和丰富而全面的HTTP访问手段,完胜其余各类新型语言
通过以上的分析,设计出以下的系统架构图:
2、具体的搭建步骤
一、购买一个阿里云RDS数据库并进行相关配置
由于本项目纯属测试,因此买个便宜点的按时计费的MySQL RDS
天天7块多钱,还算能够接受的范围内。
购买完成后,申请一个外网地址(用于初始数据迁移)
最后得到了内外网的地址:
二、使用Navicat Premium(请支持正版,)打开下载好的SQLite格式的电驴初始数据
根据表结构能够看出相关数据存储方式,因为今天的案例比较简单,咱们仅须要title、updatetime、ed2k这3个字段
三、根据须要的字段,在购买的RDS数据库中,创建数据库和表
经过Navicat Premium链接到阿里云
创建一个电驴资源表
四、经过Navicat Premium的数据迁移工具,将初始化数据导入RDS
因为没有直接的导入方式,咱们先将SQlite数据导出为文本文件
再将文本文件导入到最终表中
五、经过阿里云开放搜索服务,与RDS链接并创建索引
选择经过数据源建立应用
设置ID为主键
默认定义了以下索引结构
咱们只须要用到Title的检索,须要展现的内容则是title,ed2k,所以修改成以下:
建立完成后进行激活,选择了3G容量,每秒6次的配置(好像价格不便宜哦~)
激活完成后,会进行大约半个小时左右的索引,索引创建好以后,咱们测试一下搜索效果
注意用时:用时0.008791秒
这比本身处理数据库,真是要高很多效率!看来使用阿里云开放搜索服务确实是一个值得尝试的新思路!
六、基本配置完成后,就是如何使用开放搜索服务了
先看一下官方文档的结构
标红的地方能够重点了解,在今天的案例里面,咱们只须要用到API接口里面的Search接口,这是最简单的调用方式
文档仍是比较简单,很容易就看懂了,签名这块阿里作的有些混乱,不过用官方提供的SDK,也能快速的使用服务
七、下面就在.NET中测试一下效果
先到官网下载一下.NET的SDK
而后建一个控制台测试程序,代码以下:
模拟进行搜索美食
返回成功
八、继续新建一个简单的asp.net Web Application,作一下前端访问首页
服务输出使用一个通常处理程序RS.ashx,代码以下:
页面就一个单页面
JS逻辑也很简单
访问效果以下:
好了,今天这个资源搜索网站就搭建好了
麻雀虽小五脏俱全,这个案例仍是具有很强的实践性和延展性的,后续能够作的事情有以下:
1)完善爬虫程序
2)实现一个独立的管理后台,管理爬虫数据和开放搜索服务数据同步
3)增长用户管理
4)增长广告等营收
那么对今天这个案例的总结是:
今天的案例,能够说是一种全新的数据检索思路,成功的把部分面向数据库、面向技术的业务场景,转变为了面向服务、面向用户,以我本身为例,很是精通数据爬虫,精通资源,但对数据库技术并不在行,在不须要学习很深的数据库知识和技巧的状况下,阿里云开放搜索服务成功的帮助我将百万条数据的全文检索时间下降到了0.01秒,这不是传统的经过升级数据库配置、增长集群能解决的(花费上也不合理)。而我也坚信,这种思路,绝对不是阿里云官方Demo里面所说,能够用于论坛搜索这么简单,必定有更广阔的应用。因此,写了这么一个小案例,但愿可以抛砖引玉,激发你们的灵感,作出更多创新。
本项目源码下载:https://github.com/chumakeji/resourcesearch
最后再吐槽几句:
我不是云服务架构设计工做者,但我见得多了,外面哪一个云服务和开放平台我没有用过,我是身经百战了,有必要告诉阿里云开发者一些人生的经验,用完阿里云开放搜索服务,感受就是,秉承了阿里云的一向做风,运行效果8分,文档综合7分,架构设计5分,但说句实在话,阿里云开放搜索服务这个版本,不管是业务流程的设计,仍是搜索语义语法的设计,又或是接口的设计,都不好!连我下载的.NET版本的SDK都写的混乱不堪(居然还包含未隐藏而且能正确访问的Key和Secret。。。),应该说从深度来看,还达不到一个很高的水准,我印象中除了RDS,阿里云几乎每个服务都是如此,被外部批评也是架构能力差,阿里云走的太急了,即便RDS技术应该也是延续了老淘宝数据库技术,也没什么值得骄傲的,如今的阿里云,什么都想作,快速迭代,快速上线,但什么都作不精,这是一个很危险的信号!
转载请注明出处,欢迎邮件交流:zhangrou@printhelloworld.com,或者加QQ群:11444444