周末游手好闲一回,写点轻松点的内容,最近在陪老婆追一部挺火的剧《长安十二时辰》,剧情仍是挺有意思的,可是有个叫"大案牍术"的东西看得我有点出戏,职业病犯了联想了一堆乱七八糟的东西…算法
剧中有一个统管了大唐三省六部全部档案资料的机构叫靖安司,这俨然就是一个大数据中心,里面有一个把我惊呆了的黑科技--大案牍术,这不就是唐朝的大数据平台吗,虽然知道是杜撰而来,可是这套大数据平台仍是挺有模有样的,麻雀虽小五脏俱全,平台的总架构师是创始人徐宾,这是一个我怀疑有超忆症的人,下面我来瞎扯下这个大数据平台的核心技术。安全
数据存储介质是竹简,竹简有序地放在一些造型古怪的架子上,应该是为了查找方便。架构
另外想要提升查询效率,索引确定是少不了的,而这个存储平台的索引就是徐宾本人,他有惊人的记忆力,能记住全部卷宗存放的位置,另外他胸前还有一条项链,剧中他有秀过一波操做,摸一下这个项链就能把一我的之前作过的事情都巴拉巴拉地说出来,因此这个项链应该是辅助记忆的一个东西,也就是二级索引。分布式
剧中还有一段是李必要经过大案牍术去查徐宾这我的的过去,叫了10我的花了挺久的时间才查出来,可见没了这个索引,查询效率是很是低下的。工具
如何能提升查询计算的效率,最直接的方法加机器呀,分布式计算你懂的,虽然在唐朝没有计算机,可是总架构师徐宾固然是知道分布式计算的原理的,因此“机器不够,人头来凑”,徐宾找了一帮的 SQL Boy (那个时候叫吏员)来帮忙查找卷宗,提升查询效率。大数据
数据的采集,清洗,入库过程也是架构师徐宾一手抓的,etl工程师从各地记录各类事件和用户的基本信息,传输给靖安司进行存储,另外由于长安当时藤纸已经不够用了并且很是贵,致使没纸录入,案牍记录大不如从前精准,大案牍术的可靠性大受质疑。因此徐冰还在研究造纸的技术,目的是为了可以让数据传输更加轻便,一次能传输更加大量的数据,且控制成本。优化
这个大数据平台还有一套实时通讯的工具--望楼,这个望楼不只用做观察敌人行为以及异常报警,还有复杂的远程通讯功能。加密
信息仍是经过加密才传输的,以下图,看不懂可是看起来很牛逼。不过这个加密也不是绝对安全,遇到黑客也是会被拦截而且破解的,还有很大的优化空间,并且这个望楼还出现了一次特大级事故,被黑客龙波植入了名为陆三的病毒,消息被泄漏甚至被篡改,总架构师徐宾也是差点付出了生命的代价。架构设计
扯完了平台的架构设计,那么咱们来讲下应用场景吧。剧中提到办案的人是大案牍术选出来的,是能经过用户画像精准地找到符合某种特征的人群,再经过评分来选择最优解。设计
可是,架构师徐宾在这里又动了手脚,他在程序里篡改了一行 SQL 代码,
"select '张小敬' from daandushu"
他把查询结果写死在了代码里,可见公司里尚未代码互审机制啊,或者是没有一个和架构师能力至关的人来牵制他,让他不能在代码里随心所欲。
接下来根据用户的基本属性和行为特征进行分析,获取用户的喜爱和可能的行为,没错,这就是数据挖掘,没想到徐宾不单单是工程师,仍是个搞算法的,来看看剧中的原话。
由于不少地方我都是用二倍速看的,因此剧情看得不是很详细,不少地方没有写得很严谨,你们不用在乎,这部剧自己就是属于架空类型的,不少设计都禁不起推敲,乐呵乐呵就完事了。
(文中的图片均来自百度图片,侵删)
以为有价值请关注 :公众号「大叔据」