CPU|MICGPU|FPGA|超算|Meta-data|

生物医学大数据:算法

收集数据后对数据的分析,如同看相,而对数据信息的挖掘能够看做是算命。这两个过程是基于算法和软件这类工具之上的。数据库

在存储方面:在硬件上,为了Parallel computing的目的,刚开始选择的处理器是multiple core,以后选择many integrated core architectureMIC英特尔® 集成众核架构(英特尔® MIC 架构)产品为开发人员提供了一个关键优点:它们基于标准的现有编程工具和方法运行),以后选择GPU(大内存),以后是FPGA电场可编程逻辑闸阵列,它是在PALGALCPLD等可编程逻辑器件的基础上进一步发展的产物。它是做为专用集成电路领域中的一种半定制电路而出现的,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。可是就生物信息学领域只能跑GATK),现在又有了超级计算机。编程

 

 

 

 

 

 

 

No free lunch:由CPU到超算,灵活性降低可是专有性上升,同时存在的问题是费用变高。现现在的生物信息学分析,正在使用更为专有性的硬件,也更加费钱。架构

所以,面临Massive data和因为data transfer形成的cost,能够有如下基于软件的应对方法:工具

1.尽量传输压缩包大数据

2.decouple:将原始数据分析拆解,选择有须要的类型,会减小数据量spa

3.使用dataset保存分析结果:由于生物数据的特色是a.快速增加b.异构c.一次读屡次写,因此以数据特征做为研究对象更为重要,将这些数据特征存入数据库更能够方便查找。对象

4.去冗余:将原始数据中重复部分去掉。
blog

 

对于Data的处理过程当中,须要注意:ip

1.要对数据进行Analysis,mining(便是prediction),visual。其中,Data mining这个过程是:首先先可以创建scientific model,这个model是一种grey box,它有别于white box或者black box。white box是研究现象的本质,black box是由现象1指向现象2,它们其中是没有过程的,即不知道为何;而grey box是经过statistical定量获得的,是利用统计学将不肯定是否发生的几率数据化,将预测变成能够度量的数字。由于统计学是将现象1和现象2用数学公式联系在一块儿,其中数公式反应的是二者的关联强度,并对这个关联强度定量,因此人们利用这个定量值make decision,这个decision能够是断定这些原始数据与某patterns关联很大(或反应了某pattern),据此有一个结论,就是“是or不是某pattern”,根据这个结论,科学家能够找到new knowledge。

2.明白Meta-data(元数据,又称诠释数据、中介数据、中继数据、后设数据等,为描述其余数据信息的数据。)与raw-data之间的关系,由于生物信息学数据有一次读屡次写(或者屡次分析)的特色,因此应该分离读写。

3.同时面临愈来愈多的数据必需要扩大内存。

相关文章
相关标签/搜索