原文连接算法
引言:数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。数据科学做为科学,首先应该知足科学的基本定义。在此基础上,数据科学兼具数据自己的一些特性。
本文内容整理自《数据科学家养成手册》认知篇。网络
数据科学是一个巨大而抽象的概念,要想清晰地认识这样一个概念,就须要对其进行拆解。框架
科学是一种泛指的领域,包括数据科学、计算机科学、社会科学、经济科学、语言科学、生物科学等都是小、窄而深的认知领域,这些领域的科学有各自的体系、规范及认知特性。科学,不论是某个领域的科学,仍是泛指的科学认知体系,都有最基本的要求——精确性和体系性。ide
太阳东升西落,四季夏热冬冷,这种事情不足为奇。经过观察星辰运动,得出这些天体都在围绕地球转动(至少看上去是这样)的结论,也不值得称道。而可以把这一切经过量化的(尤为是精确量化的)描述进行阐释和计算的人,确实比常人的观察层面更广、更深。这种精确描述的过程与状态的现实指导意义远比从大方向上指出一个性质要大。ui
体系性就是指“自圆其说”的框架。所谓“自圆其说”的概念是指一种科学理论要有完整的对象定义,以及对象之间的换算与转化的条件和量化值的确切关系,一般表现为各类各样的计算公式或者统计几率的确切描述。并且,这一切有一个前提——须要“可应验”,严格地说是“高度应验”才行。体系框架的成立会造成一个封闭的讨论边界。在讨论边界内部的全部观察对象都会以各类量化结果呈如今换算公式的因子里,它的完整性会直接支持体系自己,并支持全部在该体系下进行的性状判断与预测。spa
数据无处不在。在网络上、报纸上、书籍上,在家用电脑的磁盘上,在咱们的脑海里,数据大量且普遍地存在。围绕数据,人类已经作了不少数据科学的研究和应用工做,其中最为基础的就是数据的存储和传输。数据的价值在于数据上所承载的信息,信息的价值在于其消除不肯定性时的成本及其直接和间接的做用,而这一系列的价值使得咱们对数据的价值予以空前的重视,这就是咱们热衷于研究数据科学的缘由所在。
数据做为信息的载体,经过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不肯定性,下降试错成本”的巨大利益。
著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)曾经在1948年于《贝尔系统技术期刊》上发表论文《通讯的数学理论》(A Mathematical Theory of Communication),其中有一段描述大意是“信息是用来消除随机不肯定性的东西”。香农在这篇论文中不只给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为经常使用的公式之一 —— 信息熵公式。
其中,P(xi ) 表明消息 xi 产生的几率。
数据做为介质承载信息的形式,其实是一种将信息抽象后的符号表示。因此,究其本质,不管是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,仍是纸张上的文字数据,都具备以下特性。设计
做用:承载信息,消除不肯定性。orm
形式:抽象过的符号记录。对象
定义:符号的含义通过约定,不会或至少不易产生二义性。图片
信息的流传须要经过存储介质实现持久化。如今咱们一提到存储,一般都会想到计算机硬盘,包括传统的机械硬盘及技术愈来愈成熟的固态硬盘(SSD硬盘)等。
众所周知,目前的电子计算机使用的计算与存储介质都是二进制的。这不是偶然的结果,而是由电子计算机的实现原理形成的。在ENIAC的设计过程当中,冯·诺依曼(John von Neumann)根据半导体电子元件的二稳态特性,将计算机的计算逻辑设计为二进制方式(即只有“0”和“1”两种状态),在电子管上体现出来的特性就是“截止”和“导通”。而人类喜欢使用十进制也主要是由于人有10根手指,在平常生活中用十进制进行计算最为便利。
电子管
在计算过程当中,计算机将“与门”、“或门”、“与非门”、“或非门”等逻辑元件组合在一块儿,模拟计算进位的过程,进而造成完整的计算实现单元。用电子计算机实现的任何一种运算都是由这些逻辑门组合而成的,而这以后在电子计算机领域不断进行的技术改进都是基于一样的原理。尽管元件的体积愈来愈小,集成的程度愈来愈高,计算的速度愈来愈快,但从计算逻辑和实现的数学层面来讲,其原理没有本质的变化。
逻辑门
在硬盘技术方面也一样不断进行着量变的积累。不管盘片容量是500GB仍是1TB甚至更高,都是经过磁头机械臂在盘片上滑动的同时高速转动盘片来实现磁性材料持久化和材料状态感应。计算中使用的“0”和“1”,就能够经过这种持久化以磁介质疏密(磁通量的高低)写入磁性材料层。
机械硬盘及其读写原理
展望将来,量子计算机和光子计算机的研发已经展开。这些新型计算机尽管实现原理不一样,但只要成本足够低,并且与目前的电子计算机采用相同的工业标准,使双方在存储介质、信息传输等多个方面可以毫无障碍地互联互通,其将来就很是值得期待。
加拿大D-WAVE公司的量子计算机
信息通过抽象、建模,落实到介质上成为数据。数据与不一样特性的介质结合,在各类介质上落地的形式也不彻底同样,而这种结合一般是数据去迎合介质的特性。有意义的数据落在介质上,才能造成能够传递的信息,这就是信息产业赖以生存的基础。
在了解科学和数据的定义后,咱们基本能够给数据科学下一个完整的定义了——数据科学是一种研究信息感知、抽象、保存、建模、传输,以及数据之间的逻辑、数量统计、计算和转化关系的综合应用科学。数据科学的本质就是表述和指导对事物认知的关系量化,把普适性的科学思惟方式应用到数据上,使其成为一门窄而深的、精确的、拥有完总体系的学科。这就是数据科学要解决的本质问题。
若是尝试对数据科学这个庞大的体系进行细分,能够分红不少专一于数据某一方面处理的专项学科。例如,数据贮存学研究数据存储中的数据体积、存取效率、可靠性问题等,数据传输学研究传输速度、传输质量问题等。在这两个大的领域中,全部可能影响数据存储和传输的因素都会被讨论和研究,计算机硬件制造、光电信号传输、数据有损/无损压缩、数据冗余与高可用、数据校验等都是研究的对象。
此外,还有研究如何在数据中进行信息抽象、计算、查找、分析等诸多度量与换算问题的数据算法学,以及其余一切可以对数据的感知、抽象、保存、建模、传输,甚至是数据的可视化、数据之间的辩证逻辑提供支持的学科等。其余分类一样会因为产业分化的须要而随时产生。这种平衡中的变化不断发生,一些小的分支和分类也会因为科研工做者潜移默化的努力而逐渐融合为一个大的分支。这些方式一样是仁者见仁,智者见智,不一而足。
本文内容整理自《数据科学家养成手册》认知篇,点此连接可在博文视点官网查看此书。