你用 Python 处理过的最大数据集有多大?我想大概不会超过上亿条吧,今天分享一个用 Python 处理分析 14 亿条数据的案python
这份 14 亿条数据集来自 Google Books ,由 Google Ngram viewer 生成,根据书本印刷的每个年份,记录了一个特定单词或词组在谷歌图书的使用量。数据集中有成千上百万的书,时间上涵盖了从 16 世纪到 2008 年。能够绘制出单词使用量随时间的变化,好比查询「Python 」在历史中出现的频率。web
下面使用 Python 的 PyTubes 数据库来加载上面的数据集,而后分析生成上面这样一张图。PyTubes 是一个专门用来加载大数据源的库。数据库
1-gram 的数据集在硬盘上能够展开成为 27 Gb 的数据,这在读入 python 时是一个很大的数据量级。Python能够轻易地一次性地处理千兆的数据,可是当数据是损坏的和已加工的,速度就会变慢并且内存效率也会变低。django
总的来讲,这 14 亿条数据(1,430,727,243)分散在 38 个源文件中,一共有 2 千 4 百万个(24,359,460)单词(和词性标注,见下方),计算自 1505 年至 2008 年。编程
当处理 10 亿行数据时,速度会很快变慢。而且原生 Python 并无处理这方面数据的优化。幸运的是,numpy 真的很擅长处理大致量数据。使用一些简单的技巧,咱们可使用 numpy 让这个分析变得可行。数组
在 python/numpy 中处理字符串很复杂。字符串在 python 中的内存开销是很显著的,而且 numpy 只可以处理长度已知并且固定的字符串。基于这种状况,大多数的单词有不一样的长度,所以这并不理想。less
你们在学python的时候确定会遇到不少难题,以及对于新技术的追求,这里推荐一下咱们的Python学习扣qun:784758214,这里是python学习者汇集地!!同时,本身是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每日分享一些学习的方法和须要注意的小细节编程语言
点击:python技术分享交流性能
下面全部的代码/例子都是运行在 8 GB 内存 的 2016 年的 Macbook Pro。若是硬件或云实例有更好的 ram 配置,表现会更好。学习
1-gram 的数据是以 tab 键分割的形式储存在文件中,看起来以下:
1Python 1587 4 2 2Python 1621 1 1 3Python 1651 2 2 4Python 1659 1 1
每一条数据包含下面几个字段:
11. Word 22. Year of Publication 33. Total number of times the word was seen 44. Total number of books containing the word
为了按照要求生成图表,咱们只须要知道这些信息,也就是:
11. 这个单词是咱们感兴趣的? 22. 发布的年份 33. 单词使用的总次数
经过提取这些信息,处理不一样长度的字符串数据的额外消耗被忽略掉了,可是咱们仍然须要对比不一样字符串的数值来区分哪些行数据是有咱们感兴趣的字段的。这就是 pytubes 能够作的工做:
1import tubes 2 3FILES = glob.glob(path.expanduser("~/src/data/ngrams/1gram/googlebooks*")) 4WORD = "Python" 5one_grams_tube = (tubes.Each(FILES) 6 .read_files() 7 .split() 8 .tsv(headers=False) 9 .multi(lambda row: ( 10 row.get(0).equals(WORD.encode('utf-8')), 11 row.get(1).to(int), 12 row.get(2).to(int) 13 )) 14)
差很少 170 秒(3 分钟)以后, one grams_ 是一个 numpy 数组,里面包含差很少 14 亿行数据,看起来像这样(添加表头部为了说明):
1╒═══════════╤════════╤═════════╕ 2│ Is_Word │ Year │ Count │ 3╞═══════════╪════════╪═════════╡ 4│ 0 │ 1799 │ 2 │ 5├───────────┼────────┼─────────┤ 6│ 0 │ 1804 │ 1 │ 7├───────────┼────────┼─────────┤ 8│ 0 │ 1805 │ 1 │ 9├───────────┼────────┼─────────┤ 10│ 0 │ 1811 │ 1 │ 11├───────────┼────────┼─────────┤ 12│ 0 │ 1820 │ ... │ 13╘═══════════╧════════╧═════════╛
下面就能够开始分析数据了。
谷歌展现了每个单词出现的百分比(某个单词在这一年出现的次数/全部单词在这一年出现的总数),这比仅仅计算原单词更有用。为了计算这个百分比,咱们须要知道单词总量的数目是多少。
幸运的是,numpy让这个变得十分简单:
1last_year = 2008 2YEAR_COL = '1' 3COUNT_COL = '2' 4year_totals, bins = np.histogram( 5 one_grams[YEAR_COL], 6 density=False, 7 range=(0, last_year+1), 8 bins=last_year + 1, 9 weights=one_grams[COUNT_COL] 10)
绘制出这个图来展现谷歌每一年收集了多少单词:
很清楚的是在 1800 年以前,数据总量降低很迅速,所以这回曲解最终结果,而且会隐藏掉咱们感兴趣的模式。为了不这个问题,咱们只导入 1800 年之后的数据:
1one_grams_tube = (tubes.Each(FILES) 2 .read_files() 3 .split() 4 .tsv(headers=False) 5 .skip_unless(lambda row: row.get(1).to(int).gt(1799)) 6 .multi(lambda row: ( 7 row.get(0).equals(word.encode('utf-8')), 8 row.get(1).to(int), 9 row.get(2).to(int) 10 )) 11)
这返回了 13 亿行数据(1800 年之前只有 3.7% 的的占比)
得到 python 在每一年的占比百分数如今就特别的简单了。
使用一个简单的技巧,建立基于年份的数组,2008 个元素长度意味着每年的索引等于年份的数字,所以,举个例子,1995 就只是获取 1995 年的元素的问题了。
这都不值得使用 numpy 来操做:
1word_rows = one_grams[IS_WORD_COL] 2word_counts = np.zeros(last_year+1) 3for _, year, count in one_grams[word_rows]: 4 word_counts[year] += (100*count) / year_totals[year]
绘制出 word_counts 的结果:
形状看起来和谷歌的版本差很少
实际的占比百分数并不匹配,我认为是由于下载的数据集,它包含的用词方式不同(好比:Python_VERB)。这个数据集在 google page 中解释的并非很好,而且引发了几个问题:
人们是如何将 Python 当作动词使用的?
'Python' 的计算总量是否包含 'Python_VERB'?等
幸运的是,咱们都清楚我使用的方法生成了一个与谷歌很像的图标,相关的趋势都没有被影响,所以对于这个探索,我并不打算尝试去修复。
性能
谷歌生成图片在 1 秒钟左右,相较于这个脚本的 8 分钟,这也是合理的。谷歌的单词计算的后台会从明显的准备好的数据集视图中产生做用。
举个例子,提早计算好前一年的单词使用总量而且把它存在一个单独的查找表会显著的节省时间。一样的,将单词使用量保存在单独的数据库/文件中,而后创建第一列的索引,会消减掉几乎全部的处理时间。
此次探索 确实 展现了,使用 numpy 和 初出茅庐的 pytubes 以及标准的商用硬件和 Python,在合理的时间内从十亿行数据的数据集中加载,处理和提取任意的统计信息是可行的,
为了用一个稍微更复杂的例子来证实这个概念,我决定比较一下三个相关说起的编程语言: Python,Pascal, 和 Perl.
源数据比较嘈杂(它包含了全部使用过的英文单词,不只仅是编程语言的说起,而且,好比,python 也有非技术方面的含义!),为了这方面的调整, 咱们作了两个事情:
只有首字母大写的名字形式能被匹配(Python,不是 python)
每个语言的说起总数已经被转换到了从 1800 年到 1960 年的百分比平均数,考虑到 Pascal 在 1970 年第一次被说起,这应该有一个合理的基准线。
结果:
对比谷歌 (没有任何的基准线调整):
运行时间: 只有 10 分钟多一点。