为作个程序员英语字典,我处理了StackOverflow和HackerNews10年5千万条数据

有点标题党,不过都说都真实的。英语技能对开发员人员相当重要。全部人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。原本计划给本身作个开发人员经常使用单词表,感受可能对其它人也有用,因此就发布开源出来。 node

单词列表托管在Github上,一共将近3000个。python

https://github.com/kkyon/Simple-IT-Englishgit

单词主要来自:StackOverflow 和HackerNew、github

 

Word Source:

Source Newest Post Oldest Post Row Count Size
HackerNews comments 2015-10-13 08:44:02 UTC 2006-10-09 19:51:01 UTC 8399417 3.41 GB
HackerNews stories 2015-10-13 08:44:34 UTC 2006-10-09 18:21:51 UTC 1959809 402.71 MB
StackOverflow answers 2019-09-01 05:22:21.463 UTC 2008-08-01 13:16:49.127 UTC 27665009 22.27 GB
StackOverflow questions 2019-09-01 05:23:41.743 UTC 2008-08-03 21:38:52.623 UTC 18154493 28.13 GB
48.8 GB processed




1 . 大数据部分使用了Bigquery, 使用很是简单。
技术栈是:大数据

2. NLP部分使用NLTK.spa

3. 最后使用python脚原本生成Markdown文件。 具体代码在github上都有。 后面加个v2ex地址: 开发

相关文章
相关标签/搜索