Spark高级数据分析中文版-读者交流

第二章:分布式

备注:
1.本书第二章样例数据因为才有的是短连接,国内的用户可能没法下载。我把数据集拷贝到百度网盘上。你们能够从这个地方下载:
http://pan.baidu.com/s/1pJvjHA7工具

谢谢读者钱先生指出这个问题。翻译

2.P11,要记得设置log4j.properties文件,将日志级别改成WARN,不然看到的输出可能不太同样:有许多的INFO!日志

勘误表:
1.第2章P16页开始部分,“建立RDD的动做(action)并不会致使集群执行分布式计算”中“建立RDD的动做(action)”有错误,应该是“建立RDD的操做”component

2.第2章P30页中间的运行结果应该是:
(1007, 0.2854529057466858)
(5645434, 0.09104268062279874)
(0, 0.6838772482597568)
(5746668, 0.8064147192926266)
(0, 0.03240818525033484)
(795, 0.7754423117834044)
(795, 0.5109496938298719)
(795, 0.7762059675300523)
(12843, 0.9563812499852178)ci

每行后面的序号和括号是没有的!io

 

第四章集群

 

备注:百度

1. P56.“该数据集能够在线下载http://i.cn/R2wmIsI,这个短连接国内可能下载不了,能够增长一个注释:中文版的读者能够在https://archive.ics.uci.edu/ml/machine-learning-databases/covtype下载foreach

 

勘误:

1. P52 第一段,“即便它已经和“向均数回归””中,“向均数回归”改成“趋均数回归”,以保持先后一问一致。

2. P54.图4-1中的中文有误。英文版上原本也是错的。“牛奶超过建议食用期3天了吗”,左边分支应该为“是”,“已变质”,右边分支为“否”

3. P58.最后一段:“以前,为了评测保留的收听数据”中”评测“改成”评价“

4. P60.倒数第三段”召回率是被分类器标记为”正“的全部样本与。。。“改成”召回率是被分类器标记为”正“并且确实为”正“的样本与。。。“

5. P63第一段"假设子数据包含N个。。。"中”子数据“改成”子数据集“

 

第5章

1. P72. 倒数第3段,”i“应该为"k"

2. P80.中代码部分的一个注释能够翻译一下。”#first time only“,翻译为”#这行代码只需运行一次“

3.P84.第三段,”本节使用熵做为同类性度量“,将”同类性“改成”同质性“

4.P86.”为了好玩“,能够改成”为了知足你们的好奇心”

 

第6章

P90.倒数第二段,“曲棍球棒图”,改成“曲棍球杆曲线”

 

第11章

1. P195第一段。“或者只能拿到大脑截面的几张静态图像”调整为“或者只能拿到大脑的几张静态截面图像”

2. P195.第一段末尾,“范式”改成“模式”

3. P196.第一段末尾,“活动模式”改成“大脑活动模式”

4.P196.“人们偏心Python工具”改成“人们更喜欢用Python工具”

 

附录A

1. P213.第二段,”对应必定数量的档口(slot)“,改成”对应必定数量的slot“,slot不要翻译!

2. P219.表A-1中,”逻辑回归和Regularized Variants“改成”逻辑回归及其正则化变体“,”Regularized Variants(Ridge/L2/LASSO/L1)“改成”正则化变体(Ridge/L2/LASSO/L1)“

 

其余:

1. P226.” 腹部为米色且带有带褐色斑点“,多了一个”带“,改成” 腹部为米色且带有褐色斑点“

 

第三章

1.P40.”它的体积可不小“,”体积“改成”体量”

2.方框中第一句,“也就是阶段全部任务所需信息”,改成“也就是该阶段全部任务所需信息”,增长一个”该“字

3.P44.倒数第二段开头前两句“本书附带源代码给出了处理AUC的实现,很复杂。源代码的注释作了必定程度的解释,这里咱们就不重复了”,改成“AUC的具体实现请参考本书附带的源代码。代码实现比较复杂,请参考源代码的注释,这里咱们就不重复说明了。”

 

第9章

1. P155.第二段后面,“即时分析”应为“即席分析”

2. P156.第一段,“时间周期”改成“时间跨度”

3.P156.倒数第二段,“全球其余国家”改成“世界其余国家”

4.P157.第一段第一句。“咱们对VaR的定义都比较开放”。“开放'改成”宽泛“

5.P158. 倒数第三段。“因素汇报回报经验平均向量”改成“因素平均回报经验向量“

6.P158. 倒数第二段。最后一句”分布方式“改成”分布“,”方式“两字去掉

 

第8章

1. P136. 第一段,“使人欢呼的是”,改成“使人高兴的是”

2. P141.第三段最后一句,"属性地图"改成“属性map”

3.P145.倒数第二段,第一句。“它们也可能存在有待咱们发现和处理的数据质量问题”,改成“它们也还可能存在数据质量问题,这些问题有待咱们进一步发现和处理”

4.P149.倒数第三段,“输出行政区的记录”改成“五个行政区的输出记录”

5.P153.倒数第三段。“司机和乘客可能会就在哪里下车发生争执”。改成“司机和乘客可能会发生摩擦”

 

第7章

1. P117.图7-1的注解文字。“部分合伴生关系图”,中多了一个“合”字,应删除

2. P120.第三段代码中“componentCounts.take(10)foreach(println)”中,少了一个“.”。应该为“componentCounts.take(10).foreach(println)”。英文版原版自己的错误。

3. P124.第二段。“由于它们具备一种有意义的语义关系”,改成“由于它们具备某种值得咱们关注的语义关系”

4. P124.中卡方计算公司中,不是x而是希腊字母Chi(Χ)

相关文章
相关标签/搜索