我:最近刚学了scala,而且就有scala版本的WordCount,恰好学以至用了一下:html
补:至于java版本,虾皮博主的一篇文章讲解的很是细致:
Hadoop集群(第6期)_WordCount运行详解java
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.htmlnode
我:经过flatMap将其扁平化,而.map((_,1)) 则是每一个出现单词,1这样的形式展示,此时还没归并。git
我:基于某个字段——决定了要用group By,频次要用count聚合,倒序天然少不了desc。
补:框架搭好就是往里塞了:面试
我:先拆分红若干小的,而后再排(思路是从希尔排序出发的)
补:内部排序算法:希尔排序算法
http://www.xiapistudio.com/archives/291.html数据库
我:初始化,资源,数据源,并行化,rdd转化,action算子打印输出结果或者也能够存至相应的数据存储介质
补:具体的可看下图:编程
我:Transformation(转化)算子和Action(执行)算子。设计模式
我:submit。
面试官:spark-submit?
我:嗯,spark-submit。api
我:aggeragate
面试官:还有呢?
我:记不清了。。。
面试官:还有你刚刚写的那个groupByKey哈
补:
在咱们的开发过程当中,能避免则尽量避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽可能使用map类的非shuffle算子。这样的话,没有shuffle操做或者仅有较少shuffle操做的Spark做业,能够大大减小性能开销。
我:spark shuffle处于一个宽依赖,能够实现相似混洗的功能,将相同的Key分发至同一个Reducer上进行处理。
补:详细探究Spark的shuffle实现
http://blog.csdn.net/johnny_lee/article/details/22619585
我:topic
补:分布式消息系统:Kafka
我:能够先分析基数大形成数据倾斜的维度,将其适当的拆分。
补:Spark性能优化指南:高级篇
我:list(set(list1).intersection(set(list2))),经过set 的intersection取交集的函数实现相同元素的提取。
我:由于以前也在作一些leetcode上的题目,多多少少重温了下数据结构,当时脑海里呈现的是数组方便查找,队列和栈方便插入删除,因此一听到较快获取果断数组了。
面试官:dict(字典)
我:厉害!!
面试官:那它的时间复杂度你晓得嘛?
我:不是特别了解,O(1),常数时间复杂度?
面试官:嗯,那你知道它的缺陷吗?
我:(中午吃撑了,TradeOff哈)不晓得
面试官:空间复杂度较高哈
补:
反思了一下,之因此说错,可能和之前学习算法时,起承转合的过分,并未将栈、队列和map,或者dict直接比较,而是从数组切换到队列和栈,因此就和以前的那个PUT和POST差很少,训练逻辑正确,确实数组查询记录方便,但训练广度有些多样性不够。
算法备忘录——基础数据结构与复杂度
经常使用数据结构和算法操做效率的对比总结
恢复IP地址
Given a string containing only digits, restore it by returning all possible valid IP address combinations.
Example
Given “25525511135”, return
[
“255.255.11.135”,
“255.255.111.35”
]
Order does not matter.
我:思考了一下子,没想出来,只能想出个不通用的思路。
面试官:给你个提示,尝试用树这个数据结构。
补:此处埋一个坑,学完树的数据结构再回来解决。
快乐数
Write an algorithm to determine if a number is happy.
A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers.
Example
19 is a happy number
1^2 + 9^2 = 82
8^2 + 2^2 = 68
6^2 + 8^2 = 100
1^2 + 0^2 + 0^2 = 1
我:思路是模拟过程法,即按照它验证一个数是不是快乐数的方式进行模拟,固然也有些取巧的方式,若是某个中间结果曾出现过,妥妥滴死循环嘛,即刻跳出。
面试官:思路是对的
我:我以为这会TLE,确定有取巧的方法(这道题目以前好像接触过)
补:回去搜了一下,发现以前一直求助的一个大神的博客经过模拟过程用Python实现的:
Happy Number (以前的怀疑有更巧方法在于时常保持偷懒的思惟也是必要的)
我:Java:Eclipse;Python:PyCharm;Scala:IntelliJ IDEA;Shell:VIM
我:不了解,但之后回去买本O’Really的《设计模式》
补:封面以下:
我:因为对Restful的了解只停留在使用层面,给个人感受像是一种资源的提交获取,GET获取,POST/DELETE/PUT均可以看做是一种提交操做
补:
【专业定义】:一种软件架构风格,设计风格而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件能够更简洁,更有层次,更易于实现缓存等机制。
RESTful百度百科
我:①减轻负载;②权限控制
补:读写分离的做用
看了上面的文章,减轻负载是首要目的,至于权限控制,更像是一种实现方式,不像目的。
我:ZooKeeper是分布式协调组件,非大数据领域,能够用ZooKeeper来作HA或者存储数据,好比配置信息啥的。(Znode)
补:ZooKeeper 典型应用场景一览