2015年硅谷最火技术十问

1 硅谷最火的高科技创业公司都有哪些?

在硅谷你们很是热情的谈创业谈机会,我也经过本身的一些观察和积累,看到了很多最近几年涌现的热门创业公司。我给你们一个列表,这个是华尔街网站的全世界创业公司融资规模评选(http://graphics.wsj.com/billion-dollar-club/)。它原本的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到2015年1月17日,如今的排名和规模已经发生了很大的变化。首先估值在10Billlon的达到了7家,而一年前一家都没有。第二第一名是中国人家喻户晓的小米,第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)好比Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有很多类似模式成功的,好比Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。因此你们仍是能够在移动(Uber),大数据(Palantir),消费级互联网,通信(Snapchat),支付(Square),O2O App里面寻找下大机会。这里面不少公司我都亲自面试和感觉过他们的环境。node

2 有如此之多的高估值公司,是否意味着存在很大的泡沫?

看了那么多高估值公司,不少人都以为很是疯狂,这是否是很大泡沫了,泡沫是否是要破了,是不少人的疑问。我认为在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去作一样也滋长了泡沫,不少项目在几个月的时间就会估值翻2,3倍,如Uber,Snapchat上我也惊讶于他们的巨额融资规模。那么这张图就是讲“新兴技术炒做”周期,把各种技术按照技术成熟度和指望值分类,在硅谷创业孵化器YCombinator 课程How to Start a Startup提到。创新萌芽Innovation Trigger”、“指望最顶点Peak ofInflated Expectation”、“下调预期至低点Trough of Disillusion”、“回归理想Slope ofEnlightenment”、“生产率平台Plateau of Productivity”,越往左,技术约新潮,越处于概念阶段;越往右,技术约成熟,约进入商业化应用,发挥出提升生产率的效果。纵轴表明预期值,人们对于新技术一般会随着认识的深刻,预期不断升温,伴之以媒体炒做而到达顶峰;随之因技术瓶颈或其余缘由,预期逐渐冷却至低点,但技术技术成熟后,指望又从新上升,从新积累用户,而后就到了可持续增加的健康轨道上来。Gartner公司每一年发布技术趋势炒做图,Gartner's 2014 Hype Cycle for Emerging Technologies Maps the Journey to Digital Business今年和去年的图对比显示,物联网、自动驾驶汽车、消费级3D打印、天然语言问答等概念正在处于炒做的顶峰。而大数据已从顶峰滑落,NFC和云计算接近谷底。git

3 将来,高科技创业的趋势是什么?

我先提一个最近看的一部电影《Imitation Game》,讲计算机逻辑的奠定者艾伦图灵(计算机届最高奖以他命名)艰难的一辈子,他当年为破译德军密码制做了图灵机为二打败利做出卓越贡献,挽回几千万人的生命,可在那个时代由于同性恋被判化学阉割,自杀结束了短暂的42岁生命。他的一个伟大贡献就是在人工智能的开拓工做,他提出图灵测试(Turing Test),测试某机器是否能表现出与人等价或没法区分的智能。咱们如今回到今天,人工智能已经有了很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。在Google资深科学家吴军博士(数学之美,浪潮之巅做者),他提出当前技术发展三个趋势,第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,如今开始发生,但对社会的影响不少人尚未意识到;第三,大数据和机器智能结合,这是将来时,必定会发生,有公司在作,但尚未太造成规模。他认为将来机器会控制98%的人,而如今咱们就要作个选择,怎么成为剩下的2%?【独家】吴军:将来机器将会控制98%的人李开复在2015年新年展望也提出将来五年物联网带来庞大创业机会。面试

4 为何大数据和机器智能结合的将来必定会到来?

其实在工业革命以前(1820年),世界人均GDP在1800年前的两三千年里基本没有变化,而从1820年到2001年的180年里,世界人均GDP从原来的667美圆增加到6049美圆。由此足见,工业革命带来的收入增加的确是翻天覆地的。这里面发生了什么,你们能够去思考一下。但人类的进步并无中止或者说稳步增加,在发明了电力,电脑,互联网,移动互联网,全球年GDP增加 从万分之5到2%,信息也是在急剧增加,根据计算,最近两年的信息量是以前30年的总和,最近10年是远超人类全部以前累计信息量之和。在计算机时代,有个著名的摩尔定律,就是说一样成本每隔18个月晶体管数量会翻倍,反过来一样数量晶体管成本会减半,这个规律已经很好的match了最近30年的发展,而且能够衍生到不少相似的领域:存储,功耗,带宽,像素。而下面这个是冯诺伊曼,20世纪最重要的数学家之一,在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出(技术)将会逼近人类历史上的某种本质的奇点,在那以后 所有人类行为都不可能以咱们熟悉的面貌继续存在。这就是著名的奇点理论。目前会愈来愈快指数性增加,美国将来学家Ray Kurzweil称人类可以在2045年实现数字化永生,他本身也创办奇点大学,相信随着信息技术、无线网、生物、物理等领域的指数级增加,将在2029年实现人工智能,人的寿命也将会在将来15年获得大幅延长。算法

5 国外值得关注的大数据公司都有哪些?国内又有哪些?

这是2014年总结的Big Data公司列表,咱们大体能够分红基础架构和应用,而底层都是会用到一些通用技术,如Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。我能够举几个例子,在分析这一块,Cloudera,Hortonworks,MapR做为Hadoop的三剑客,一些运维领域,MangoDB,Couchbase都是NoSQL的表明,做为服务领域AWS和Google BigQuery剑拔弩张,在传统数据库,Oracle收购了MySQL,DB2老牌银行专用,Teradata作了多年数据仓库。上面的Apps更多,好比社交消费领域Google, Amazon, Netflix, Twitter, 商业智能:SAP,GoodData,一些在广告媒体领域:TURN,Rocketfuel,作智能运维Sumologic等等。去年的新星 Databricks 伴随着Spark的浪潮震撼Hadoop的生态系统。数据库

对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我5年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng做为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提升精确度和召回率,最近还作了个无人自行车很是有趣。腾讯做为最大的社交应用对大数据也是情有独钟,本身研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有不少故事,当年在百度作Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是否是被王坚忽悠,最后经历了双十一的洗礼证实了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增加,另外一方面存储带宽都是巨大成本,没价值就真破产。编程

6 Hadoop是现今最流行的大数据技术,在它出现的当时,是什么形成了Hadoop的流行?当时Hadoop具备哪些设计上的优点?

看Hadoop从哪里开始的,不得不提Google的先进性,在10多年前,Google出了3篇paper论述分布式系统的作法,分别是GFS, MapReduce, BigTable,很是NB的系统,但没人见过,在工业界不少人痒痒的就想按其思想去仿做,当时Apache Nutch Lucene的做者Doug Cutting也是其中之一,后来他们被Yahoo收购,专门成立Team去投入作,就是Hadoop的开始和大规模发展的地方,以后随着Yahoo的衰落,牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大数据公司,把Hadoop的实践带到各个硅谷公司。而Google尚未中止,又出了新的三辆马车,Pregel, Caffeine, Dremel, 后来又有不少步入后尘,开始新一轮开源大战。设计模式

为啥Hadoop就比较适合作大数据呢?首先扩展很好,直接经过加节点就能够把系统能力提升,它有个重要思想是移动计算而不是移动数据,由于数据的移动是很大的成本须要网络带宽。其次它提出的目标就是利用廉价的普通计算机(硬盘),这样虽然可能不稳定(磁盘坏的概率),但经过系统级别上的容错和冗余达到高可靠性。而且很是灵活,可使用各类data,二进制,文档型,记录型。使用各类形式(结构化,半结构化,非结构化所谓的schemaless),在按需计算上也是个技巧。服务器

7 可否用普通人都能理解的方式解释一下Hadoop的工做原理?

咱们先说HDFS,所谓Hadoop的分布式文件系统,它是能真正作到高强度容错。而且根据locality原理,对连续存储作了优化。简单说就是分配大的数据块,每次连续读整数个。若是让你本身来设计分布式文件系统,在某机器挂掉还能正常访问该怎么作?首先须要有个master做为目录查找(就是Namenode),那么数据节点是做为分割好一块块的,同一块数据为了作备份不能放到同一个机器上,不然这台机器挂了,你备份也一样没办法找到。HDFS用一种机架位感知的办法,先把一份拷贝放入同机架上的机器,而后在拷贝一份到其余服务器,也许是不一样数据中心的,这样若是某个数据点坏了,就从另外一个机架上调用,而同一个机架它们内网链接是很是快的,若是那个机器也坏了,只能从远程去获取。这是一种办法,如今还有基于erasure code原本是用在通讯容错领域的办法,能够节约空间又达到容错的目的,你们感兴趣能够去查询。网络

接着说MapReduce,首先是个编程范式,它的思想是对批量处理的任务,分红两个阶段,所谓的Map阶段就是把数据生成key, value pair, 再排序,中间有一步叫shuffle,把一样的key运输到同一个reducer上面去,而在reducer上,由于一样key已经确保在同一个上,就直接能够作聚合,算出一些sum, 最后把结果输出到HDFS上。对应开发者来讲,你须要作的就是编写Map和reduce函数,像中间的排序和shuffle网络传输,容错处理,框架已经帮你作好了。架构

8 MapReduce模型有什么问题?

第一:须要写不少底层的代码不够高效,第二:全部的事情必需要转化成两个操做Map/Reduce,这自己就很奇怪,也不能解决全部的状况。

9 Spark从何而来?Spark相比于Hadoop MapReduce设计上有什么样的优点?

其实Spark出现就是为了解决上面的问题。先说一些Spark的起源。发自 2010年Berkeley AMPLab,发表在hotcloud 是一个从学术界到工业界的成功典范,也吸引了顶级VC:Andreessen Horowitz的 注资. 在2013年,这些大牛(Berkeley系主任,MIT最年轻的助理教授)从Berkeley AMPLab出去成立了Databricks,引无数Hadoop大佬尽折腰,它是用函数式语言Scala编写,Spark简单说就是内存计算(包含迭代式计算,DAG计算,流式计算 )框架,以前MapReduce因效率低下你们常常嘲笑,而Spark的出现让你们很清新。 Reynod 做为Spark核心开发者, 介绍Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100。在去年的Sort benchmark上,Spark用了23min跑完了100TB的排序,刷新了以前Hadoop保持的世界纪录。

1 0若是想从事大数据方面的工做,是否能够推荐一些有效的学习方法?有哪些推荐的书籍?

我也有一些建议,首先仍是打好基础,Hadoop虽然是火热,但它的基础原理都是书本上不少年的积累,像算法导论,Unix设计哲学,数据库原理,深刻理解计算机原理,Java设计模式,一些重量级的书能够参考。Hadoop 最经典的the definitive guide, 我在知乎上也有分享有什么关于 Spark 的书推荐? - 董飞的回答

其次是选择目标,若是你像作数据科学家,我能够推荐coursera的data science课程,通俗易懂Coursera - Specializations

学习Hive,Pig这些基本工具,若是作应用层,主要是把Hadoop的一些工做流要熟悉,包括一些基本调优,若是是想作架构,除了能搭建集群,对各个基础软件服务很了解,还要理解计算机的瓶颈和负载管理,Linux的一些性能工具。最后仍是要多加练习,大数据自己就是靠实践的,你能够先按API写书上的例子,可以先调试成功,在下面就是多积累,当遇到类似的问题能找到对应的经典模式,再进一步就是实际问题,也许周边谁也没遇到,你须要些灵感和网上问问题的技巧,而后根据实际状况做出最佳选择。

相关文章
相关标签/搜索