快速了解Scala技术栈

时间 2019-11-20

标签快速了解 scala 技术栏目 Scala 繁體版

原文原文链接

http://www.infoq.com/cn/articles/scala-technology/git

我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后，它就仿佛凝聚成为一个巨大的黑洞，吸引力使我不得不飞向它，以致于开始背离Java。当然Java 8为Java阵营增添了一丝亮色，倒是望眼欲穿，千呼万唤始出来。而Scala程序员，却早就在享受lambda、高阶函数、trait、隐式转换等带来的福利了。程序员

Java像是一头史前巨兽，它在OO的方向上几乎走到了极致，硬将它拉入FP阵营，确乎有些强人所难了。而Scala则不，由于它的诞生就是OO与FP的混血儿——完美的基因融合。github

“Object-Oriented Meets Functional”，这是Scala语言官方网站上飘扬的旗帜。这也是Scala的野心，固然，也是Martin Odersky的雄心。数据库

Scala社区的发展编程

然而，一门语言并不能孤立地存在，必须提供依附的平台，以及围绕它创建的生态圈。不如此，语言则不足以壮大。Ruby很优秀，但若是没有Ruby On Rails的推进，也很难发展到今天这个地步。Scala一样如此。反过来，当咱们在使用一门语言时，也要选择符合这门语言的技术栈，在整个生态圈中找到适合具体场景的框架或工具。json

固然，咱们在使用Scala进行软件开发时，亦能够寻求庞大的Java社区支持；但是，若是选择调用Java开发的库，就会牺牲掉Scala给咱们带来的福利。幸运的是，在现在，多数状况你已没必要如此。伴随着Scala语言逐渐造成的Scala社区，已经开始慢慢造成相对完整的Scala技术栈。不管是企业开发、自动化测试或者大数据领域，这些框架或工具已经很是完整地呈现了Scala开发的生态系统。api

快速了解Scala技术栈

若要了解Scala技术栈，并快速学习这些框架，一个好的方法是下载typesafe推出的Activator。它提供了相对富足的基于Scala以及Scala主流框架的开发模板，这其中实则还隐含了typesafe为Scala开发提供的最佳实践与指导。下图是Activator模板的截图：tomcat

那么，是否有渠道能够总体地获知Scala技术栈到底包括哪些框架或工具，以及它们的特性与使用场景呢？感谢Lauris Dzilums以及其余在Github的Contributors。在Lauris Dzilums的Github上，他创建了名为awesome-scala的Repository，搜罗了当下主要的基于Scala开发的框架与工具，涉及到的领域包括：服务器

Database
Web Frameworks
i18n
Authentication
Testing
JSON Manipulation
Serialization
Science and Data Analysis
Big Data
Functional Reactive Programming
Modularization and Dependency Injection
Distributed Systems
Extensions
Android
HTTP
Semantic Web
Metrics and Monitoring
Sbt plugins

是否有“乱花渐欲迷人眼”的感受？不是太少，而是太多！那就让我删繁就简，就个人经验介绍一些框架或工具，从持久化、分布式系统、HTTP、Web框架、大数据、测试这六方面入手，做一次走马观花般的俯瞰。架构

持久化

归根结底，对数据的持久化主要仍是经过JDBC访问数据库。可是，咱们须要更好的API接口，能更好地与Scala契合，又或者更天然的ORM。若是但愿执行SQL语句来操做数据库，那么运用相对普遍的是框架ScalikeJDBC，它提供了很是简单的API接口，甚至提供了SQL的DSL语法。例如：

  val alice: Option[Member] = withSQL {
    select.from(Member as m).where.eq(m.name, name)
  }.map(rs => Member(rs)).single.apply()

若是但愿使用ORM框架，Squeryl应该是很好的选择。个人同事杨云在项目中使用过该框架，体验不错。该框架目前的版本为0.9.5，已经比较成熟了。Squeryl支持按惯例映射对象与关系表，至关于定义一个POSO（Plain Old Scala Object），从而减小框架的侵入。若映射违背了惯例，则能够利用框架定义的annotation如@Column定义映射。框架提供了org.squeryl.Table[T]来完成这种映射关系。

由于能够运用Scala的高阶函数、偏函数等特性，使得Squeryl的语法很是天然，例如根据条件对表进行更新：

update(songs)(s =>
  where(s.title === "Watermelon Man")
  set(s.title := "The Watermelon Man",
      s.year  := s.year.~ + 1)
)

分布式系统

我放弃介绍诸如模块化管理以及依赖注入，是由于它们在Scala社区的价值不如Java社区大。例如，咱们能够灵活地运用trait结合cake pattern就能够实现依赖注入的特性。所以，我直接跳过这些内容，来介绍影响更大的支持分布式系统的框架。

Finagle的血统高贵，来自过去的寒门，如今的高门大族Twitter。Twitter是较早使用Scala做为服务端开发的互联网公司，于是积累了很是多的Scala经验，并基于这些经验推出了一些很有影响力的框架。因为Twitter对可伸缩性、性能、并发的高要求，这些框架也极为关注这些质量属性。Finagle就是其中之一。它是一个扩展的RPC系统，以支持高并发服务器的搭建。我并无真正在项目中使用过Finagle，你们能够到它的官方网站得到更多消息。

对于分布式的支持，绝对绕不开的框架仍是AKKA。它产生的影响力如此之大，甚至使得Scala语言从2.10开始，就放弃了本身的Actor模型，转而将AKKA Actor收编为2.10版本的语言特性。许多框架在分布式处理方面也选择了使用AKKA，例如Spark、Spray。AKKA的Actor模型参考了Erlang语言，为每一个Actor提供了一个专有的Mailbox，并将消息处理的实现细节作了良好的封装，使得并发编程变得更加容易。AKKA很好地统一了本地Actor与远程Actor，提供了几乎一致的API接口。AKKA也可以很好地支持消息的容错，除了提供一套完整的Monitoring机制外，还提供了对Dead Letter的处理。

AKKA天生支持EDA（Event-Driven Architecture）。当咱们针对领域建模时，能够考虑针对事件进行建模。在AKKA中，这些事件模型能够被定义为Scala的case class，并做为消息传递给Actor。借用Vaughn Vernon在《实现领域驱动设计》中的例子，针对以下的事件流：

咱们能够利用Akka简单地实现：

case class AllPhoneNumberListed(phoneNumbers: List[Int])
case class PhoneNumberMatched(phoneNumbers: List[Int])
case class AllPhoneNumberRead(fileName: String)

class PhoneNumbersPublisher(actor: ActorRef) extends ActorRef {
	def receive = {
		case ReadPhoneNumbers =>
		//list phone numbers

		actor ! AllPhoneNumberListed(List(1110, ))
	}
}

class PhoneNumberFinder(actor: ActorRef) extends ActorRef {
	def receive = {
		case AllPhoneNumberListed(numbers) => 
			//match

			actor ! PhoneNumberMatched()
	}
}

val finder = system.actorOf(Prop(new PhoneNumberFinder(...)))
val publisher = system.actorOf(Prop(new PhoneNumbersPublisher(finder)))

publisher ! ReadPhoneNumbers("callinfo.txt")

若须要处理的电话号码数据量大，咱们能够很容易地将诸如PhoneNumbersPublisher、PhoneNumberFinder等Actors部署为Remote Actor。此时，仅仅须要更改客户端得到Actor的方式便可。

Twitter实现的Finagle是针对RPC通讯，Akka则提供了内部的消息队列（MailBox），而由LinkedIn主持开发的Kafka则提供了支持高吞吐量的分布式消息队列中间件。这个顶着文学家帽子的消息队列，可以支持高效的Publisher-Subscriber模式进行消息处理，并以快速、稳定、可伸缩的特性很快引发了开发者的关注，并在一些框架中被列入候选的消息队列而提供支持，例如，Spark Streaming就支持Kafka做为流数据的Input Source。

HTTP

严格意义上讲，Spray并不是单纯的HTTP框架，它还支持REST、JSON、Caching、Routing、IO等功能。Spray的模块及其之间的关系以下图所示：

我在项目中主要将Spray做为REST框架来使用，并结合AKKA来处理领域逻辑。Spray处理HTTP请求的架构以下图所示：

Spray提供了一套DSL风格的path语法，可以很是容易地编写支持各类HTTP动词的请求，例如：

trait HttpServiceBase extends Directives with Json4sSupport {
     implicit val system: ActorSystem
     implicit def json4sFormats: Formats = DefaultFormats
     def route: Route
}

trait CustomerService extends HttpServiceBase {
     val route = 
          path("customer" / "groups") {
               get {
                    parameters('groupids.?) {
                         (groupids) =>
                              complete {
                                   groupids match {
                                        case Some(groupIds) => 
                    ViewUserGroup.queryUserGroup(groupIds.split(",").toList)
                                        case None => ViewUserGroup.queryUserGroup()
                                   }
                              }
                    }
               }
          } ~
          path("customers" / "vip" / "failureinfo") {
               post {
                    entity(as[FailureVipCustomerRequest]) {
                         request => 
                              complete {
                                   VipCustomer.failureInfo(request) 
                              }
                    }
               }
          }
}

我我的认为，在进行Web开发时，彻底能够放弃Web框架，直接选择AngularJS结合Spray和AKKA，一样可以很好地知足Web开发须要。

Spray支持REST，且Spray自身提供了服务容器spray-can，于是容许Standalone的部署（固然也支持部署到Jetty和tomcat等应用服务器）。Spray对HTTP请求的内部处理机制实则是基于Akka-IO，经过IO这个Actor发出对HTTP的bind消息。例如：

 IO(Http) ! Http.Bind(service, interface = "0.0.0.0", port = 8889)

咱们能够编写不一样的Boot对象去绑定不一样的主机Host以及端口。这些特性都使得Spray可以很好地支持当下较为流行的Micro Service架构风格。

Web框架

正如前面所说，当咱们选择Spray做为REST框架时，彻底能够选择诸如AngularJS或者Backbone之类的JavaScript框架开发Web客户端。客户端可以处理本身的逻辑，而后再以JSON格式发送请求给REST服务端。这时，咱们将模型视为资源（Resource），视图彻底在客户端。JS的控制器负责控制客户端的界面逻辑，服务端的控制器则负责处理业务逻辑，因而传统的MVC就变化为VC+R+C模式。这里的R指的是Resource，而服务端与客户端则经过JSON格式的Resource进行通讯。

若硬要使用专有的Web框架，在Scala技术栈下，最为流行的就是Play Framework，这是一个标准的MVC框架。另一个相对小众的Web框架是Lift。它与大多数Web框架如RoR、Struts、Django以及Spring MVC、Play不一样，采用的并不是MVC模式，而是使用了所谓的View First。它驱动开发者对内容生成与内容展示（Markup）造成“关注点分离”。

Lift将关注点重点放在View上，这是由于在一些Web应用中，可能存在多个页面对同一种Model的Action。假若采用MVC中的Controller，会使得控制变得很是复杂。Lift提出了一种所谓view-snippet-model（简称为VSM）的模式。

View主要为响应页面请求的HTML内容，分为template views和generated views。Snippet的职责则用于生成动态内容，并在模型发生更改时，对Model和View进行协调。

大数据

大数据框架最耀眼的新星非Spark莫属。与许多专有的大数据处理平台不一样，Spark创建在统一抽象的RDD之上，使得它能够以基本一致的方式应对不一样的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象（Unified Programming Abstraction）。

因为Spark具备先进的DAG执行引擎，支持cyclic data flow和内存计算。所以相比较Hadoop而言，性能更优。在内存中它的运行速度是Hadoop MapReduce的100倍，在磁盘中是10倍。

因为使用了Scala语言，经过高效利用Scala的语言特性，使得Spark的总代码量出奇地少，性能却在多数方面都具有必定的优点（只有在Streaming方面，逊色于Storm）。下图是针对Spark 0.9版本的BenchMark：

因为使用了Scala，使得语言的函数式特性获得了最棒的利用。事实上，函数式语言的诸多特性包括不变性、无反作用、组合子等，天生与数据处理匹配。因而，针对WordCount，咱们能够如此简易地实现：

file = spark.textFile("hdfs://...")

file.flatMap(line => line.split(" "))
    .map(word => (word, 1))
    .reduceByKey(_ + _)

要是使用Hadoop，就没有这么方便了。幸运的是，Twitter的一个开源框架scalding提供了对Hadoop MapReduce的抽象与包装。它使得咱们能够按照Scala的方式执行MapReduce的Job：

class WordCountJob(args : Args) extends Job(args) {
  TextLine( args("input") )
    .flatMap('line -> 'word) { line : String => tokenize(line) }
    .groupBy('word) { _.size }
    .write( Tsv( args("output") ) )

  // Split a piece of text into individual words.
  def tokenize(text : String) : Array[String] = {
    // Lowercase each word and remove punctuation.
    text.toLowerCase.replaceAll("[^a-zA-Z0-9\\s]", "").split("\\s+")
  }
}

测试

虽然咱们可使用诸如JUnit、TestNG为Scala项目开发编写单元测试，使用Cocumber之类的BDD框架编写验收测试。但在多数状况下，咱们更倾向于选择使用ScalaTest或者Specs2。在一些Java开发项目中，咱们也开始尝试使用ScalaTest来编写验收测试，乃至于单元测试。

若要我选择ScalaTest或Specs2，我更倾向于ScalaTest，这是由于ScalaTest支持的风格更具有多样性，能够知足各类不一样的需求，例如传统的JUnit风格、函数式风格以及Spec方式。个人一篇博客《ScalaTest的测试风格》详细介绍了各自的语法。

一个被普遍使用的测试工具是Gatling，它是基于Scala、AKKA以及Netty开发的性能测试与压力测试工具。个人同事刘冉在InfoQ发表的文章《新一代服务器性能测试工具Gatling》对Gatling进行了详细深刻的介绍。

ScalaMeter也是一款很不错的性能测试工具。咱们能够像编写ScalaTest测试那样的风格来编写ScalaMeter性能测试用例，并可以快捷地生成性能测试数据。这些功能都很是有助于咱们针对代码或软件产品进行BenchMark测试。咱们曾经用ScalaMeter来编写针对Scala集合的性能测试，例如比较Vector、ArrayBuffer、ListBuffer以及List等集合的相关操做，以便于咱们更好地使用Scala集合。如下代码展现了如何使用ScalaMeter编写性能测试：

import org.scalameter.api._

object RangeBenchmark
extends PerformanceTest.Microbenchmark {
  val ranges = for {
    size <- Gen.range("size")(300000, 1500000, 300000)
  } yield 0 until size

  measure method "map" in {
    using(ranges) curve("Range") in {
      _.map(_ + 1)
    }
  }
}

根据场景选择框架或工具

比起Java庞大的社区，以及它提供的浩如烟海般的技术栈，Scala技术栈差很少能够说是沧海一粟。然而，麻雀虽小却五脏俱全，况且Scala以及Scala技术栈仍然走在迈向成熟的道路上。对于Scala程序员而言，由于项目的不一样，未必能涉猎全部技术栈，并且针对不一样的方面，也有多个选择。在选择这些框架或工具时，应根据实际的场景作出判断。为稳妥起见，最好能运用技术矩阵地方式对多个方案进行设计权衡与决策。

咱们也不能固步自封，视Java社区而不顾。毕竟那些Java框架已经经历了千锤百炼，并有许多成功的案例做为佐证。关注Scala技术栈，却又不局限本身的视野，量力而为，选择合适的技术方案，才是设计与开发的正道。

做者简介

张逸，现为ThoughtWorks Lead Consultant。做为一名咨询师，主要为客户提供组织的敏捷转型、过程改进、企业系统架构、领域驱动设计、大数据、代码质量提高、测试驱动开发等咨询与培训工做。