大数据下高并发的处理详解

时间 2019-11-07

标签数据并发处理详解繁體版

原文原文链接

对于咱们开发的网站，若是网站的访问量很是大的话，那么咱们就须要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题，但话又说回来了，既然逃避不掉，那咱们就要想一想应对措施，今天咱们就一块儿讨论一下常见的并发和同步吧。
首先为了更好的理解并发和同步，咱们须要首先明白两个重要的概念：同步和异步html

同步和异步的区别和联系

所谓同步，就是一个线程执行一个方法或函数的时候，会阻塞其它线程，其余线程要等待它执行完毕才能继续执行。
异步，就是多个线程之间没有阻塞，多个线程同时执行。
通俗一点来讲，同步就是一件事一件事的作，异步就是作一件事，不影响作其余事情。
例如：吃饭和说话，只能一件一件的来，由于只有一张嘴。
可是吃饭和听音乐是异步的，能够一块儿进行，由于听音乐并不影响咱们吃饭。java

对于Java程序员来讲，Synchronized最为熟悉了，若是它做用于一个类的话，那么就是一个线程访问类的方法时，其余线程就会阻塞，相反，若是没有这个关键字来修饰的话，不一样线程就能够在同一时间访问同一个方法，这就是异步。mysql

脏读和不可重复读

脏读
脏读就是指当一个事务正在访问数据，而且对数据进行了修改，而这种修改尚未提交到数据库中，这是，另一个事务也访问这个数据，而后使用了这个数据。由于这个数据是尚未提交的数据，那么另一个事务读取的这个数据是脏数据(Dirty Data)，依据脏数据所作的操做多是不正确的。nginx

不可重复读
在第一个事务读取数据后，第二个事务对数据进行了修改，致使第一个事务结束前再访问这个数据的时候，会发现两次读取到的数据是不同的，所以称为不可重复读。程序员

如何处理并发和同步

今天讲的如何处理并发和同同步问题主要是经过锁机制。
咱们须要明白，锁机制有两个层面。
一种是代码层次上的，若是Java中的同步锁Synchronized，另外一种是数据库层次上的，比较典型的就是悲观锁(传统的物理锁)和乐观锁web

悲观锁
悲观锁，正如其名，它指的是对数据被外界(包括本系统当前的其余事务，以及来自外部系统的事务处理)修改持保守态度。所以，在这个数据处理过程当中，将数据处于锁定状态。
悲观锁的实现，每每依靠数据库提供的锁机制(也只有数据库层提供的锁机制才能真正保证数据访问的排他性，不然，即便在本系统中实现了加锁机制，也没法保证外部系统不会修改数据)。
一个典型的倚赖数据库的悲观锁调用：sql

select * from account where name=”Erica” for update

这条 sql 语句锁定了 account 表中全部符合检索条件（ name=”Erica” ）的记录。
本次事务提交以前（事务提交时会释放事务过程当中的锁），外界没法修改这些记录。
Hibernate 的悲观锁，也是基于数据库的锁机制实现。
下面的代码实现了对查询记录的加锁：数据库

String hqlStr ="from TUser as user where user.name='Erica'";
Query query = session.createQuery(hqlStr);
query.setLockMode("user",LockMode.UPGRADE); // 加锁
List userList = query.list();// 执行查询，获取数据

观察运行期 Hibernate 生成的 SQL 语句：apache

1	select tuser0_.id as id, tuser0_.name as name, tuser0_.group_id as group_id, tuser0_.user_type as user_type, tuser0_.sex as sex from t_user tuser0_ where (tuser0_.name='Erica' ) for update

这里 Hibernate 经过使用数据库的 for update 子句实现了悲观锁机制。
Hibernate 的加锁模式有：缓存

LockMode.NONE ： 无锁机制。 
LockMode.WRITE ： Hibernate 在 Insert 和 Update 记录的时候会自动获取
LockMode.READ ： Hibernate 在读取记录的时候会自动获取。 
以上这三种锁机制通常由 Hibernate 内部使用，如 Hibernate 为了保证 Update过程当中对象不会被外界修改，会在 save 方法实现中自动为目标对象加上 WRITE 锁。

LockMode.UPGRADE ：利用数据库的 for update 子句加锁。 
LockMode.UPGRADE_NOWAIT ： Oracle 的特定实现，利用 Oracle 的 for update nowait 子句实现加锁。 
上面这两种锁机制是咱们在应用层较为经常使用的，加锁通常经过如下方法实现： 

Criteria.setLockMode
Query.setLockMode
Session.lock

注意，只有在查询开始以前（也就是 Hiberate 生成 SQL 以前）设定加锁，才会真正经过数据库的锁机制进行加锁处理，不然，数据已经经过不包含 for update子句的 Select SQL 加载进来，所谓数据库加锁也就无从谈起。

为了更好的理解select… for update的锁表的过程，本人将要以mysql为例，进行相应的讲解
开启两个测试窗口，其中一个窗口A执行命令：

mysql> begin;
Query OK, 0 rows affected (0.00 sec)

mysql> select * from empinfo for update;
+--------+----------+------+---------+
| Fempno | Fempname | Fage | Fsalary |
+--------+----------+------+---------+
| 1233   | sdfs     | NULL |    NULL |
| 324234 | sdf      |   38 |   12121 |
+--------+----------+------+---------+
2 rows in set (0.00 sec)

这个时候打开窗口B执行更新或插入操做：

1	mysql> update empinfo set Fage=12 where Fempno=1233;

这个时候窗口B的更新或插入操做不会执行，会一直在等待，直到A窗口的事务提交了：

1 2	mysql> commit; Query OK, 0 rows affected (0.00 sec)

B窗口的更新才开始执行。
那么for update到底锁定表仍是行呢？

因为InnoDB预设是Row-Level Lock，因此只有「明确」的指定主键，MySQL才会执行Row lock (只锁住被选取的资料例) ，不然MySQL将会执行Table Lock (将整个资料表单给锁住)。
例1: (明确指定主键，而且有此笔资料，row lock)

1
2
3

SELECT * FROM products WHERE id='3' FOR UPDATE;

SELECT * FROM products WHERE id='3' and type=1 FOR UPDATE;

例2: (明确指定主键，若查无此笔资料，无lock)

SELECT * FROM products WHERE id='-1' FOR UPDATE;

例3: (无主键，table lock)

SELECT * FROM products WHERE name='Mouse' FOR UPDATE;

例4: (主键不明确，table lock)

SELECT * FROM products WHERE id<>'3' FOR UPDATE;

例5: (主键不明确，table lock)

SELECT * FROM products WHERE id LIKE '3' FOR UPDATE;

注1: FOR UPDATE仅适用于InnoDB，且必须在交易区块(BEGIN/COMMIT)中才能生效。
注2: 要测试锁定的情况，能够利用MySQL的Command Mode ，开二个视窗来作测试。在MySql 5.0中测试确实是这样的
另外：MyAsim 只支持表级锁，InnerDB支持行级锁添加了(行级锁/表级锁)锁的数据不能被其它事务再锁定，也不被其它事务修改(修改、删除）。是表级锁时，无论是否查询到记录，都会锁定表。
到这里，悲观锁机制你应该了解一些了吧~

乐观锁
相对悲观锁而言，乐观锁机制采起了更加宽松的加锁机制。悲观锁大多数状况下依靠数据库的锁机制实现，以保证操做最大程度的独占性。但随之而来的就是数据库性能的大量开销，特别是对长事务而言，这样的开销每每没法承受。如一个金融系统，当某个操做员读取用户的数据，并在读出的用户数据的基础上进行修改时（如更改用户账户余额），若是采用悲观锁机制，也就意味着整个操做过程中（从操做员读出数据、开始修改直至提交修改结果的全过程，甚至还包括操做员中途去煮咖啡的时间），数据库记录始终处于加锁状态，能够想见，若是面对几百上千个并发，这样的状况将致使怎样的后果。乐观锁机制在必定程度上解决了这个问题。乐观锁，大可能是基于数据版本 Version ）记录机制实现。何谓数据版本？即为数据增长一个版本标识，在基于数据库表的版本解决方案中，通常是经过为数据库表增长一个 “version” 字段来实现。读取出数据时，将此版本号一同读出，以后更新时，对此版本号加一。此时，将提交数据的版本数据与数据库表对应记录的当前版本信息进行比对，若是提交的数据版本号大于数据库表当前版本号，则予以更新，不然认为是过时数据。
假如数据库中帐户余额为100，version为1，操做员A读出余额，并修改成50，而在A操做的同时操做员B也读出了帐户余额100，并修改成80，A完成了操做录入系统，version从1加上1变为2，余额修改成50，操做员B也提交了记录，version也变为2，余额则是80，可是此时数据库发现，B提交的version为2，当前版本也是2，不知足 “ 提交版本必须大于记录当前版本才能执行更新 “ 的乐观锁策略。所以，操做员 B 的提交被驳回。这样，就避免了操做员 B 用基于version=1 的旧数据修改的结果覆盖操做员 A 的操做结果的可能。从上面的例子能够看出，乐观锁机制避免了长事务中的数据库加锁开销（操做员 A和操做员 B 操做过程当中，都没有对数据库数据加锁），大大提高了大并发量下的系统总体性能表现。须要注意的是，乐观锁机制每每基于系统中的数据存储逻辑，所以也具有必定的局限性，如在上例中，因为乐观锁机制是在咱们的系统中实现，来自外部系统的用户余额更新操做不受咱们系统的控制，所以可能会形成脏数据被更新到数据库中。在系统设计阶段，咱们应该充分考虑到这些状况出现的可能性，并进行相应调整（如将乐观锁策略在数据库存储过程当中实现，对外只开放基于此存储过程的数据更新途径，而不是将数据库表直接对外公开）。 Hibernate 在其数据访问引擎中内置了乐观锁实现。若是不用考虑外部系统对数据库的更新操做，利用 Hibernate 提供的透明化乐观锁实现，将大大提高咱们的生产力。

Hibernate使用乐观锁我只说一下注解的方式：
在Entity中加入如下代码

private int version;

@Version
@Column(name = "version",length = 11)
public int getVersion() {
    return version;
}
public void setVersion(int version) {
    this.version = version;
}

这样就能够轻松实现hibernate乐观锁方式。

常见并发同步案例分析

案例一:订票系统案例
某航班只有一张机票，假定有1w我的打开你的网站来订票，问你如何解决并发问题(可扩展到任何高并发网站要考虑的并发读写问题)
问题，1w我的来访问，票没出去前要保证你们都能看到有票，不可能一我的在看到票的时候别人就不能看了。到底谁能抢到，那得看这我的的“运气”（网络快慢等）
其次考虑的问题，并发，1w我的同时点击购买，到底谁能成交？总共只有一张票。
首先咱们容易想到和并发相关的几个方案：
锁同步同步更多指的是应用程序的层面，多个线程进来，只能一个一个的访问，java中指的是syncrinized关键字。锁也有2个层面，一个是java中谈到的对象锁，用于线程同步；另一个层面是数据库的锁；若是是分布式的系统，显然只能利用数据库端的锁来实现。
假定咱们采用了同步机制或者数据库物理锁机制，如何保证1w我的还能同时看到有票，显然会牺牲性能，在高并发网站中是不可取的。使用hibernate后咱们提出了另一个概念：乐观锁、悲观锁（即传统的物理锁）；
采用乐观锁便可解决此问题。乐观锁意思是不锁定表的状况下，利用业务的控制来解决并发问题，这样即保证数据的并发可读性又保证保存数据的排他性，保证性能的同时解决了并发带来的脏数据问题。
hibernate中如何实现乐观锁：
前提：在现有表当中增长一个冗余字段，version版本号, long类型
原理：
1）只有当前版本号》=数据库表版本号，才能提交
2）提交成功后，版本号version ++

案例一:案例2、股票交易系统、银行系统，大数据量你是如何考虑的
首先，股票交易系统的行情表，每几秒钟就有一个行情记录产生，一天下来就有（假定行情3秒一个）股票数量×20×60*6 条记录，一月下来这个表记录数量多大？ oracle中一张表的记录数超过100w后查询性能就不好了，如何保证系统性能？
再好比，中国移动有上亿的用户量，表如何设计？把全部用于存在于一个表么？
因此，大数量的系统，必须考虑表拆分-（表名字不同，可是结构彻底同样），通用的几种方式：（视状况而定）
1）按业务分，好比手机号的表，咱们能够考虑 130开头的做为一个表，131开头的另一张表以此类推
2）利用oracle的表拆分机制作分表
3）若是是交易系统，咱们能够考虑按时间轴拆分，当日数据一个表，历史数据弄到其它表。这里历史数据的报表和查询不会影响当日交易。
此外，咱们还得考虑缓存
这里的缓存，指的不只仅是hibernate，hibernate自己提供了一级二级缓存。这里的缓存独立于应用，依然是内存的读取，假如咱们能减小数据库频繁的访问，那对系统确定大大有利的。好比一个电子商务系统的商品搜索，若是某个关键字的商品常常被搜，那就能够考虑这部分商品列表存放到缓存（内存中去），这样不用每次访问数据库，性能大大增长。简单的缓存你们能够理解为本身作一个hashmap，把常访问的数据作一个key，value是第一次从数据库搜索出来的值，下次访问就能够从map里读取，而不读数据库；专业些的目前有独立的缓存框架好比memcached 等，可独立部署成一个缓存服务器。

常见的提升高并发下访问的效率的手段

首先要了解高并发的的瓶颈在哪里？
一、多是服务器网络带宽不够
2.可能web线程链接数不够
3.可能数据库链接查询上不去。
根据不一样的状况，解决思路也不一样。
一、像第一种状况能够增长网络带宽，DNS域名解析分发多台服务器。
二、负载均衡，前置代理服务器nginx、apache等等
三、数据库查询优化，读写分离，分表等等

最后复制一些在高并发下面须要经常须要处理的内容: 尽可能使用缓存，包括用户缓存，信息缓存等，多花点内存来作缓存，能够大量减小与数据库的交互，提升性能。用jprofiler等工具找出性能瓶颈，减小额外的开销。优化数据库查询语句，减小直接使用hibernate等工具的直接生成语句（仅耗时较长的查询作优化）。优化数据库结构，多作索引，提升查询效率。统计的功能尽可能作缓存，或按天天一统计或定时统计相关报表，避免须要时进行统计的功能。能使用静态页面的地方尽可能使用，减小容器的解析（尽可能将动态内容生成静态html来显示）。解决以上问题后，使用服务器集群来解决单台的瓶颈问题。