温故而知新
知识这个东西,看来真的要温故而知新,一直不用,都要忘记了。mysql
业务很简单:须要批量插入一些数据,数据来源多是其余数据库的表,也多是一个外部excel的导入。sql
那么问题来了,是否是每次插入以前都要查一遍,看看重不重复,在代码里筛选一下数据,重复的就过滤掉呢?数据库
向大数据数据库中插入值时,还要判断插入是否重复,而后插入。如何提升效率?大数据
看来这个问题不止我一我的苦恼过。spa
解决的办法有不少种,不一样的场景解决方案也不同,数据量很小的状况下,怎么搞都行,可是数据量很大的时候,这就不是一个简单的问题了excel
几百万的数据,不可能查出来去重处理!code
说一下我Google到的解决方案。blog
一、insert ignore into
当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回。因此使用ignore请确保语句自己没有问题,不然也会被忽略掉。例如:
INSERT IGNORE INTO user (name) VALUES ('telami')
这种方法很简便,可是有一种可能,就是插入不是由于重复数据报错,而是由于其余缘由报错的,也一样被忽略了~
二、on duplicate key update
当primary或者unique重复时,则执行update语句,如update后为无用语句,如id=id,则同1功能相同,但错误不会被忽略掉。it
例如,为了实现name重复的数据插入不报错,可以使用一下语句:io
INSERT INTO user (name) VALUES ('telami') ON duplicate KEY UPDATE id = id
这种方法有个前提条件,就是,须要插入的约束,须要是主键或者惟一约束(在你的业务中那个要做为惟一的判断就将那个字段设置为惟一约束也就是unique key)。
三、insert … select … where not exist
根据select的条件判断是否插入,能够不光经过primary 和unique来判断,也可经过其它条件。例如:
INSERT INTO user (name) SELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)
这种方法其实就是使用了mysql的一个临时表的方式,可是里面使用到了子查询,效率也会有一点点影响,若是能使用上面的就不使用这个。
四、replace into
若是存在primary or unique相同的记录,则先删除掉。再插入新记录。
REPLACE INTO user SELECT 1, 'telami' FROM books
这种方法就是无论原来有没有相同的记录,都会先删除掉而后再插入。
实践
选择的是第二种方式
<insert id="batchSaveUser" parameterType="list"> insert into user (id,username,mobile_number) values <foreach collection="list" item="item" index="index" separator=","> ( #{item.id}, #{item.username}, #{item.mobileNumber} ) </foreach> ON duplicate KEY UPDATE id = id </insert>
这里用的是Mybatis,批量插入的一个操做,mobile_number已经加了惟一约束。这样在批量插入时,若是存在手机号相同的话,是不会再插入了的。