【MySQL】经常使用监控指标及监控方法

时间 2019-12-10

标签 MySQL 经常使用监控指标方法栏目 MySQL 繁體版

原文原文链接

对以前生产中使用过的MySQL数据库监控指标作个小结。mysql

指标分类	指标名称	指标说明
性能类指标	QPS	数据库每秒处理的请求数量
	TPS	数据库每秒处理的事务数量
	并发数	数据库实例当前并行处理的会话数量
	链接数	链接到数据库会话的数量
	缓存命中率	查询命中缓存的比例
高可用指标	可用性	数据库是否能够正常对外服务
	阻塞	当前阻塞的会话数
	慢查询	慢查询状况
	主从延迟	主从延迟时间
	主从状态	主从链路是否正常
	死锁	查看死锁信息

【QPS指标】　　

show global status where variable_name in ('Queries', 'uptime');

QPS = (Queries2 -Queries1) / (uptime2 - uptime1)sql

【TPS指标】　　

show global status where variable_name in ('com_insert' , 'com_delete' , 'com_update', 'uptime');

事务数TC ≈'com_insert' , 'com_delete' , 'com_update'数据库

TPS ≈ (TC2 -TC1) / (uptime2 - uptime1)缓存

【并发数】

show global status like 'Threads_running';服务器

【链接数】

当前链接数：并发

show global status like 'Threads_connected';

最大链接数：工具

show global status like 'max_connections';

生产中配置报警阈值：Threads_connected / max_connections > 0.8性能

【缓存命中率】

innodb缓冲池查询总数：测试

show global status like 'innodb_buffer_pool_read_requests';

innodb从磁盘查询数：spa

show global status like 'innodb_buffer_pool_reads';

生产中配置报警阈值：(innodb_buffer_pool_read_requests - innodb_buffer_pool_reads) / innodb_buffer_pool_read_requests > 0.95

【可用性】

方法1：周期性链接数据库并执行 select @@version;

方法2：mysqladmin -u数据库用户名 -p数据库密码 -h数据库实例IP ping

【阻塞】

　 MySQL5.7以前：

select b.trx_mysql_thread_id as '被阻塞线程',
     b.trx_query as '被阻塞SQL',
     c.trx_mysql_thread_id as '阻塞线程',
     c.trx_query as '阻塞SQL',
     (unix_timestamp()-unix_timestamp(c.trx_started)) as '阻塞时间'
from information_schema.innodb_lock_waits a
join information_schema.innodb_trx b on a.requesting_trx_id=b.trx_id
join information_schema.innodb_trx c on a.blocking_trx_id=c.trx.id
where(unix_timestamp()-unix_timestamp(c.trx_started))>阻塞秒数

　　MySQL5.7及以后：

　　为方便查询阻塞指标，MySQL将2张表join构造了一个view sys.innodb_lock_waits，查询语句得以大大简化。

select waiting_pid as '被阻塞线程',
    waiting_query as '被阻塞SQL',
     blocking_pid as '阻塞线程',
     blocking_query as '阻塞SQL',
     wait_age as '阻塞时间',
     sql_kill_blocking_query as '建议操做'
from sys.innodb_lock_waits
where(unix_timestamp()-unix_timestamp(wait_started))>阻塞秒数

【慢查询】

方法1：开启慢查询日志。my.inf

slow_query_log=on
slow_query_log_file=存放目录
long_query_time=0.1秒
log_queries_not_using_indexes=on

注：只对新建链接生效，实时生效使用命令set global 上述配置项。

方法2：

select * from information_schema.'processlist';

【主从延迟】

方法1：

show slave status;

问题：

该方法是基于relaylog的时间与master的时间差值，并不太准，例如大事务时，主从延时已发生，但relaylog还未生成。

方法2：使用Percona的pt-heartbeat工具

Master后台周期写入：

pt-heartbeat --user=Master用户名 --password=Master密码 --h MasterIP --create-table --database 测试库名 --updatte --daemonize --interval=1

--create-table 在Master上建立心跳监控表heartbeat，经过更新该表知道主从延迟的差距。

--daemonize 后台执行。

--interval=1 默认1秒执行一次。

Slave后台周期同步读取：

pt-heartbeat --user=Slave用户名 --password=Slave密码 --h SlaveIP --database 库名 --monitor --daemonize --log /slave_lag.log

--monitor参数是持续监测并输出结果

【主从状态】

show slave status;

【死锁】

方法1：查看最近一次死锁信息：

show engine innodb status;

方法2：使用Percona的pt-deadlock-logger工具

1.打开死锁打印全局开关

set global innodb_print_all_deadlocks=on;

2.使用pt-deadlock-logger工具

监控到的死锁结果能够输出到文件、指定表、或者界面打印。

pt-deadlock-logger h=数据库IP,u=数据库用户名,p=数据库密码

输出结果很是详尽：

server:数据库服务器地址，即死锁产生的数据库主机

ts:检测到死锁的时间戳

thread:产生死锁的线程id，这个id和show processlist里面的线程id是一致的

txn_id:innodb的事务ID

txd_time:死锁检查到前，事务执行时间

user:执行transcation的用户名

hostname:客户端主机名

ip:客户端ip

db:发生死锁的DB名

tbl:死锁发生的表名

idx:产生死锁的索引名(在上面这个demo里面，咱们直接走的主键，加的记录锁)

lock_type:锁的类型(记录锁，gap锁，next-key锁)

lock_mode:锁模式(S,X)

wait_hold:是否等着锁释放，通常死锁都是两个wait

victim:该会话是否作了牺牲，终止了执行

query:形成死锁的SQL语句