分享一个百万数量级的测试学习用的mysql数据集

TEST_DB

带有集成测试套件的示例数据库,用于测试应用程序和数据库服务器html

此存储库已从Launchpad迁移mysql

请参阅MySQL文档中的用法git

它来自哪里

原始数据由西门子企业研究中心的Fusheng Wang和Carlo Zaniolo建立。数据采用XML格式。http://timecenter.cs.aau.dk/software.htmgithub

Giuseppe Maxia制做了关系模式,Patrick Crews以关系格式导出数据。sql

该数据库包含大约300,000个员工记录,其中包含280万个工资条目。导出数据是167 MB,这不是很大,可是足够重,不足以进行测试。数据库

生成了数据,所以存在不一致和微妙的问题。咱们决定不更改内容,而是将其删除,并将这些问题用做数据清理练习。服务器

先决条件

您须要一个MySQL数据库服务器(5.0+)并经过具备如下权限的用户运行如下命令:测试

SELECT, INSERT, UPDATE, DELETE, 
CREATE, DROP, RELOAD, REFERENCES, 
INDEX, ALTER, SHOW DATABASES, 
CREATE TEMPORARY TABLES, 
LOCK TABLES, EXECUTE, CREATE VIEW

安装:

  1. 下载存储库
  2. 将目录更改成存储库

而后跑ui

mysql < employees.sql

若是要使用两个大型分区表进行安装,请运行spa

mysql < employees_partitioned.sql

测试安装

安装后,您能够运行如下之一

mysql -t < test_employees_md5.sql
# OR
mysql -t < test_employees_sha.sql

例如:

mysql  -t < test_employees_md5.sql
+----------------------+
| INFO                 |
+----------------------+
| TESTING INSTALLATION |
+----------------------+
+--------------+------------------+----------------------------------+
| table_name   | expected_records | expected_crc                     |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+------------------+----------------------------------+
| table_name   | found_records    | found_crc                        |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+---------------+-----------+
| table_name   | records_match | crc_match |
+--------------+---------------+-----------+
| employees    | OK            | ok        |
| departments  | OK            | ok        |
| dept_manager | OK            | ok        |
| dept_emp     | OK            | ok        |
| titles       | OK            | ok        |
| salaries     | OK            | ok        |
+--------------+---------------+-----------+

免责声明

据我所知,这些数据是伪造的,并不符合真实的人。与现有人的任何类似之处纯属巧合。

源地址: https://github.com/datacharmer/test_db

相关文章
相关标签/搜索