摘要: Android MediaProvider 使用 SQLite 数据库存储图片、视频、音频等多媒体文件的信息,供视频播放器、音乐播放器、图库使用。本文详细分析了 Android MediaProvider 多媒体数据库(以 SDK 2.3.3 为例)的模式(schema),并简要叙述与系统媒体扫描服务 MediaScanner 的交互。html

1. 如何提取数据库

以 root 权限进入 adb shell,使用 sqlite3 打开位于手机上 /data/data/com.android.providers.media/databases 上的一个数据库。以 external 开头的数据库存储的是 SD 卡媒体信息,一张卡对应一个,因此若是手机使用过多张卡会有多个数据库。以 internal 开头的数据库存储手机内部存储器的媒体信息。由于通常用户没法访问手机内部存储器,并且这两个数据库结构是大致上是相同的,因此只须要关注 external 数据库便可。mysql

Note: 数据库都是以相似 external-ffffffff.db 的形式命名的, 后面的 8 个 16 进制字符是该 SD 卡 FAT 分区的 Volume ID。该 ID 是分区时决定的,只有从新分区或者手动改变才会更改,能够防止插入不一样 SD 卡时数据库冲突。要简单了解 FAT 文件系统请看 Understanding FAT Filesystems android

接着在 sqlite3 执行命令 .schema 便可导出建立数据库的 SQL 语句,也就是数据库模式,具体以下(单击展开代码):git

Note: 若是手机没有 sqlite3 程序,能够搜索编译过的源代码的 out 目录找到可执行文件,大约 90kb,而后 adb push 到手机的 /system/bin/ 目录。安装 sqlite三、查询数据库均须要 adb root 权限。 Android 的多媒体数据库主要由表、视图、索引以及触发器组成。算法

接着还须要把数据库转换成图,手工转换的话就是根据 SQL 语句自行画图;推荐懒人使用自动转换,先使用 adb pull 把数据库导出,再使用 Power Designer 或者 Visio 的逆向工程(Reverse Engineer)功能生成物理数据模型(Physical Data Model)。注意要链接 sqlite 数据库文件的话须要先安装 sqlite 的 ODBC 驱动,教程在这里:SQLite ODBC Driversql

2. 数据库模式分析

图片数据库

图片数据库由两个表组成,分别是 images 和 thumbnails,物理数据模型以下所示(Power Designer 逆向工程生成)shell


Note: 如何数据库物理模型图:<pk> 表示此为主键。其他的表名、字段名、数据类型应该都能看明白。数据库

Note: SQLite 从 3.6.19 版才开始支持外键约束,Android 2.3.3 使用的是 3.7.x,但并无使用此特性,而是经过操做数据库的程序(如 MediaScanner)以及触发器来维护数据库的一致性。这里能够了解 SQLite 的外键支持状况缓存

数据表字段解析以下:网络

images:图片信息
字段 解析
_id 主键。图片 id,从 1 开始自增
_data 图片绝对路径
_size 文件大小,单位为 byte
_display_name 文件名
mime_type 相似于 image/jpeg 的 MIME 类型
title 不带扩展名的文件名
date_added 添加到数据库的时间,单位秒
date_modified 文件最后修改时间,单位秒
description
picasa_id 用于 picasa 网络相册
isprivate
latitude 纬度,须要照片有 GPS 信息
longitude 经度,须要照片有 GPS 信息
datetaken 取自 EXIF 照片拍摄时间,若为空则等于文件修改时间,单位毫秒
orientation 取自 EXIF 旋转角度,在图库旋转图片也会改变此值
mini_thumb_magic 取小缩略图时生成的一个随机数,见 MediaThumbRequest
bucket_id 等于 path.toLowerCase.hashCode(),见 MediaProvider.computeBucketValues()
bucket_display_name 直接包含图片的文件夹就是该图片的 bucket,就是文件夹名
thumbnails:缩略图
字段 解析
_id 主键。缩略图 id,从 1 开始自增
_data 图片绝对路径
image_id 缩略图所对应图片的 id,依赖于 images 表 _id 字段,可创建外键
kind 缩略图类型,1 是大缩略图,2 基本不用,3 是微型缩略图但其信息不保存在数据库
width 缩略图宽度
height 缩略图高度

视频数据库


数据表字段解析以下:

video:视频信息
字段 解析
_id 主键。视频 id
_data 视频绝对路径
_display_name 文件名
_size 文件大小,单位为 byte
mime_type 相似于 video/avi 的 MIME 类型
date_added 添加到数据库的时间,单位秒
date_modified 文件最后修改时间,单位秒
title 不带扩展名的文件名
duration 视频时长,单位毫秒
artist 艺术家
album 专辑名,通常为文件夹名
resolution
description
isprivate
tags
category
language
mini_thumb_data
latitude
longitude
datetaken
mini_thumb_magic 取小缩略图时生成的一个随机数,见 MediaThumbRequest
bucket_id 等于 path.toLowerCase.hashCode(),见 MediaProvider.computeBucketValues()
bucket_display_name 直接包含视频的文件夹就是该图片的 bucket,就是文件夹名
bookmark
videothumbnails:视频缩略图
字段 解析
_id 主键。缩略图 id
_data 缩略图绝对路径
video_id 缩略图所对应视频的 id,依赖于 video 表 _id 字段
kind 缩略图类型,1 是大图,视频只能取类型 1
width 缩略图宽度
height 缩略图高度

音频数据库

音频数据库是最复杂的,由 10 个表组成。物理数据模型以下所示:


album_art:专辑封面
字段 解析
album_id 主键。专辑 id
_data 专辑封面缓存的路径
albums:专辑信息
字段 解析
album_id 主键。专辑 id
album_key 全大写字母,用于字母索引
album 专辑名
android_metadata:当前字符编码
字段 解析
locale 默认字符编码,例如 zh_CN
artists:艺术家
字段 解析
artist_id 主键。艺术家 id
artist_key 全大写字母,用于字母索引
artist 艺术家
audio_genres:流派
字段 解析
_id 主键。流派 id
name 流派名称
audio_genres_map:音频流派映射
字段 解析
_id 主键。映射 id
audio_id 音频 id
genre_id 流派 id

Note: 为什么要创建映射表:为了消除数据冗余。假若有大量音频属于同一流派,若是没有映射表则须要每一个音频都须要记录一样的流派数据,有了映射表以后则只有一条记录就够了。这符合数据库设计的第三范式(the 3rd normal form)

audio_meta:音频信息
字段 解析
_id 主键。音频 id
_data 文件绝对路径
_display_name 文件名
_size 文件大小,单位 byte
mime_type 相似于 audio/mpeg 的 MIME 类型
date_added 添加到数据库的时间,单位秒
date_modified 文件最后修改时间,单位秒
title 来自 ID3 信息的标题,无则为不带扩展名的文件名
title_key 全大写字母的标题
duration 时长
artist_id 艺术家 id
composer 来自 ID3 信息,做曲家
album_id 专辑 id
track 来自 ID3 信息,音轨
year 来自 ID3 信息,年代
is_ringtone 是否铃声,0 或 1
is_music 是否音乐,1 才会在音乐播放器显示
is_alarm 是否闹钟铃声
is_notification 是否通知铃声
is_podcast 是否 podcast
bookmark
audio_playlists:播放列表
字段 解析
_id 主键。播放列表 id
_data
name 播放列表名
date_added
date_modified
audio_playlists_map:音频播放列表映射
字段 解析
_id 主键。映射 id
audio_id 音频 id
playlist_id 播放列表 id
play_order 播放顺序

索引

在 Android 数据库当中基本上使用自增 id 值做为主键,并创建了索引。索引能够加快数据查找速度,但因为须要维护索引因此插入/删除等写入操做速度会变慢。索引以下:

CREATE INDEX album_id_idx on audio_meta(album_id);
2 CREATE INDEX album_idx on albums(album);
3 CREATE INDEX albumkey_index on albums(album_key);
4 CREATE INDEX artist_id_idx on audio_meta(artist_id);
5 CREATE INDEX artist_idx on artists(artist);
6 CREATE INDEX artistkey_index on artists(artist_key);
7 CREATE INDEX image_bucket_index ON images(bucket_id, datetaken);
8 CREATE INDEX image_id_index on thumbnails(image_id);
9 CREATE INDEX sort_index on images(datetaken ASC, _id ASC);
10 CREATE INDEX title_idx on audio_meta(title);
11 CREATE INDEX titlekey_index on audio_meta(title_key);
12 CREATE INDEX video_bucket_index ON video(bucket_id, datetaken);
13

CREATE INDEX video_id_index on videothumbnails(video_id);


1 CREATE INDEX album_id_idx on audio_meta(album_id);
2 CREATE INDEX album_idx on albums(album);
3 CREATE INDEX albumkey_index on albums(album_key);
4 CREATE INDEX artist_id_idx on audio_meta(artist_id);
5 CREATE INDEX artist_idx on artists(artist);
6 CREATE INDEX artistkey_index on artists(artist_key);
7 CREATE INDEX image_bucket_index ON images(bucket_id, datetaken);
8 CREATE INDEX image_id_index on thumbnails(image_id);
9 CREATE INDEX sort_index on images(datetaken ASC, _id ASC);
10 CREATE INDEX title_idx on audio_meta(title);
11 CREATE INDEX titlekey_index on audio_meta(title_key);
12 CREATE INDEX video_bucket_index ON video(bucket_id, datetaken);
13 CREATE INDEX video_id_index on videothumbnails(video_id);

因为比较简单就不解释了,要深刻了解索引能够参考这个关于 SQL Server 的分析MySQL索引背后的数据结构及算法原理,原理应该是差很少的。

视图

视图相似于表,但并不是独立存在,是从其余表里面查询数据获得的。使用视图能够加快数据库查询速度,不用每次都执行复杂的 SQL 语句查询。图以下所示:


Note: 如何看视图:图下面的部分是数据来源的表,中间是从表中选取的字段,但相似于 COUNT 等 SQL 查询操做没法在图上体现,最好仍是看实际 SQL 语句。

Note: SQLite 当中视图都是只读的,也就是说不能对视图进行插入、更新、删除等操做。可是能够在视图创建 INSTEAD OF 触发器来达到一样的目的,多媒体数据库当中的 audio_delete 触发器就是如此。

触发器

触发器是为了维护数据库删除操做而创建的,由于所删除的表可能与另外的表有关系,须要同时删除另一个表的字段。能够看如下一个例子:

CREATE TRIGGER audio_meta_cleanup
2 DELETE ON audio_meta
3 BEGIN
4     DELETE FROM audio_genres_map WHERE audio_id = old._id;
5     DELETE FROM audio_playlists_map WHERE audio_id = old._id;
6 END;
1 CREATE TRIGGER audio_meta_cleanup
2 DELETE ON audio_meta
3 BEGIN
4     DELETE FROM audio_genres_map WHERE audio_id = old._id;
5     DELETE FROM audio_playlists_map WHERE audio_id = old._id;
6 END;

这是关于 audio_meta 表的触发器,意思是当删除此表上的记录时,同时删除 audio_genres_map 表上 audio_id 与此表 id 相同的记录,删除 audio_playlists_map 表上 audio_id 与此表 id 相同的记录。这样当删除 audio_meta 表的记录时,另外两个表的相应记录也会自动删除,不会因为漏删除而残留多余数据。

3. 如何维护数据库

插入

插入、更新主要由 MediaScanner 进行,当删除/移动媒体文件时 MediaScanner 会扫描磁盘并更新数据库。数据插入主要在 endFile() 方法中进行,例如插入音频记录时相关的表都会插入相应的记录。而图片、视频缩略图,专辑封面这几个则是第一次取图片的时候才会生成缩略图保存到磁盘,并把记录插入到数据库中。

删除

删除操做主要由触发器维护。例如当一个应用删除图片时,通常只会删除图片数据库,因此必需要有触发器同时删除缩略图数据库。