信息组织 | 数字图书馆信息组织

1 数字图书馆的结构

1.1 数字图书馆的微观结构一一数字对象的信息结构

数字对象

  1. 是数字资源库中表示信息的基本逻辑单位,是数字图书馆系统操作和访问的基本信息单位;
  2. 简单的数字文件(如文本、图像、视频、声音或音乐文件);
  3. 由一系列的底层的数字对象按照一定结构组合而成的复合对象(如多媒体图书.课件等)

■ 数字对象的三个要素:
4. 数字对象的句柄(Handle ),常称为指针
5. 数字对象的元数据(Metadata )
6. 数字对象的数据体(是数字对象内容的载体 )

数字对象的信息结构决定着进一步的信息组织、处理和利用方式。

1.2 数字图书馆的中观结构一一分布式资源库组织结构

■资源库
  是多种资源的集合体,是一种资源与另一种资源 发生关联的组织。

■资源库组织主要关注以下关系:

  1. 元数据与数字对象的关系;
  2. 不同数字内容之间的关系
  3. 不同类型媒体之间的关系
  4. 多种存储格式相互转换和链接。

■分布式资源库
  分布存放在不同结构的不同空间中,在此基础上 ,再在各资源库之间进行通信与操作上的互联和数据内容之间的跨库关联,在总体上构成一个分布式、异构数字图书馆系统。

■资源库之间异构有多个层次:

  1. 系统平台的异构
  2. 数据类型层面的异构
  3. 数据结构和索引结构的异构

1.3 数字图书馆的宏观结构一一数字图书馆基本体系结构

■数字图书馆系统的逻辑结构

  1. 对象数据库
  2. 元数据库
  3. 数据加工子系统
  4. 査询子系统
  5. 调度子系统

数字图书馆功能框架结构
在这里插入图片描述

■数据存储层

  1. 数据存储层负责数字化资源的保存:
    • 元数据层:资源发现的重要依据
    • 数字对象层:采用分布式存储,可分散在不回旳系纨;

■资源加工与管理层

  1. 一方面负责数字化资源的创建和获取,包括对文献资
源的数字化加工、标引与采购。
  2. 另一方面负责对数字资源进行组织、管理和维护。

■服务层

  为各个应用环境提供服务支撑,包括文献服务(资源
的发现和获取)、参考咨询服务、个性化服务和教学
科研辅助服务。



■用户层
。



  负责系统与用户之间的交互。用户层集成了服务层提
供的专业应用服务接口和用户统一认证和管理接口。

2 数字图书馆信息组织的特征和原则

数字图书馆的特征:

  1. 经采选和序化的数字化信息资源
  2. 分布式资源建设和管理
  3. 网络化信息存取
  4. 增值化信息服务

数字图书馆信息组织的原则

  1. 标准化原则
  2. 开放性原则
  3. 选择性原则
  4. 多维非线性揭示原则
  5. 知识组织原则

3 数字图书馆资源的元数据组织

(一)元数据及其功能
■元数据
  是用来识别、描述和定位数字信息资源的数据,以确保数字信息资源能够被计算机自动辨析、分解、 提取和分析归纳的一种框架或一套编码体系。

■数字图书馆的元数据体系

  1. 是数字图书馆所采用的信息描述的方法,是整个数字图书馆系统的基础。
  2. 是对资源进行组织的有效工具,其功能是对信息资源进行描述、定位、检索、利用和管理。

元数据体系结构
3. 内容结构
■对元数据的构成元素及其定义标准进行描述;
4. 句法結构
■是定义元数据整体结构以及如何描述这种结构;
5. 语义结构
■是定义元数据元素的具体描述方法。

(二)元数据的类型划分
依据元数据在数字图书馆中的功能,划分为:

  1. 描述性元数据
  2. 结构性元数据
  3. 管理性元数据

(三)都柏林核心元数据

  1. Dublin Core ,以下简称DC。
  2. 目的是希望建立一套精简的,适合于数字资源的描述方法,使得资源发现和信息检索变得更加迅速和有效。DC目前已形成相对固定的标准,由15个核心元素构成,分别从资源内容,知识产权,外部属性三个方面对信息资源进行描述。
  3. DC具有简单易用、可扩展性等特点,国际上一般以推荐以DC的15个元数据作为核心元素,在此基 础上作扩充。

元数据的局限

  1. 元数据主要是为人而设计的,但是语义缺乏明确的、形式化的定义,无法利用机器 的强大功能对元数据直接进行理解和处理。
  2. 元数据虽然提供了数字图书馆的语义基础,但却无法解决资源描述的异构性和语义性问题

基于RDF/XML的元数据标记应用
  ■ XML定义了元数据描述语法互操作的标准
  ■RDF ( Resource Description Framework ,资 源描述框架)是由W3C提出的一种用于描述网络上的信息和资源的标记语言,专门用于描述Web资源的元数据,是一种人与机器都能理解的描述框架。RDF是一个处理元数据的XML应用,采用 XML语法来表述。

RDF的局限

  1. RDF只定义了用于描述资源的通用数据模型 ,但它不是针对特定领域的,没有为任何领 域定义语义。
  2. RDF的语义表示能力非常有限,只提供了描述单个资源语义信息的能力,而没有提供描述特定领域的语义的能力。

RDFS

  1. Resource Description Framework Schema ,资源描述框架模型,RDF的词汇描述语言;
  2. RDFS通过提供一套命名和描述RDF中类和属性的机制,实现以通用的数据模型描 述特定领域语义的能力。

■ RDFS数据模型

  1. RDF使用XML语法实现Web上的元数据的描述和交换;
  2. 采用URI地址唯一地表示Web资源,首先指定词汇集的URI,再使用指定的词汇集来描述资源;
  3. 然后通过RDF Schema来建立不同词汇集之间的联系。

RDFS 的局限

  1. RDFS仅限于能表达浅层次的语义关系,无法支持更精确的语义关系描述。
  2. 必须在RDF(S)基础上扩展元数据的语义描述功能,定义更加复杂的概念结构,并具备一定的知识推理能力的描述方案。

4 数字图书馆资源的知识组织

4.1 数字图书馆的知识组织系统

(一)知识组织系统及其层次类型

■ 知识组织系统
  knowledge organization systems ,简称KOS ,是我们用来定义并组织表述真实世界物体的术语和符号的系统,在具体应用中我们往往将它们泛指为语义工具。

■知识组织系统的层次
第一层次:词汇列表(词单)
第二层次:分类与大致归类
第三层次:关联组织

■知识组织系统的作用
第一层次的词汇、词单列表
  可以被视为基础知识类工具;

第二层次的分类聚类体系
  可以被看作是架构类知识组织工具,体现了领域专家对学科 知识的有序梳理,通过分类法与标题表对信息资源进行重组 排序,在知识组织中实现知识系统化架构及主题标引;

第三层次的叙词表.本体等
可以被视为关联组织类工具,建立,揭示语义关系,体现知 识之间的关联呈现,提供更为多元的检索入口,也为机器理 解与推理提供了支持。

(二)知识组织系统描述转换的目标
■数字图书馆KOS的改造和语义化转换的目标:

  1. 将各类知识组织工具转化为机器可理解的语义化知识库,使其具备和其它知识组织系统具行广泛互操作与关联的能力; 向数字图书馆内外的各类智能应用提供知识服务;
  2. 将数字图书馆的知识资源转换为关联数据输送到整个互联网上,使得数字图书馆成为语义Web的知识关联枢纽。

(三)知识组织系统的描述转换语言

  1. SKOS是RDF的一个应用,每一条陈述(statement) 都是一个RDF三元组。
  2. SKOS数据模型的实质是一套由RDF定义的词汇集,采用该词集能够以一种机器可理解的方式表达词汇的结构和概念,以供交换和重用。
  3. SKOS化的知识组织系统为RDFS提供了更为规范和精确的取值词汇集 (value vocabularies),扩展了RDFS 的语义描述能力。

SKOS包括三个主要部分:
■ SKOS CoreV

  1. SKOS核心词汇表,是一个表示概念体系基本结构和内容的模型
  2. SKOS核心词表常用标签表

■ SKOS Mapping
  用于描述概念间的映射
■ SKOS Extensions
  用于描述SKOS的特定应用

5 数字图书馆资源的整合技术与方法

5.1 系统层面的技术整合

■系统层面的技术整合:
  也称平台整合,是在检索过程中,采用某种检索机制,以检索代理(Agent)的角色 来接受和处理用户的检索请求,为用户返回检索结果时实现表面的资源整合。

■整合方法
1. 基于元搜索的联邦检索
  必须遵循一定的数据交换与互操作标准协议在异构数据库之间进行数据交换与互操作;
■优点:

  1. 一站式检索,唯一检索入口;
  2. 检索效率高且稳定性、即时性好。

■缺点:

  1. 检索相关:对同时检索资源的限制;检索速度方面难以克 服的缺陷;检索表现依赖于每一个目标资源和网络表现;
  2. 检索结果相关:査重和归并;显示和排序;这两点皆由于 无法对不同目标资源的结果确定一个好的查重算法和一个 统一的显示方式;而相关度排序的问题更为复杂和棘手。
  3. 标准相关:缺乏目标资源的记录结构;缺乏相关的标准检 索协议,通常使用Z39.50 , API和XML网关,甚至通过 HTTP进行元数据抽取。

2. 基于OpenURL的链接整合服务
  统一资源定位器,即"开放链接“,是一种附带有元数据信息和资源地址信息的"可运行的URL",是目前最为 热门的唯一标识符应用体系;

■链接整合的角色(要素):
  链接源(link source)今链接服务器(Link Server)今链 接目标(link target)
■链接整合运行机制

  1. 前提:参与链接整合的各个信息服务商(各数据库) 必须遵循OpenURL标准协议;
  2. 运行:链接服务器(Link Server)解析信息提供源( Source )所传送的要求,并向目标发送深度链接服务的请求,实现快捷定位并获取所需的目标信息。

基于OpenURL链接整合的优点及发展前景
■优点:

  1. OpenURL协议具有可定制、可移植、开放特性; 基于OpenURL框架的链接服务是信息源外部的,独立 于信息源;
  2. 有助实现链接的本地化,可以提供链接的扩展服务;
  3. 提供一个对不同文献数据库的通用管理入口;
  4. 通过标准的方式将不同的数据库集成。

■发展前景:

  1. 在学术信息环境中获得了广泛的认可和支持,成为数字 图书馆应用领域的热门技术;
  2. 是下一代网络级资源发现系统实现有效定位资源目标的关键技术之一:  SUMMON(360Link);Primo(SFX)

5.2 资源层面基于元数据的内容整合

■基于元数据的内容整合:
  是指通过抽取,映射等手段对分布异构资源 的元数据/对象数据进行收集和聚合,安装 在本地系统中提供统一的检索和服务。
■三个发展阶段

  1. 基于元数据转换的互操作
  2. 基于开放元数据搜索和检索的集成
  3. 基于海量元数据仓储的内容整合

基于OAI-PMH元数据整合的优缺点
■优点:

  1. OAI-PMH的一个最大特点是简单。它把原来广大用户和数据提供者要做的工作集中到了专业 的服务提供者一方,同时也大大减轻了对提供元数据的广 大图书馆的技术要求。
  2. OAI-PMH从元数据的共享和互操作的层面上提供了一种 低成本的数字资源整合集成共享的解决方案。
    ■缺点:
      当OAI-PMH从Z39.50服务器(如联合公共目录系统)、 动态网页、数据库中抽取元数据,在此基础上形成供自己 使用的本地OAI数据源时,但由于涉及元数据规范、格式 、数据库接口等的加工、处理或转换要相对复杂一些。

5.3 基于海量元数据仓储的内容整合

  通过对海量的来自异构资源的元数据(包括部分对象数 据)通过抽取、映射、收割、导入等手段进行预收集, 并作规范化,丰富化处理,通过归并并映射到一个标准的表达式进行预聚合,形成统一的元数据中心索引;通过单一但功能强大的搜索界,面向终端用户提统一的检索和服务。

5.4 基于知识关联的内容整合

  1. 知识关联是深层次的内容整合;
  2. 知识链接是基于知识关联的信息组织和资源 内容整合方式;
  3. 引文数据库就是基于引文之间的相互印证关系建立文献之间的内容整合关联网络。
  4. 是数字图书馆面向知识服务创新的资源整合模式和要求,也是数字图书馆资源整合的终 级目标。

5.5 关于资源整合的总结

  每一种资源整合方式并不是绝然独立的,也并没 有低级和高级之分,在实际应用中是相互互补、渗透和融合的。
■资源整合在整合内容类型的覆盖面上也不断得到加强:

  1. 图书馆购买的数字资源库的跨库集成检索——>
  2. 支持整个图书馆全部馆藏信息资源(包括印刷.电子 和数字)的集成整合检索、发现与获取——>
  3. 基于全网域索引的资源发现(印刷版资源;自建的本地数字内容,比如机构库和数字特藏;订购的远程电子资源;其他诸如博客等微信息资源)

6 参考资料

《信息组织》第三版 ,戴维民主编,高等教育出版社,2014年 《信息组织》第九章 PPT