项目编号INFO-115-C01文档编号
TR-REC-001
中国科学院数据应用环境建设与服务
主题数据库建设规范
(征求意见稿)
中国科学院数据应用环境建设与服务 项目组
2009年6月
目 录
1 2 3
范围 ................................................................................................................................... 1 规范性引用文件 ............................................................................................................... 1 术语与定义 ....................................................................................................................... 2 3.1 3.2 3.3 3.4 3.5 3.6 4 5 6
主题数据库 ................................................................................................................ 2 概念体系 .................................................................................................................... 2 概念树 ........................................................................................................................ 2 逻辑数据库 ................................................................................................................ 2 索引库 ........................................................................................................................ 2 元数据 ........................................................................................................................ 3
主题数据库基本要求 ....................................................................................................... 3 总体架构 ........................................................................................................................... 4 内容组织 ........................................................................................................................... 5 6.1 6.2
数据库类型约定 ........................................................................................................ 6 概念体系 .................................................................................................................... 6
概念体系的要求 ................................................................................................ 8 概念体系的构造方法 ........................................................................................ 8 概念体系和概念树的表达 ................................................................................ 8
6.2.1 6.2.2 6.2.3 6.3
逻辑数据库 .............................................................................................................. 10
逻辑数据库的要求 .......................................................................................... 12 逻辑数据库的构建 .......................................................................................... 12
6.3.1 6.3.2 6.4
物理数据组织 .......................................................................................................... 14
专业库内容整理 .............................................................................................. 15 建立映射转换规则 .......................................................................................... 15
6.4.1 6.4.2 6.5
元数据 ...................................................................................................................... 16
非关系型数据库的元数据 .............................................................................. 17 专业库的元数据 .............................................................................................. 17 逻辑数据库的元数据 ...................................................................................... 18 主题数据库的元数据 ...................................................................................... 18
6.5.1 6.5.2 6.5.3 6.5.4 7
技术架构和接口规范 ..................................................................................................... 18
I
7.1 专业库 ...................................................................................................................... 20
功能要求 .......................................................................................................... 20 应用系统与工具要求 ...................................................................................... 20 接口规范 .......................................................................................................... 20
7.1.1 7.1.2 7.1.3 7.2
主题数据库 .............................................................................................................. 21
功能要求 .......................................................................................................... 21 应用系统与工具 .............................................................................................. 21 接口规范 .......................................................................................................... 22
7.2.1 7.2.2 7.2.3 7.3
数据中心 .................................................................................................................. 23
功能要求 .......................................................................................................... 23 应用系统与工具 .............................................................................................. 24 接口规范 .......................................................................................................... 24
7.3.1 7.3.2 7.3.3 8
服务 ................................................................................................................................. 24 8.1 8.2
服务对象 .................................................................................................................. 25 服务方式与要求 ...................................................................................................... 25
在线发布方式 .................................................................................................. 26 离线发布方式 .................................................................................................. 26
8.2.1 8.2.2 8.3 8.4 8.5 8.6 9
数据交换格式 .......................................................................................................... 26 共享分级分类设置 .................................................................................................. 26 其他服务要求 .......................................................................................................... 27 服务案例 .................................................................................................................. 27
运行维护 ......................................................................................................................... 28 9.1 9.2
运维人员 .................................................................................................................. 28 基础运行环境 .......................................................................................................... 28
机房 .................................................................................................................. 28 互联网接入环境 .............................................................................................. 29 网络服务器与存储设备 .................................................................................. 29
9.2.1 9.2.2 9.2.3 9.3
运行 .......................................................................................................................... 29
运行模式 .......................................................................................................... 29 日志管理 .......................................................................................................... 29
II
9.3.1 9.3.2
9.4 安全保障和故障处理 .............................................................................................. 31
基础设施安全 .................................................................................................. 31 软件安全 .......................................................................................................... 31 数据安全 .......................................................................................................... 32 非技术防护措施 .............................................................................................. 32 故障处理 .......................................................................................................... 32
9.4.1 9.4.2 9.4.3 9.4.4 9.4.5 9.5 9.6
备份和恢复 .............................................................................................................. 33 主题数据库的质量 .................................................................................................. 33
附录A(规范性附录)标准实施一致性测试 ...................................................................... 35 A.1
内容组织 .................................................................................................................. 35
数据集名称及标识符 ...................................................................................... 35 概念体系 .......................................................................................................... 35 逻辑数据库 ...................................................................................................... 36 物理数据组织 .................................................................................................. 36 关系型数据集 .................................................................................................. 36 文件型数据集 .................................................................................................. 37
A.1.1 A.1.2 A.1.3 A.1.4 A.1.5 A.1.6 A.2 A.3 A.4 A.5 A.6
技术架构与接口规范 .............................................................................................. 37 服务 .......................................................................................................................... 37 共享 .......................................................................................................................... 38 运行维护 .................................................................................................................. 38 主题数据库质量 ...................................................................................................... 38
III
主题数据库建设规范
1 范围
本规范定义了主题数据库的总体架构,规定了主题数据库在内容组织、技术实现方面需要完成的工作和需要满足的要求,并提出了对主题数据库在运行维护和服务方面的要求。
本规范适用于中国科学院数据应用环境建设与服务项目中主题数据库的建设、运维和服务。
2 规范性引用文件
下列文件对于本文件的引用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
TR-REC-013 元数据参考模型 TR-REC-014 数据集核心元数据规范 TR-REC-017 资源唯一标识符规范 TR-REC-018 科学数据分类规范与分类词表 TR-REC-019数据加工增值管理方法 TR-REC-031 建库技术指导规范 TR-REC-032 元数据访问服务接口规范 TR-REC-033 数据跨域互操作技术规范 TR-REC-034 跨域用户认证接口规范 TR-REC-035 数据库服务网站建设指导规范 TR-REC-051 数据服务指导性规范 TR-REC-062 技术文档参考规范 TR-REC-063 数据质量管理规范
TR-REC-064 数据质量评测方法与指标体系 TR-REC-065 共享服务评价指标体系 TR-REC-067 数据共享办法
1
3 术语与定义
3.1 主题数据库
面向特定学科或应用领域,由若干逻辑相关的数据资源按照统一的标准规范整合形成,具有系统性和完整性,并通过统一的系统提供一站式服务的数据库。
3.2 概念体系
依据一定的知识结构组织起来的一个概念集合,其中的每个概念反映一定范围内的某些数据资源所具有的共同属性(或特征)。
3.3 概念树
在概念体系的基础上建立起来的一个树状的(即依照层次、等级逐步展开的)、用于数据资源目录浏览式查询的知识编码结构。概念体系范围内的每一种内容或特征的数据资源,都可以在这一概念树中具有相应的位置;用户可以通过这一概念树,查检所需要的数据资源。
3.4 逻辑数据库
将分布在一个或多个专业库中的、具有相同内容特征的数据整合形成的数据库,它可以是物理的,也可以是逻辑的。
若被整合的数据分布在不同的专业库中,它们通常是异构的,或者描述了同类实体在不同方面的属性。逻辑数据库的数据模型是在对这些数据进行分析的基础上为这些数据所描述的事物规定一个统一的数据模型,不同专业库中的相关数据可以通过一定的转换达到与该数据模型相符。
3.5 索引库
按照逻辑数据库对检索服务及其结果概要显示的需求和设计,通过抽取和转换专业库中有关数据形成的数据库。索引库中除包含用于被整合数据的统一检索和概要显示的字段外,还必须包含指针字段,用于存储被整合数据的访问地址。
2
3.6 元数据
关于数据的数据。本规范中,具体指描述数据及其环境的数据。
4 主题数据库基本要求
主题数据库建设过程中,应采用“数据应用环境建设与服务”项目发布的有关标准规范,以及相关的国家标准、国际标准、学科领域标准规范或其应用方案,完成资源体系的规划、概念体系的构建、数据库公共模式的确定,以及数据资源的加工、整理或增建;主题数据库在实现用户统一管理、认证和访问控制的基础上,为用户提供统一的服务系统,提供一站式服务。其间应特别实现以下基本要求:
1. 主题数据库具有合理的概念体系,能够正确反应该主题领域内数据的有关知识及知
识之间的关系,并基于该体系形成结构合理、层次清晰的多级(三级以上)概念树。 2. 根据数据资源内容特征及内容特征之间的关系将专业库合理地重新组织成若干逻
辑数据库,基于逻辑数据库的公共数据模型实现资源的加工、整合和增建,并组织为相应概念树叶子节点的内容。基于逻辑数据库检索字段及其内容建立集中的索引库,同时建立包括系统元数据、核心元数据和领域元数据的元数据库,并注册到数据中心门户系统。
3. 建立统一的主题数据库服务系统,为用户提供一站式服务。
a) 主题数据库服务系统具有与概念树结构一致的资源导航目录,为用户提供目录
浏览式数据资源查询服务。
b) 主题数据库服务系统具有统一的用户管理、认证和访问控制,保证用户在登陆
后能够在整个系统内自由获取与其身份一致的服务,无需再次登陆或身份认证。
c) 主题数据库服务系统基于元数据提供对数据资源的直接访问,用户获取服务时
感觉不到跨网站或系统的物理跳转,获得数据的过程与模式在系统内是完全一样的,并具有相同的数据展示风格。
4. 对数据中心门户系统开放符合规范的接口,以支持通过数据中心门户系统实现对数
据资源的访问。
上述主题数据库建设基本要求,是本规范关于内容组织、技术架构和接口规范、运维与服务等具体内容的概括,所有基本要求的满足情况可以通过本规范附录A“标准实施一致性测试”确认。
3
5 总体架构
主题数据库基于给定学科或应用领域内数据资源的相关性,通过从分布式物理层数据到集中式逻辑层数据的映射转换和内容组织实现异构数据的有机整合,并通过主题数据库门户为用户提供一站式资源发现和访问服务,支持领域内研究人员对这些数据的应用需求。主题数据库的服务还应集成到数据中心门户系统,以便用户通过数据中心门户系统统一发现和访问到主题数据库服务系统中所有的资源。
图1 主题数据库总体架构
主题数据库建设前期阶段的主要工作包括内容组织和技术实现两个方面,后期阶段的主要工作是运维和服务。
主题数据库的内容组织以实现主题领域内数据资源在内容层面的集成为目标,是主题数据库建设的重要基础,是技术实现的重要前提和内容。在内容组织方面,主题数据库面向给定的学科或应用领域,根据学科科研人员所共同认可的概念体系提出主题数据库组织架构,并研制每个类目下数据应共同遵守的公共数据模型,而专业库的内容均据此进行组织,并参照公共数据模型整理和关联,实现域内数据资源内容层面跨越不同建设者、所有者、管理者的集成整合。
主题数据库的建设技术为主题数据库的内容组织提供了实现支持,是主题数据库建设的技术保障。建库技术主要为主题数据库的实现提供异构数据资源整合、数据管理与服务、元数据的生成和管理、用户认证与授权、服务监控以及专业库、主题数据库、数据中心三者之
4
间的信息交互与通信等方面的支持,保证专业库建设单位、主题数据库牵头承建单位以及数据中心三个层面资源整合、任务目标和服务功能的实现。
运维和服务是保障建成的主题数据库发挥出其价值的重要工作。通过机制、环境、人员等在安全保障和故障处理、备份和恢复、数据更新等方面的高水平运维以保证主题数据库正常稳定的对外服务而服务过程中应紧密结合资源特点配置支撑队伍,特别应面向领域内关键项目的需求提供定向的数据服务支持。
6 内容组织
主题数据库面向给定的学科或应用领域,根据领域科研人员所共同认可的概念体系组织主题数据库,并归纳每个类目之下数据应共同遵守的公共数据模型。主题数据库内专业库的内容按此架构分门别类,并参照公共数据模型整理和关联,从而达成主题域内数据资源内容层面跨越不同建设者、所有者、管理者的集成整合。
主题数据库内容组织包括概念组织、逻辑数据和物理数据三个层次:
z 概念组织层:按照领域内科研人员的共识构建概念体系,实现对主题数据库内数据
资源的顶层组织。概念体系由一组概念和概念之间的关系组成,每个概念表达明确的涵义。一般而言,基于概念体系构建的概念树的根节点对应于主题数据库,而叶子节点对应于逻辑数据库。
z 逻辑数据层:每个逻辑数据库整合主题数据库内的同类数据资源,无论它们原本以
什么形式保存在什么地方。逻辑数据库根据专业库的共性内容(对于非关系型数据库而言,应为其元数据的共性内容)建立公共模型,并基于映射关系实现专业库内容的获取,从而达成不同来源的数据资源的集成。
z 物理数据层:物理数据层承担存储与提供实际数据的职能,由一系列内容相关的专
业库构成,这组资源可能根据内容要求进行了规范化加工整理,并通过与逻辑数据库的映射转换规则建立联系。
概念组织层逻辑数据层 物理数据层 图2 主题数据库内容组织方式 5
6.1 数据库类型约定
主题数据库管理的科学数据类型各异,各有特色。为便于阐述,本规范将专业库归纳为以下两个类型:
z 关系型数据库:建立在关系模型基础上的数据库。
z 非关系型数据库:不可关系化的数据,如文件型数据,文档等。
本规范列举之条款,无特别注明的,可同时适用于关系型数据库和非关系型数据库两种类型,专门针对关系型数据库(或非关系型数据库)的内容均在章节前加以注明,非关系型数据库(或关系型数据库)可不必遵守,读者在阅读过程中请加以区别。
主题数据库的数据形式应有正确合理的选择,一般而言应符合学科领域常用的主流数据格式,在满足这一原则的前提下,因关系型数据库的整合深入程度高于非关系型数据库,在能使用关系型数据库管理的场合应尽可能使用关系型数据库进行管理。
6.2 概念体系
主数据库按照领域内科研人员的共识构建概念体系,实现对主题数据库内数据资源的顶层组织和索引。概念体系按照编制形式,可以分为等级列举式、分面组配式和列举组配式三种。
等级列举式概念体系将所有的概念组织成一个树状结构,按照划分的等次,逐级列出详尽的子概念。在这种概念体系中,同一分支的同层级概念之间构成并列关系,而不同层级概念之间构成上下位关系。例如,国标GB/T 13745《学科分类与代码》、用于图书分类的《中国图书馆图书分类法》,都是等级列举式概念体系。
分面组配式概念体系依据分析兼综合的原则构建,放弃了详尽列举的做法,代之以简单概念组配形成复杂概念的方式。其基本思想是任何复杂概念都可以分解为若干基本概念;同时,它们也可以通过相应基本概念的组合加以表达。根据这一点,分面组配式概念体系在编制时,只需要按照范畴列出各种基本概念,而在使用时,根据对数据资源的分析结果,通过相应概念的组配表达数据资源的主题内容。例如,可以根据美术作品涉及的特征,将“美术作品”这一概念分解为以下表所示的分面,按范畴设置基本概念,而在标引某一具体美术作品时,将不同分面中的有关概念进行组配,即可标示出对该作品主题内容的分析结果。
地区分面 E1 中国 E2 英国 E3 法国 E4 德国 ……
体裁分面 D1 D2 D3 D4 ……
6
时代分面 C1C2C3C4……
古代 近代 现代 当代
B1 B2 B3 B4 ……
题材分面 人物 山水 花鸟 静物
油画 水彩画 水墨画 素描
列举组配式概念体系是一种在概念等级列举的基础上,广泛采用各种分面组配方法的概念体系,也可称为混合式概念体系。
在上述三种概念体系中,等级列举式概念体系是使用最普遍的。对于主题数据库而言,如果所构建的概念体系是等级列举式的,那么,可以将之直接作为本规范所要求的概念树使用;而如果所构建的概念体系是分面组配式的或者列举组配式的,那么,需要在概念体系的基础上构建出等级式层层展开的概念树,以支持主题数据库服务系统中数据资源目录浏览式查询服务的实现。
对于等级列举式概念体系,为了将其编制得系统、简练,同时又达到概念详尽划分的目的,允许在其中使用共性区分表。在概念体系展开时,不少概念的进一步划分往往采用相同的划分标准,并得到相同的子概念。例如,在生态学领域,在“陆地生态系统”概念下,可以区分出“森林生态系统”、“农田生态系统”、“草地生态系统”、“荒漠生态系统”等子概念,按照数据资源所针对的生态要素,上述每个子概念可进一步区分出相同的子概念:水、土、气、生、综合。可以将这些共性子概念抽出,单独编列成表,供有关概念进一步区分时使用。这种由共性子概念构成,供有关概念共同使用的表,称为共性区分表,也称为复分表、副表、辅助表。1
一般而言,主题数据库的概念体系是基于主题域内数据资源内容的内在特征建立起来的概念树,主题数据库中每一个逻辑数据库对应于概念树中的一个或多个节点并表达对应含义。其中,主题库的学科分类概念体系应符合《TR-REC-018 科学数据分类规范与分类词表》中的相关规定。
通过构建主题数据库概念树可以实现对数据资源最基本的分类和导航,同时,借助于参照科学合理的概念体系组织数据可以有效提升数据资源对主题域知识覆盖的完整性、对相关概念的内容一致。
概念树由一组节点和节点之间的关联关系组成。
z 节点:概念树的每个节点应表达一个明确的逻辑涵义;
根节点对应于主题数据库的主题概念;
叶子节点则一般对应于一个逻辑数据库粒度的概念。
z 关联:树中每个节点可以存在父节点和子节点;
父子位节点之间的常见抽象主要包括分类、聚集和概括三种:
z 分类:父节点是子节点的类型,子节点是父节点的对象,子节点对象具有父节点描述的共同特性或行为;
z 聚集:父节点由子节点组成,子节点是父节点的组成部分,是父节点的成员;
z 概括:父节点是子节点的超集,子节点是父节点的子集,概括具有继承性
1
共性区分表实际上是分面组配的一种基本使用形式。在等级列举式概念体系中利用共性区分表处理共性
7
区分问题的好处在于:缩小概念体系的篇幅;增强概念体系中有关概念划分的规律性。
特性,子类继承超类定义的所有抽象。
6.2.1 概念体系的要求
主题数据库概念体系应满足以下条件:
z 每个主题数据库至少应提供概念树,也可额外建立其他形式的概念体系; z 概念树应具有一定权威性,为领域内科研人员关于类目编排的共识性理解。对此承
建单位应在相关设计文档中提供佐证或依据;
z 概念树应以尊重客观规律为主,其叶节点应该是对专业库内容的归纳而非简单的一
一对应;
z 概念体系中每次分叉都应遵循相同的原则。
z 概念体系确保主题数据库内容完整科学、且与具体应用无关。
6.2.2 概念体系的构造方法
概念体系的构造有自顶向下和自底向上两种方式。
自顶向下方法从大的角度入手,复杂的大问题分解为相对简单的小问题,找出每个问题的关键、重点所在,然后用精确的思维定性、定量地去描述问题。其核心本质是\"分解\"。对于主题数据库概念体系而言就是,从主题数据库总体概念入手不断向下分解,直到全部概念都可落实为逻辑层数据库。
自底向上方法从数据资源入手,首先考虑可以归纳形成的逻辑层数据库有哪些,然后按照分类方法逐步进行“归约”,直至升华为主题数据库。
自顶向下和自底向上方法也可结合进行。
6.2.3 概念体系和概念树的表达
主题数据库可以采取关系数据库、xml或者其他编码方式来表达其概念体系,为了保证每个主题数据库的概念体系能够为数据中心门户系统所识别,要求主题数据库在表达概念体系中的每个概念时,必须定义以下两个属性:
编码(id) 名称(title) 可选的属性包括: 引用共同区分表 (usec)
在等级列举式概念体系中,对于采用了共同区分表的概念,需要定义“引用共同区分表”这一属性
8
每个概念的编码应具有唯一标识性,能够将其与概念体系中的其他概念相区分。
备注(note)
对于等级列举式概念体系,要求采用层累标记制为其概念编码,概念的编码应体现出每个概念在概念体系中所处的层级。编码规则如下:
z 对于非共同区分表中的概念,其编码采用“.”分法表示出其在概念体系中所处的
等级。例如,使用“A”表示根节点,“A.01”、“A.02”、“A.03”、……表示根节点下的一级子节点,“A.01.01”、“A.01.02”、“A.01.03”、……表示子节点“A.01”下的二级子节点。
z 共同区分表中的概念必须以“C”作为概念编码的第一个字符,且编码的第二个字
符应能够体现出其与哪些概念是属于同一共同区分表的,与哪些是属于不同共同区分表的。例如,使用CA01、CA02、CA03、CA04、……作为一个共同区分表中包含的概念的编码,使用CB01、CB02、CB03、……作为另一个共同区分表中包含的概念的编码。
z 非共同区分表中的概念的编码(这里特指去掉其上位概念的编码后的部分)不得以
“C”和“F”作为首字符。
对于分面组配式概念体系,要求的概念编码规则如下:
z 以F作为每个概念编码的首字符,且每个概念的编码中不能使用“.”字符。 z 对于每个分面中的概念,其编码的第二个字符应能够体现出其与哪些概念是属于同一分面的,与哪些是属于不同分面的。例如,FA001,FA002,FA003、……作为一个分面中包含的概念的编码,而FB001,FB002,FB003,FB004,……作为另一个分面中包含的概念的编码。
对于列举组配式概念体系,要求综合采用前面两种编码规则。对于非组配用概念,按照等级列举式概念体系编码规则编码,对于组配用概念,则按照分面组配式概念体系编码规则编码。
对于概念树而言,其中的两个节点即使具有相同的名称,但由于其所处位置的不同,其含义也将是不同的。要求概念树中每个节点的编码充分体现出其在书中所处的位置,也就是说,对于每个节点,其编码中都需要包含其上位节点的编码。具体编码方法如下:
z 对于等级列举式概念体系基础上形成的概念树,由非共性区分表中的概念形成的节
点,其编码直接使用相应概念的编码;由共性区分表中的概念形成的节点,其编码是上位节点的编码和相应概念的编码的合并,两者之间通过“.”连接。例如,在前述共性区分表的举例中,“森林生态系统”、“农田生态系统”、“草地生态系统”、“荒漠生态系统”的编码分别是“A.003.001”、“A.003.002”、“A.003.003”、“A.003.004”,由“水”、“土壤”、“气候”、“生物”、“综合”几个概念构成的共性区分表中,各概念的编码分别是“CB001”、“CB002”、“CB003”、“CB004”和“CB005”,那么,在概念树中,“森林生态系统”节点的编码还是“A.003.001”,而其下的“水”子节点的编码是“A.003.001.CB001”,“土壤”子节点的编码是
9
“A.003.001.CB002”,依次类推。
z 对于分面组配式概念体系基础上形成的概念树,每个节点的编码都是其上位节点的
编码和概念体系中相应概念的编码的合并,两者之间通过“.”连接。 z 对于列举组配式概念体系基础上形成的概念树,综合使用上述两种编码方法。 z 概念树及其节点的标识应符合《TR-REC-017 资源唯一标识规范》之“概念树唯一
标识符”规约。
主题数据库承建单位在创建了概念树并以某种计算机可解析和处理的方式保存和管理之后,必须在数据中心开发的资源与服务注册系统中进行注册,并开放符合7.2.3节“接口规范”的接口 ,以便概念体系从主题数据库服务系统向数据中心门户系统的同步。
主题数据库服务系统基于概念体系实现的数据资源目录浏览式查询服务,也必须在数据中心开发的资源与服务注册系统中进行注册。
6.3 逻辑数据库
主题数据库中应包含若干个按照概念体系组织起来的逻辑数据库。每个逻辑数据库整合主题数据库中一组内容具有共性的数据,主题数据库通过归纳这些数据(对于非关系型数据库的情况,是其元数据)的共性内容形成公共数据模型,并通过建立数据模型与专业数据库之间的映射关系形成关联,从而形成对同类数据在内容层面的整合集成。
这种整合不是对数据简单的物理聚集,而是通过整合后,数据可按具有统一模型的索引库进行联合检索或更深层次的整合应用,为用户提供统一的数据视图,使用户感觉就像使用单一的数据库一样。
逻辑数据库的建设应执行《TR-REC-031 建库技术指导规范》、《TR-REC-062 技术文档
参考规范》。
10
逻辑数据库 专业库索引库 ② 用户 ③ ④ 专业库专业库 ① ① :检索 ② :返回概要信息 ③ :详细显示请求 ④ :返回完整数据 :数据流程 :抽取索引信息
图3 逻辑数据库
逻辑数据库公共数据模型包含为了实现公共检索和概览而建立的各专业库应共同具备的数据集合。
z 对于关系型数据库的情况,这组公共数据集是被整合各专业库数据内容的共有属
性;
z 对于非关系型数据库的情况,因为数据整合一般难以深入到数据文件内部,本规范
要求非关系型专业库先建立元数据库管理其数据文件,这个元数据库是关系型的。逻辑数据库的公共数据集应是被整合非关系型专业库中的元数据库的共有属性。关于非关系型专业库元数据的详细要求参见6.4.1“专业库内容整理”
逻辑 数据库 元数据 元数据元数据关系型 数据库关系型 数据库 文件 文件 文件 图4 非关系型数据集的逻辑数据库
索引库都是关系型的,按照公共数据模型约定的格式建立,并通过抽取专业库中对应的
11
内容形成。
索引库可以利用专业库的系统元数据及专业库和逻辑数据库公共数据模型之间的映射信息自动抽取生成记录。
索引库的主键应符合《TR-REC-017 资源唯一标识规范》之“数据唯一标识符”规约。
6.3.1 逻辑数据库的要求
逻辑数据库应满足以下条件:
z 主题数据库服务系统中必须建有索引库;
z 每个逻辑数据库应对应于概念树中的一个或若干叶子节点;
z 每个逻辑数据库必须建立逻辑数据库公共数据模型,如果专业领域内有内容相关的
标准规范,模型应遵循这些规范或对其提供良好的兼容性,承建单位提交相关文档时应对数据的规范化情况有所分析;
z 对于关系型数据库的情况,主要考虑遵照的是相关的数据标准或公约; z 对于非关系型数据库的情况,主要应考虑遵照的是相关的元数据标准。 z 主题数据库实现索引库与专业库内容的同步更新;
z 索引库应向数据中心门户系统开放符合7.2.3节“接口规范”要求的接口; z 逻辑数据库原则上应该是若干专业库通过整合形成的,单个专业库直接作为逻辑数
据库必须满足以下条件:
z 该专业库的结构完全符合逻辑数据库对应概念节点的应用要求; z 该专业库对主题数据库内同类资源的覆盖比较完整。
z 对于关系型数据库的情况,索引库中除必须包含的公共索引字段内容外,还必须包
含访问专业库中完整数据记录的指针/地址
z 对于非关系型数据库的情况,索引库中除必须包含的公共索引字段内容外,还必须
包含访问专业库中完整数据记录或原始文件的指针/地址;
6.3.2 逻辑数据库的构建
构建逻辑数据库在内容组织方面的核心工作是确定逻辑数据库的内容和建立索引库的公共数据模型。
6.3.2.1 逻辑数据库内容确定
逻辑数据库的内容基于以下分析确定: z 逻辑数据库需求分析
由于主题数据库应用无关的特性,数据需求分析的主要内容包括:
12
相关的学科背景知识 数据内容已有的数据标准规范 相似的权威性数据库的内容分析
对于非关系型数据库的情况,还应注重相关领域已有的元数据标准规范。 z 专业库内容分析
确定专业库内容(对于非关系型数据库的情况,是其元数据库内容)可以产生共性的内容和范围,
内容确定是用户视角的分析,对于每个数据元素除了取舍以外,仅对数据元素在使用、处理和呈现方面的特性进行考虑。分析结果应形成如下表格: 元素名
描述
范例
可检索
概要显示
备注
6.3.2.2 逻辑数据库公共数据模型
逻辑数据库共同的内容确定后即可将这些内容建立关系,并纳入统一的公共数据模型。构建逻辑数据库的核心工作是建立良好的逻辑数据库公共数据模型。公共数据模型是逻辑数据库整合应用的基础。
逻辑数据库公共数据模型是按照逻辑数据库应用需求分析建立的部分数据的公共数据模型,所有参与整合的专业库(对于非关系型数据库的情况,此处应为其元数据库)均需包含或通过加工转换可以得到符合该模型要求的数据内容。
公共数据模型的描述可以使用实体-关系模型、UML或者XML Schema等常用的建模语言。
逻辑数据库公共数据模型应具备如下特征
z 公共数据模型的内容应有一定的丰富程度,
对于关系型数据库的情况,至少应支持对逻辑数据库描述对象常用信息的公共
检索;
对于非关系型数据库的情况,至少应包含数据对象常用的公共元数据。 建模者认为条件具备的情况下可适当扩大公共数据模型的范围以谋求更多数据内容的规范性;
z 模型应为学科领域内的共识性内容,符合学科科研人员的表述习惯,使用常用的命
名,规则和度量方式等,若在该领域已存在相关内容的数据规范或元数据规范,建议公共数据模型遵守这些规范或至少在结构上对其保持良好的兼容性; z 逻辑数据库公共数据模型不应针对某个特别的应用而设计;
13
z 公共数据模型应具有良好的结构,一般而言应满足第三范式的要求,每个逻辑数据
库应有一定的规范性,如实体命名、属性命名规范等;
z 公共数据模型不依赖于具体的系统实现,可以对不同数据库系统保存的资源数据库
提供兼容性。
公共数据模型分析
通常逻辑数据库公共数据模型的内容包括三个部分:数据结构、数据操作、数据约束。 z 数据结构:主要描述数据的类型、内容、性质以及数据间的联系等。数据结构是数
据模型的基础,数据操作和约束都建立在数据结构上。不同的数据结构具有不同的操作和约束。
z 数据操作:主要描述在相应的数据结构上的操作类型和操作方式。
z 数据约束:数据模型中的数据约束主要描述数据结构内数据间的语法、词义联系、
他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。
具体而言应包括以下内容: z 实体 z 属性 z 关系 z 约束条件 公共数据模型的表达
分析工作完成的成果应体现为实体关系图和数据字典,数据字典如下:
数据字典
表名: ID: 字段名
表名: ID: 字段名
ID
定义
数据类型
约束条件
ID
定义
数据类型
约束条件
6.4 物理数据组织
专业库通过与逻辑数据库的公共数据模型建立映射关系,不同专业库中的内容按照映射转换规则抽取形成符合公共数据模型的索引库,实现数据整合。主题数据库的数据在物理上
14
不限制其存储方式,可以采用集中式存储也可以采用分布式存储。
主题数据库的数据内容组织主要包括专业库的内容整理和建立映射转换规则两个部分。
6.4.1 专业库内容整理
专业库往往存在数据质量或结构方面的问题,因此需对专业库内的部分内容加以规整。数据内容整理的方法包括抽取、清洗、转换、规约等。
规范不强制要求每个专业库必须进行数据整理,以能否按照映射规则形成符合逻辑数据库填充率要求的内容为准。
此外,对于非关系型数据库的情况,如果数据使用的格式不是学科领域常用的数据格式,承建单位应尽可能将其转化为常用的文件格式。
对于非关系型数据库的情况,还应为专业库建立元数据库进行管理,这个元数据库应使用关系型数据库管理,元数据的描述粒度应为文件或文件集合,每条记录应包含访问文件(或文件集合)的指针/地址。非关系型数据库元数据库内容的详细约定参见6.5.1“非关系型数据库元数据”。
专业数据库内容整理应执行《TR-REC-031 建库技术指导规范》、《TR-REC-062 技术文档参考规范》、《TR-REC-018 科学数据分类规范与分类词表》、《TR-REC-019数据加工增值管理方法》,特别专业库的主键应符合《TR-REC-017 资源唯一标识规范》之“数据唯一标识符”规约。
6.4.2 建立映射转换规则
逻辑数据库公共数据模型建立以后,专业库应建立与公共数据模型之间的映射规则。 映射规则的建立包括两部分内容:映射关系的建立和转换规则的建立。
6.4.2.1 映射关系
映射规则不是简单的对应关系,根据实际迁移的源和目的结构,还可能包含字段的拆分、合并等。专业库和逻辑数据库的映射关系具有层次结构,对于用实体关系模型表达的公共数据模型而言,映射体现在实体层面和属性层面。
z 实体映射:按公共数据模型中实体的属性来源和拆分的情况,源表和目的表在数量
上可分为一对一映射,一对多映射,多对一映射,多对多映射。
z 字段映射:关系可以分为3种,即直接映射、主键映射和外键映射。其中:主键映
射是为了保证专业库中主外键约束在逻辑数据库中被保留,外键映射是保证逻辑数据库实体表中外键字段能够从专业库表中对应字段正确迁移。直接映射就是专业库表中的字段直接映射到公共数据模型表中的字段上,不发生拆分、合并等运算。
15
z 类型映射:数据类型在不同的实现方法当中存在不同的具体表达,类型映射的两端
可能是该实现方法下的一个数据类型,也可能是一个数据类型加格式约束。
6.4.2.2 数据转换
数据从专业库(或其元数据库)中抽取出来往往不能直接对应到逻辑数据库当中,而需要一系列的变换和运算。凡此类变换应对其详细的变换规则加以明确。数据转换的常见情况包括以下三类:
z 字段类型转换:指含义相同的字段在转换过程中的字段类型发生了变化; z 合并:专业库中的多个字段,经过算术运算或逻辑运算后,形成主题数据库公共数
据模型中的一个字段。合并也可能包括字符型字段值的连接;
z 拆分:是指专业库中一个字段经算术或逻辑运算后,对应到主题数据库公共数据模
型当中的多个字段,或该字段为字符型字段值拆分成若干个子串后,每个子串对应于主题数据库公共数据模型当中的一个字段。
6.4.2.3 映射转换的表达
每个映射关系都可以表达为一个来源、对象和生产式的三元组。
z 对象:被映射端对象的集合,对象可以是基础层级(字段层面的,变量)的也可以
是基础层级对象组成的集合,如果存在非基础层级的对象,其映射规则最终应落实到基础层级;
z 来源:每个对象在源端对应的数据来源;
z 生产式:源端的数据来源均可按照生产式进行加工,并形成符合目标端数据模型要
求的对象内容。
映射关系可按如下的表格建立说明: 映射ID 对象标识
来源
生产式
6.5 元数据
在本规范中,为了消除元数据概念的多义性,统一各个主题数据库的相关参建人员的认识,将元数据特别限定为:描述数据集及其环境特征的数据。元数据的制定应遵循《TR-REC-013 元数据参考模型》的规范内容。
在主题数据库系统中,元数据主要支持以下五类系统管理功能: z 描述主题数据库的内容;
16
z 定义被整合进入主题数据库的数据和主题数据库整合形成的数据; z 记录数据整合形成的映射转换机理; z 集中管理数据集成使用的物理参数; z 客观详实记录数据质量相关活动。
6.5.1 非关系型数据库的元数据
对于非关系型数据库,对其组织管理有如下要求:
a) 必须建立有元数据库来对非关系型数据库进行管理,保证用户能够通过元数据
查找到相应的文件或文件集合。
b) 可以用相同的元数据元素集描述的非关系型数据库,使用同一个元数据库进行
管理。
c) 所有的非关系型数据库,必须有揭示其内容特征的元数据元素,同时必须包含:
z 唯一标识符 z 访问地址
6.5.2 专业库的元数据
在主题数据库服务系统中,应建立一个用来保存和管理专业库元数据的元数据库2。为专业库建立元数据的目的在于:对主题数据库整合集成的资源进行有效管理;与专业库和逻辑数据库公共数据模型之间映射适配器相配合,支持索引库的生成。 对于专业库,要求其元数据必须包含系统元数据和核心元数据:
1) 系统元数据:主要描述专业库的有关连接信息,元数据元素包括:
z 数据库连接主机IP z 端口号 z 数据库名 z 用户名 z 密码
z Web Service服务地址
2) 核心元数据:主要描述专业库的基本内容特征、外部特征和结构特征,符合核心元
数据规范的规定。专业库的核心元数据内容应符合《TR-REC-014 数据集核心元数据规范》的要求。
3) 领域元数据:符合基于核心元数据规范扩展出来的学科领域元数据规范。 保存专业库元数据的元数据库必须向数据中心门户系统开放符合7.1.3节“接口规范” 2
可以使用一个元数据库来保存和管理专业库的元数据及逻辑数据库的元数据。
17
要求的接口,以便同步到数据中心门户系统。
6.5.3 逻辑数据库的元数据
在主题数据库服务系统中,应建立一个保存和管理逻辑数据库元数据的元数据库3。为逻辑数据库建立元数据的目的在于:对逻辑数据库进行有效管理;与概念树配合,支持数据资源目录浏览式检索服务的实现。
对于逻辑数据库,其元数据包含三部分:系统元数据、核心元数据和领域元数据。前两个部分是必选的,第三部分是可选的。
1) 系统元数据:主要描述逻辑数据库所对应的索引库的连接信息,元数据元素包括:
z 数据库连接主机IP z 端口号 z 数据库名 z 用户名 z 密码
2) 核心元数据:主要描述逻辑数据库的基本内容特征、外部特征和结构特征,符合核
心元数据规范的规定。内容应符合《TR-REC-014 数据集核心元数据规范》的要求。 3) 领域元数据:符合基于核心元数据规范扩展出来的学科领域元数据规范。 保存逻辑数据库元数据的元数据库必须向数据中心门户系统开放符合7.2.3节“接口规范”要求的接口,以便同步到数据中心门户系统。
6.5.4 主题数据库的元数据
主题数据库作为一个整体,需要在数据中心开发的资源和服务注册系统中注册其元数据,以便于其在数据中心门户系统的集成和揭示。主题数据库的核心元数据内容应符合《TR-REC-014 数据集核心元数据规范》的要求。
7 技术架构和接口规范
主题数据库建设在技术上涉及到异构数据资源整合,数据管理与服务,元数据的生成和管理、用户认证与授权、服务监控以及专业库、主题数据库、数据中心三者之间的信息交互与通信等方面。
主题数据库的建设任务将分别落实到专业库建设单位、主题数据库牵头承建单位以及数据中心。通过三个不同层面所提供的功能和服务,最终实现主题数据库内部资源整合服务以 3
同2。
18
及多个主题数据库的统一联合服务。图5是专业库和主题数据库需要提供的基本服务以及二者之间的信息交互。图6是数据中心需要提供的基本服务以及与主题数据库之间的信息交互。
各类接口所实现服务的标识应符合《TR-REC-017 资源唯一标识规范》之“服务唯一标识符”规约。
数据分类导航主题数据库数据访问服务领域应用服务导航目录管理逻辑数据库逻辑数据库逻辑数据库用户库元数据管理逻辑库生成工具服务收割用户管理控制服务状态监控应用服务注册应用服务注册数据访问数据服务专业库元数据索引数据索引数据服务用户访问用户管理关系数据库文件文件关系数据库用户库状态监控服务状态监控 图 5 专业库和主题数据库的交互
数据中心数据服务元数据查询服务导航目录收割服务站点注册服务索引、元数据同步中心索引库访问记账服务web服务管理中心元数据库用户管理用户库用户注册授权导航目录收割主题数据库导航目录管理站点注册索引、元数据同步访问记帐Web服务注册web服务注册元数据管理用户管理 图 6 数据中心与主题数据库之间的交互
19
7.1 专业库 7.1.1 功能要求
1. 开放数据访问接口:
专业库向主题数据库提供访问完整数据记录的接口,使主题数据库可以根据索引数据访问到原始数据。
2. 开放索引数据收割接口:
专业库需要按照逻辑数据库的统一数据模式将各自的索引数据封装成web服务供主题数据库调用。
3. 开放服务状态监控接口:
专业库向主题数据库开放服务状态监控接口,使主题数据库对专业库的站点连接状态进行监控。 4. 用户管理:
专业库可以管理和维护自己的注册用户信息,并开发用户授权模块对来自主题数据库的用户进行访问授权。如欲进行单点登录,则主题数据库与数据中心使用同一用户库,用户的注册和管理功能由数据中心提供
7.1.2 应用系统与工具要求
1. 站点服务状态采集工具
开发站点服务状态的采集工具,用以定时监测本站点各种服务的运行情况。 2. 逻辑数据库适配器
根据主题数据库内定义的逻辑数据库的公共数据模型,开发数据适配器,完成专业库到逻辑数据库的数据转换。 3. 用户授权系统
提供图形界面,允许管理员针对各用户对数据的访问进行授权。
7.1.3 接口规范
专业库接口通用格式定义及开放接口的安全性要求应遵照以下规范的要求: z 《TR-REC-032 元数据访问服务接口规范》 z 《TR-REC-033 数据跨域互操作技术规范》 z 《TR-REC-034 跨域用户认证接口规范》
20
7.2 主题数据库 7.2.1 功能要求
1. 数据分类导航
要求主题数据库按照概念树提供数据导航功能: (1)选择目录之后:
z 列出该分类下的子类;
z 对于叶子节点,显示该节点下的数据集; (2)点击每个数据集,可以查看其元数据。 2. 数据访问
提供数据的简单、高级等检索方式和数据浏览下载功能: (1)检索结果超过30项时,必须提供翻页功能;
(2)每个检索结果显示该索引记录的字段信息,并显示查看专业库数据的链接。 3. 逻辑数据库的生成和管理
调用专业库提供的索引数据收割接口实现专业库向逻辑数据库的封装和集成。索引库在物理上统一存储和管理并向数据中心提供收割接口。 4. 专业库应用服务的注册
主题数据库向专业库提供web服务注册功能,统一管理专业库开放的各类web服务,并汇交到数据中心。
5. 主题数据库概念树的生成汇交:
主题数据库按照数据中心的元数据规范建立概念树的描述信息,并定时向数据中心汇交。 6. 主题数据库元数据的生成汇交
主题数据库按照数据中心的元数据规范建立逻辑数据库的元数据,并定时向数据中心汇交。
7. 用户管理
主题数据库可以管理和维护自己的注册用户信息,并开发用户授权模块对来自数据中心门户系统的用户进行访问授权。如欲进行单点登录,则主题数据库与数据中心使用同一用户库,用户的注册和管理功能由数据中心提供。
7.2.2 应用系统与工具
1. 专业库注册系统
完成对专业库的注册,注册信息参见6.5.2“专业库的元数据”。 2. 统一用户管理与认证系统
21
主题数据库内部维护统一的用户库,并提供统一的用户管理界面和认证接口,实现用户在本主题数据库门户内的一站式服务,用户在多个专业库之间浏览,不应感觉到明显的跳转。
该部分可以考虑直接采用数据中心门户的用户系统,这样可以实现数据应用环境各服务之间的无缝跳转。
用户的管理包括用户的注册、信息的修改、密码的找回。用户的信息至少包含如下内容:
用户基本信息 用户名(英文) 登录密码 电子邮件 所在单位 注册时间 注册IP
注释
用户登陆系统使用的账户名 用户登陆系统使用的密码 用户登记的电子邮件 用户所在单位
用户注册时间,系统自助提供 用户注册IP,系统自助提供,主要设置目标是防止恶意注册等攻击行为
根据数据的共享等级提供用户授权机制,可采用集中式或者分布式授权,具体应参考《TR-REC-067 数据共享办法》中的相关内容。 3. 逻辑数据库注册与收割工具
开发注册系统,注册逻辑数据库的元数据,参见6.5.3“逻辑数据库的元数据”。 根据映射规则开发逻辑数据库的内容收割工具,通过专业库的索引数据收割接口,定时收割各专业库的索引数据。 4. 状态监控系统
开发状态监控界面,通过专业库的服务状态监控接口,显示各专业库站点的实时服务状态。
5. 访问记帐信息采集
通过调用数据中心的访问记帐接口,基于web提供用户针对本主题数据库的访问记帐信息。
7.2.3 接口规范
主题数据库库接口通用格式定义及开放接口的安全性要求应遵照以下规范的要求: z 《TR-REC-032 元数据访问服务接口规范》 z 《TR-REC-033 数据跨域互操作技术规范》 z 《TR-REC-034 跨域用户认证接口规范》
22
7.3 数据中心 7.3.1 功能要求
1. 元数据查询服务
数据中心提供统一的元数据查询服务。 2. 数据访问
数据中心提供统一访问各主题数据库的功能。 3. 站点注册
由数据中心提供站点注册入口,各承建单位需要注册本站的信息,注册信息参见6.5.4“主题数据库的元数据”。
4. 概念树、Web服务信息、索引库和元数据同步
数据中心对主题数据库的概念树、注册到主题数据库的web服务信息、索引库以及主题数据库的元数据进行收割和统一管理。
概念树Web主题库服务系统
图7 服务同步
5. 访问统计和记账功能
数据中心门户系统
数据中心向主题数据库提供记帐接口,并提供统一的记账结果展示平台,专业库和主题数据库登录该平台后可以察看各自的访问统计信息。 6. 用户统一管理
各个主题数据库都通过数据中心进行统一的身份认证。
数据中心只提供基本角色分配,每个主题数据库特有的权限由各个系统独立设置,控制,管理。
23
图8 用户统一管理
7.3.2 应用系统与工具
1. 主题数据库注册系统
提供统一的主题数据库注册界面,用以注册主题数据库的元数据信息,参见6.5.4“主题数据库的元数据”。 2. 统一用户管理与认证系统
提供统一的用户注册、管理界面,并提供统一的用户认证入口。所有数据应用环境用户在该系统内仅需要一次登录。 3. 元数据、索引库收割工具
提供元数据、索引库的收割工具。 4. 统一的数据导航与检索系统
基于概念树、元数据与索引库,提供主题数据库的导航和检索。 5. 访问记帐系统
为主题数据库提供通用的记帐接口,用以记录各主题数据库的访问情况,并提供统一的数据访问统计平台。
7.3.3 接口规范
数据中心接口通用格式定义及开放接口的安全性要求应遵照以下规范的要求:
z 《TR-REC-032 元数据访问服务接口规范》 z 《TR-REC-033 数据跨域互操作技术规范》 z 《TR-REC-034 跨域用户认证接口规范》
8 服务
构建丰富便捷的应用服务是主题数据库的建设目标。承担建设单位应充分利用计算机和
24
互联网技术条件,以主题数据库内容为基础,为用户提供丰富的应用。主题数据库原则上面向个人用户和数据库应用提供完全免费的公开共享。关于主题数据库服务模式、方式、内容等方面的详细执行方法,主题数据库建设单位应参照《TR‐REC‐051 数据服务指导性规范》的相关规定。同时,主题数据库在服务方面还应遵循以下特别规定:
z 关系型数据库数据查询、下载服务; z 非关系型数据库基于元数据查询、下载服务; z 符合数据类型特点的数据展示;
z 基于概念体系、元数据、分类体系等的数据导航; z 下载数据的数据符合公开声明的数据交换格式; z 专业的数据应用工具的下载;
z 应提供用户多种直接进入数据库的途径。至少应包括:通过概念体系进入方式、通
过元数据进入方式、通过搜索分类体系进入等。 主题数据库数据服务应遵循以下基本原则进行:
z 规范化原则:数据建设、共享和服务优先采用国家、行业标准,积极采用国际标准,
并结合实际应用制订相关标准,确保数据在最大范围内实现有效的交换共享; z 共享最大化原则:主题数据库提供完全免费的公开共享。承建单位应确保不设置无
谓的壁垒,使共享在最大范围内进行。(举例如下载操作需注册用户权限,则登陆操作应设置在下载这一环节之前,而此前的查询操作不应强制用户登陆系统。) 确保所有元数据不需注册即可查询、浏览
确保不低于总量10%的数据在互联网上提供无需注册即可获得的查询、浏览; 确保全部数据可实现用户下载。
z 网络化原则:任何发布数据,在可以使用互联网发布的情况下,必须使用互联网实
现共享与发布。
8.1 服务对象
主题数据库的服务对象主要包括个人用户和数据库应用两类: z 个人用户:面向个人用户提供的查询、浏览和下载等服务; z 数据库应用:面向内容相关的数据库应用提供的服务接口。
8.2 服务方式与要求
主题数据库的服务方式主要包括在线服务和离线服务两类:
z 在线服务:以基于互联网的方法提供服务的形式,主要包含www服务或web服务
等;
z 离线服务:在线服务以外的其他离线方式提供服务的形式,可包含光盘寄送等。
25
8.2.1 在线发布方式
主题数据库承建单位必须建立服务系统,应以完全免费的方式至少提供以下服务: z 建立主题数据库网站,至少提供数据(对于非关系型数据库,为元数据)查询和浏
览(对于非关系型数据库,还应包括下载); z 面向数据库应用提供基于web服务封装的服务。
8.2.1.1 服务网站规范
主题数据库网站建设应符合《TR-REC-035 数据库服务网站建设指导规范》要求。
8.2.1.2 WEB服务
主题数据库及其各组成部分应提供的接口服务从服务定义、接口方法、实现方式到部署方式,应完全遵照《TR‐REC‐032 元数据访问服务接口规范》、《TR‐REC‐033 数据跨域互操作技术规范》、《TR‐REC‐034 跨域用户认证接口规范》并保证能够提供7*24小时可靠服务。
8.2.2 离线发布方式
z 承建单位应配备相应的设备、软件和介质,为用户提供数据光盘复制服务和数据定
制等离线方式服务。
8.3 数据交换格式
主题数据库应尽可能遵照国际标准、国家标准、行业标准或科学数据库标准规定的格式提供数据服务。
8.4 共享分级分类设置
z 承建单位可根据用户及其对数据使用方法的性质设定一定的用户权限分级,但原则
上主题数据库应以完全免费服务为主; z 保证各级用户能够获取与其身份一致的服务。
26
8.5 其他服务要求
z 主题数据库承建单位必须建立服务系统提供服务,此外还应配备专门的服务人员,
为用户提供与主题数据库的利用有关的咨询服务及更深层次的服务;
z 为用户提供的服务可分为数据下载、数据浏览、数据查询检索、元数据查询检索等,
并可按照一定程序提供离线数据服务,如提供数据光盘等;
z 配备至少一名专门的服务人员,并在数据中心门户系统中注册为咨询员,构成数据
应用环境的服务人员队伍。咨询员每周累计至少1.5天提供实时咨询服务,对用户非实时咨询的响应时间不超过两天。主题数据库服务系统可以将数据中心门户系统上的参考咨询系统链接过来作为自己的一个栏目。参考咨询系统将自动统计咨询员的服务时间和对咨询问题的响应速度,作为对咨询员服务情况的考核依据,并纳入到对主题数据库共享服务评价的指标体系范畴;
z 为了保证数据中心门户系统实现对主题数据库服务的集成,主题数据库承建单位应
将主题数据库注册到数据中心开发的资源与服务注册系统中,并向数据中心门户系统开放符合7.2.3小节规定的接口;
z 因数据原始质量问题或非人为故意的数据错误造成用户相关损失的,科学数据库及
主题数据库承建单位不承担赔偿责任。对人为故意造成数据错误进而导致用户损失的,科学数据库及主题数据库承建单位应向用户道歉,承担道义责任,并有关规定对相关责任人做出处理。如存在人为故意错误的数据属于收取数据费用(不包括服务费)的数据,主题数据库承建单位应退还所收取的数据费用,并向用户做出与收取的数据费用相等的赔偿,但不承担由于数据错误导致用户的其它损失的赔偿。
8.6 服务案例
z 主题数据库建设单位应按照数据资源中心提供的服务案例模板积累和整理服务案
例,并在数据中心门户系统的服务案例管理子系统中填写和发布。公开发布的服务案例应是得到客户认可并同意发布的;每年公开发布案例的个数应不少于2项。服务案例的数量和质量情况也将纳入到对主题数据库共享服务评价的指标体系范畴。 服务案例模板大纲和填写要求。
案例名称
服务项目/课题/用户描述 服务需求 服务类别 提供服务单位
主要利用的数据库/科研应用服
27
务系统
主要利用的软件工具 服务响应情况 服务成效 服务时间 需求联系人 可否公开
9 运行维护
主题数据库的运行维护通常涉及机房管理,服务器、网络设备、存储设备及其他必要硬件设施的管理,相关操作系统、数据库系统及应用系统等软件系统的管理,系统用户管理、网络安全管理、数据库备份管理、磁盘监控与整理等系统安全管理,数据更新等工作。以下若干要求都是从科学数据库系统项目管理角度提出的对主题数据库运维的要求,目的是使主题数据库的运维作为主题数据库建设工作的重要组成部分能够被考核,促使主题数据库的运维达到较高的水准,并保障科学数据库系统项目在总体上的运维和服务水平。为了保障主题数据库运行维护工作的顺利开展,主题数据库承担建设单位可制定应用于本主题数据库的运维制度和规范,在满足从科学数据库系统项目管理角度提出的对主题数据库运维的下述各项要求的基础上,实现对主题数据库运维工作的规范化管理。
9.1 运维人员
主题数据库承担建设单位应组织成立健全的运维人员队伍(至少配备一名以上工作人员),定人、定责和定规,承担前述的主题数据库各项运维工作。主题数据库的运维人员队伍是整个数据应用环境运维队伍的一个有机组成部分。运维人员队伍中应安排一名总负责人,并作为数据资源中心与主题数据库在运维工作方面的联络人注册进在数据资源中心部署的“科学数据库站点服务状态监控系统”中。
9.2 基础运行环境 9.2.1 机房
主题数据库信息基础设备应具有良好的电磁兼容工作环境,电源要有良好的接地,并具
28
有防尘、防磁、防静电保护,抑制和防止电磁泄漏。机房工作场所应符合GB50174-93国家标准所要求的建设标准,应具备必要的防火、防水等备灾设施和条件。应具备符合GB 9361-88国家标准的电源设备环境。
9.2.2 互联网接入环境
具备至少20M/bps以上的至INTERNET出口带宽,并实施必要的网络安全保障措施。
9.2.3 网络服务器与存储设备
z 部署主题数据库在线服务的服务器等主要硬件设备应放置于机房中,且机房具备必
要的防火、防水等备灾设施和条件;
z 具有必要的网络相关设备、数据库服务器、Web服务器、数据存储设备和其它必
要的硬件设施;
z 服务器和网络能力应至少满足40个并发用户访问的需要。
9.3 运行 9.3.1 运行模式
在线服务:主题数据库服务网站应保证7×24小时开机运行,全年因故中断运行时间不得大于5%;4
离线服务:离线服务应5×8小时可用。
9.3.2 日志管理
主题数据库应利用日志文件或其它方式对用户访问情况进行记录,并保障数据资源中心及时获得用户访问情况记录。向数据资源中心提供用户访问情况记录的方式包括以下四种,主题数据库承担建设单位应根据主题数据库的实际情况采用其中的几种或全部。5 4
数据资源中心将通过科学数据库“站点服务状态监控系统”对各主题数据库服务网站的运行情况进行7
×24小时监控,并将监控记录归档,作为考核各数据库正常运行率的依据。
5
数据资源中心将每个月做一次关于整个科学数据库系统及其包含的各个主题数据库、专题数据库、参考
型数据库和专业库的用户访问情况的统计分析报告,并将报告报送院信息办。各主题数据库的用户访问统计信息也将作为评价其服务效果的一部分重要指标。每个主题数据库的用户访问统计信息将是对主题数据库服务网站、包含的关系数据库、包含的FTP服务系统(如果有)、离线服务(如果有)等各部分访问统计信息的综合。
29
记录和上传主题数据库服务网站Web日志
部署数据资源中心提供的日志上传工具,在日志上传工具中配置网站IP地址、
日志保存位置及有关参数,并将Web日志上传频率设置为“每日”,将主题数据库服务网站的web日志每日自动上传到数据资源中心。
为了便于访问统计工具对日志中信息的统计分析,主题数据库服务网站Web
日志应遵循一定的格式规范。具体要求是:
z IIS服务器设置的Web日志格式中必须包含下列日志字段(Web日志中包
含的字段可以多于但不能少于下述字段):
日期 date 时间 time 客户IP地址 c‐ip 用户名 cs‐username 方法 cs‐method URI资源 cs‐uri‐stem 协议状态 sc‐status 发送字节数 sc‐bytes 协议版本 cs‐version 用户代理 cs(User‐Agent) 参照 cs(Referer)
z RESIN和APACHE或者TOMCAT的服务器,使用默认日志格式。
记录和上传主题数据库有关的FTP日志
若主题数据库中的数据通过FTP提供服务,那么既应上传主题数据库服务网站
的Web日志,也应上传有关FTP的日志。
FTP日志的上传也是通过数据资源中心提供的日志上传工具,在日志上传工具
中配置FTP地址、日志保存位置及有关参数,并将FTP日志上传频率设置为“每日”。相关FTP的日志也将每日自动上传到数据资源中心。
FTP日志也应遵循一定的格式规范。对于FTP日志的统计,目前仅限于支持
wu‐ftpd,vsftpd的FTP日志,且FTP日志必须采用xferlog的格式,至少包含如下字段的信息,一般只需在FTP服务器配置文件中将日志格式设置成xferlog格式即可,默认字段内容,无需定义其各字段信息。
30
时间 TIME IP来源 IP 字节数 BYTES 文件名 FILE 上传下载模式 DIRECTION 用户名
USER
完成状态 COMPLETE_STATUS
针对关系数据库的访问情况,按照7.2小节中的规定调用数据中心门户系统提供的
记账接口。
上报数据离线服务情况
对于通过非网络访问形式向用户提供的数据,应于每月第一周将上个月的数据
提供情况上报数据资源中心。
数据离线服务情况按照模板整理和填报。
用户联系信息 数据提供方式 数据提供量 数据提供时间
9.4 安全保障和故障处理
主题数据库的安全管理工作依据国家有关法规及《计算机信息网络国际联网安全保护管理办法》进行。主题数据库承担建设单位必须采取有效措施保障其WEB服务器、数据库服务器、应用服务器的安全,建立必要的防火墙系统,加强对黑客攻击的防护,建立及时更新的防病毒系统,保护系统和数据库的安全。
9.4.1 基础设施安全
主题数据库及其服务系统应具备性能较为完善的网络信息安全设施,包括:网络防火墙、入侵检测、病毒防范、用户识别等信息安全软硬件系统,并设专人进行日常管理监控与更新;
9.4.2 软件安全
z 系统软件(包括操作系统、数据库系统)和应用软件应定期进行完全备份,系统软
件的配置修改和应用软件的改动都要及时备份,并做好相应的记录文档。
31
z 及时了解系统软件和应用软件厂家公布的软件漏洞,并立即进行更新修正;安装入
侵检测系统,对网络攻击和非法扫描实时检测、及时报警; z 应用软件的开发要有完整的技术文档,源代码要有详尽的注释。
9.4.3 数据安全
z 所有科学数据资料分类妥善保存;
z 所有入库的科学数据资料都要按照预定备份策略进行备份,包括异地备份,确保在
任何情况下数据都不丢失。
z 对外提供科学数据资料要依据国家有关保密和知识产权法律法规。
9.4.4 非技术防护措施
z 主题数据库承建单位可制定并遵循运维制度开展日常运行工作,具体可包括:
机房管理制度; 值班制度; 系统维护制度; 运行操作规程; 技术档案管理制度;
z 主题数据库承担建设单位应制订应急工作预案,对故障恢复相关事宜做出应急处置
规定。主题数据库运维应急工作预案应写成文档,并提交数据资源中心备案。
9.4.5 故障处理
当发现主题数据库出现故障而不能正常服务时,主题数据库运维人员应对故障进行及时处理,使主题数据库尽快恢复正常运行。有关的时间要求是:
z 对于影响很小的一般故障,若在工作日的8-16时出现,那么应在8个小时内使主
题数据库恢复服务;若在工作日的0-8时、16-24时出现故障,那么应在1天内使主题数据库恢复服务;若在双休日、节假日出现故障,那么应在2天内使主题数据库恢复服务。
z 由于服务器软硬件损坏、黑客攻击、病毒感染等原因导致主题数据库服务系统出现
故障致使停止服务时,应尽可能在2个工作日内恢复主题数据库服务系统运作。 z 如果主题数据库出现的故障是不能短时间恢复的,运维负责人应在规定时间(自出
现故障起2个工作日内)提请数据资源中心启动紧急预案,由数据资源中心运维人员根据应急工作预案启动在数据资源中心的备份系统,代替原系统提供服务直至原系统恢复正常。
32
出现故障的起始时间以科学数据库站点服务状态监控系统监测到主题数据库无法正常访问并向主题数据库运维负责人发出服务异常通知的时间为准。
9.5 备份和恢复
主题数据库服务系统应具备一定的容灾能力,除可在本地备份外,还必须备份到数据资源中心,以保障主题数据库服务的持续稳定开展。
z 主题数据库承担建设单位应制定明确的数据备份计划,并上报数据资源中心备份。
主题数据库除在本地对数据库进行备份外,还应定期(至少每半年一次)或不定期(每有数据更新时)将数据备份到数据资源中心保存,以便于在本地环境遭到破坏时,能够由数据资源中心的备份系统代替原系统提供服务;
z 主题数据库中的数据及应用都需要备份到数据资源中心备份,可利用数据中心提供
的备份工具实现这些资源的备份;
z 主题数据库应用系统应能够在数据中心提供镜像服务。
9.6 主题数据库的质量
主题数据库承建单位应在主题数据库建设与服务过程中建立数据质量控制机制,通过数据质量控制、保证和评价等策略方法的实施,实现对主题数据库产品及其服务质量的控制与改进。关于数据质量管理实施方法的详细规定,主题数据库建设单位应参照《TR‐REC‐063 数据质量管理规范》的相关规定,并接受符合《TR‐REC‐064 数据质量评测方法与指标体系》要求的质量检查。同时,主题数据库在数据质量方面还应遵循以下特别规定:
主题数据库的质量包括三个方面:数据质量、运行维护质量和服务质量。
数据质量:指主题数据库数据内容的质量,目前主要从数据的准确性、完整性和重复性几个方面来考察。
(1)主题数据库承担建设单位对所承建主题数据库的质量负责,因数据质量问题给用户造成相关损失的,由承担建设单位与用户协商后做出处理。
(2)数据用户有权就数据质量问题和数据错误提出修改意见,接到用户相关意见的主题数据库承担建设单位应在10天内就用户所提问题给予答复。对确实存在质量问题和数据错误的数据,应及时修正。无法及时修正的,应暂时撤出共享范围,待修正后再行列入。
(3)主题数据库承担建设单位将采取的数据质量控制措施写成文档,上报数据资源中心备案,作为将来对主题数据库数据质量进行评价的指标之一。
(4)主题数据库承担建设单位应提出对所包含的逻辑数据库和被整合的物理数据库中每个字段完整性的估计,并上报数据资源中心备案。
(5)数据资源中心将主要利用组织专家对主题数据库中数据进行抽查、利用数据完整
33
性检测与评价工具相结合的方式,来对主题数据库的数据质量进行评测。
z 准确率
不低于99% z 完整性
数据库的核心属性(学科领域专家讨论确定)不能空,非关系型文件的元数据
库的核心元素不能为空;
关系数据库的填充率不能低于70%;
数据资源中心将通过数据完整性检测工具软件对上述完整性指标进行检测。 z 重复率
不超过1%
运维和服务质量:主要指主题数据库为用户提供服务系统正常服务率、服务系统可用性、人工干预型服务的响应速度和用户满意度、用户访问情况和服务案例数量,共同构成主题数据库的服务质量。
z 服务系统正常服务率:要求不低于95%,将通过站点服务状态监控系统中的监控
统计数据进行评价。
z 服务系统可用性:利用关于服务系统可用性的在线调查问卷得到评价数据; z 人工干预型服务的响应速度和用户满意度:利用参考咨询系统中的统计数据进行评
价。
z 用户访问情况:根据对主题数据库用户访问情况的统计分析数据进行评价。 z 服务案例数量:根据数据中心门户系统服务案例管理子系统中的数据进行评价。
34
附录A(规范性附录)标准实施一致性测试
为了保证本标准在中国科学院数据应用环境建设与服务项目建设中的实施,充分发挥其服务主题数据库建设的重要作用,特别是主题数据库建设、运维和服务方面各项具体要求的落实,下文特明确标准实施一致性测试之具体内容,满足本测试所有项目者即视为主题数据库建设工程中贯彻实施了本标准。
本标准从内容组织、资源建设、接口规范、运维与服务等方面规范了中国科学院数据应用环境建设与服务项目中主题数据库的建设,标准实施一致性测试也针对上述内容分别予以明确。
A.1 内容组织
A.1.1 数据集名称及标识符
数据集名称是项目内识别建设任务和目标的主要依据,所以应该保证其在项目内的统一,不应出现“一库多名”的现象,所以在数据集标识符注册的过程应明确各类数据集的名称,并在各类应用中使用同一名称和标识符。具体测试内容如下:
z 经数据资源中心认证,成功注册主题数据库,确认数据库名称,并获取其唯一标识
符;
z 根据《TR‐REC‐017 资源唯一标识规范》,在数据资源中心为主题数据库各级子库注
册唯一标识符,并确定子库名称;
z 在项目建设和服务过程中,完全使用所注册的主题数据库及其子库名称、唯一标识
符一致,并保持持久性;
z 主题数据库及其子库名称、唯一标识符在项目内具体实现和服务的情况将通过有关
工具软件自动检测,如存在不一致视情况定论。
A.1.2 概念体系
概念体系及其概念树是主题数据库内容组织的抽象化表达,是领域实施的高度概括,其建设需要达成的目标有:
z 在数据中心注册主题数据库的概念体系和概念树;
z 概念树及其节点的标识符合《TR-REC-017 资源唯一标识规范》; z 在数据服务系统上实现与概念树一致的内容导航服务。
35
A.1.3 逻辑数据库
逻辑数据库是主题数据库实现资源整合的关键,达成以下目标是实现资源整合的保证: z 执行《TR‐REC‐031 建库技术指导规范》、《TR‐REC‐062 技术文档参考规范》; z 必须建立逻辑数据库公共数据模型,并建立与概念树的对应关系,对应其一个或若
干叶子节点;
z 必须建有索引库,包含的公共索引字段内容,以及访问专业库中完整数据记录或原
始文件的指针/地址的指针/地址;
z 主键符合《TR-REC-017 资源唯一标识规范》;
z 索引库应向数据中心门户系统开放符合7.2.3节“接口规范”要求的接口,实现索
引库与专业库内容的同步更新。
A.1.4 物理数据组织
物理数据组织阶段应实现专业库数据资源的整理,及其向逻辑数据层的资源转换,此间应该完成上述建设内容,特别应将数据资源整理过程及其关键内容(节点、事项、方法等)形成数据组织的文档,其中包括数据映射关系的详细记录,文档记录内容应以所有活动的可重复再现为基本目标。
执行《TR‐REC‐031 建库技术指导规范》、《TR‐REC‐062 技术文档参考规范》,并将文档提交数据中心备案。
A.1.5 关系型数据集
文档
在建设过程中,关系型数据建设除了通过技术实现资源的整理和数据入库外,针对主题建设过程中逻辑数据库、物理数据组织等应完成文档: z 《数据应用环境建设和服务 数据库需求说明书》;
z 《数据应用环境建设和服务 数据库元数据需求规格书》,包括对领域内已有数据标
准规范、相似的权威性数据库和建库相关学科背景知识等内容的分析; z 《数据应用环境建设和服务 数据库设计说明书》。 元数据
为主题数据库及其各级子库著录符合核心元数据、系统元数据和领域元数据规范的元数据,并按照要求向数据中心门户系统开放符合“7.技术架构与接口规范”要求的接口,以便实现元数据的注册和同步,支持核心元数据和领域元数据通过主题数据库服务网站和数据中心门户为用户服务,且不限制非注册用户对元数据的直接访问;而系统元数据应按照数据资源中心的要求提供给数据资源中心,以便数据中心门户可以通过该元数据实现对数据的直接
36
访问。
A.1.6 文件型数据集
文件型数据集必须建立有元数据库,保证基于该元数据用户可以在主题数据库服务网站和数据中心门户上发现和定位对象。文件型数据集的元数据,必须包含唯一标识符、访问地址元数据元素,同时包括一些语义层面揭示对象特征的内容。按照要求向数据中心门户系统开放符合“7.接口规范”要求的接口,以便实现元数据的注册和同步,支持通过主题数据库服务网站和数据中心门户为用户服务,且不限制非注册用户对元数据的直接访问。
元数据库的建设过程中,针对主题建设过程中逻辑数据库、物理数据组织等应完成文档: z 《数据应用环境建设和服务 数据库需求说明书》;
z 《数据应用环境建设和服务 数据库元数据需求规格书》,包括对领域内已有元数据
标准规范、相似的权威性元数据库和建库相关学科背景知识等内容的分析; z 《数据应用环境建设和服务 数据库设计说明书》。
A.2 技术架构与接口规范
基于“7.技术架构与接口规范”实现各级数据组织机构的功能、系统建设,并开放符合本规范的各类数据接口,支持彼此间的数据交互。
特别在技术实现数据服务系统的过程中,应完成以下文档: z 《数据应用环境建设和服务 数据库软件概要设计说明书》 z 《数据应用环境建设和服务 数据库软件详细设计说明书》 z 《数据应用环境建设和服务 数据库软件开发卷宗》
A.3 服务
按照8.2之“服务方式与要求”、8.4之“其他服务要求”实现主题数据库的应用服务环境建设。
至少配备一名专业的数据服务人员,并在数据中心门户系统中注册为咨询员,为用户提供与主题数据库的应用有关的咨询服务及更高层的支持,其工作时间每周累计至少1.5天,且对用户非实时咨询的响应时间不超过两天。
按照服务案例模板(8.6)积累和整理服务案例,并在数据中心门户系统的服务案例管理子系统中填写和发布。公开发布的服务案例应是得到客户认可并同意发布的;每年公开发布案例的个数应不少于2项。
37
A.4 共享
原则上主题数据库应面向个人用户和数据库应用提供完全免费的公开共享,具体数据的分发和共享应遵照《TR‐REC‐067 数据共享办法》的要求执行。特别应实现:
z 各类元数据完全公开,支持非注册用户的访问;
z 完全公开共享的数据中,应有20%以上的资源允许非注册用户的直接访问和获取。
A.5 运行维护
运行维护是主题数据库数据资源建设和服务的保证,应实现第9章“运行维护”所明确运维队伍、基础环境、运行、安全保障和故障处理、更新、备份和恢复等内容的各项规定,并完成《数据应用环境建设和服务 数据库运行维护记录》文档并提交至数据中心。
A.6 主题数据库质量
质量活动是保证数据资源质量状态的重要措施,所有与数据质量相关的活动均应通过想要的文档予以完整记录,用户基于质量文档应能够判断数据对其需求的满足程度,质量文档应遵循以本学科领域内公认的内容和格式,亦可参照与数据资源中心商定的质量文档模版,文档记录内容应以所有活动的可重复再现为基本目标。
对数据用户提出的质量问题提出修改意见,应在收到意见后10内给予答复。对确实存在质量问题和数据错误的数据,应及时修正。无法及时修正的,应暂时撤出共享范围,待修正后再行列入。
主题数据库应在人工抽查、工具软件检查或二者结合检查时达到如下基本要求: z 准确率
不低于99%
z 完整性
数据库的核心属性(学科领域专家讨论确定)不能空,非关系型文件的元
数据库的核心元素不能为空 关系数据库的填充率不能低于70%
z 重复率
不超过1%
此外,数据质量相关的具体内容和方法,执行《TR-REC-064 数据质量评测方法与指标体系》、《TR-REC-065 共享服务评价指标体系》。
38
因篇幅问题不能全部显示,请点此查看更多更全内容