DC元数据———组织网络信息资源的有效工具
张云瑾
(福建师范大学社会历史学院,福建福州350007)
摘要:DC元数据是一个用于描述网络信息资源的元数据核心集。本文介绍了DC产生的背景、组成元
素、描述方法以及实践应用情况。
关键词:都柏林核心;DC元数据;网络信息资源组织中图分类号:G250.73;G254.36 一、DC元数据产生的背景最小的元数据元素集,以便作者和信息提供者可以自元数据是关于数据的结构化数据,其作用在于对己描述自己的作品,并能方便网络资源发现工具之间信息资源进行描述和限定,以便人们高效地选择和利的互用。这次会议设定了一个包含13个元素的元数用。“元数据”一词译自英文单词“Metadata”,是近几年据元素核心集。由于这次会议的地点在都柏林,因此随着网络信息海量增长才频繁出现于学术书刊中的词这个核心集被称为都柏林核心(DublinCore,简称汇,但是关于元数据的理念并不是新出现的,在图书情DC)。此后,有关组织每年都召开会议对DC进行补充报部门应用多年的、根据AACR2、ISBD等规则编制的和修订,这使DC在结构和功能上逐渐完善起来,核心卡片式目录、书本式目录以及根据MARC格式编制的元素由13个发展到15个。1998年9月,IETF(因特网机读记录都是元数据。它们在对图书、报刊等传统信工程特别任务小组)正式接受了DC,将其作为一个正息资源的组织方面发挥了重要作用。然而,随着计算式标准(RFC2413)予以发布。机技术、通信技术的飞速发展,因特网上的信息资源急二、DC元数据的组成元素速增长,传统的元数据格式结构复杂,需要受过专业训目前,DC由15个元素组成,每一个元素的基本用练的人员才会编制,而面对汹涌而来的网络信息潮单途如下[1]:
(1)Title(题名):用于说明由创建者或出版者赋予靠有限的专业人员进行整序、组织无异于杯水车薪,无济于事,因而形成了网络信息资源日益丰富而真正需
要它的人却日益难于查找矛盾。
虽然采用Google、Yahoo、新浪等搜索引擎进行检索可以查到部分信息,但是这些搜索引擎是通过自动搜索程序来抓取网页信息,然后以自动抽字(词)做索引的方式建立数据库的,因此检索效率低下,检索结果要么动辄几千甚至上万条,要么答非所问。例如,想检索有关金门岛的资料,在Yahoo、新浪等搜索引擎中输入”金门”二字,检索结果中除了提供有关金门岛的资料外,还出现了大量的有关”铝合金门窗”、”五金门锁”等与检索要求风马牛不相及的资料。这样就极大地增加了检索人员甄别所需资料的时间。为了解决网络信息资源检索的困难,1995年3月,在美国俄亥俄州的都柏林召开了第一届元数据研讨会,会议由OCLC(联机图书馆中心)和NCSA(美国超级计算机应用中心)主持。会议的目标主要是定义一个能为全球所理解和接受的
资源的名称。例如网站名称、网页名称等。
(2)Creator(创建者):用于说明创建资源内容的主要责任者。
(3)Subject(主题):用于说明有关资源主题内容和学科内容的关键词、词组、短语或分类号。
(4)Description(说明):用于以文本形式说明资源的内容。例如文摘、目录、版本说明、注释或视觉作品的内容等。
(5)Publisher(出版者):用于说明负责使资源成为可取得和利用状态的责任者。例如出版社或公司等。
(6)Contributor(其他责任者):用于说明在Creator元素中没有列出,但是对资源的知识内容的贡献仅次于创建者的个人或团体。例如编辑者、插图者等。
(7)Date(日期):用于说明当前资源的制作日期。(8)Type(类型):用于说明资源内容的特征和类型。例如小说、诗歌、报告、论文等。
信息与网络 引进与咨询2004年第1期
(9)Format(格式):用于说明资源的数据格式,注明
31
需要什么软件或硬件来显示和执行这一资源。例如文本、JPG图像、应用程序等。
(10)Identifier(标识符):用于记录标识资源的字符串或数字。例如网络资源标识中的URL和URN、ISBN(国际标准书号)、ISSN(国际标准刊号)等。
(11)Source(来源):如果当前资源来源于其它资源的一部分或全部,则此元素用于记录当前资源的出处信息。
(12)Language(语种):用于说明资源内容所用的语种。
(13)Relation(关联):用于说明当前资源与其他资源之间的关系。例如:翻译自......、节选自......(IsPartOf)、格式转换自......等。
(14)Coverage(覆盖范围):用于说明资源知识内容的时空特征。包括空间位置描述,例如地名或经度纬度等;时间范围指资源内容涉及的时间而不是资源制作、产生的时间。
(15)Rights(权限):用于说明资源本身所具有的或被赋予的权限信息。一般包括知识产权等信息。
以上各元素都是可选的,没有必备项与可选项之分,同时各元素是可重复的,可以根据信息资源属性的多样性进行重复著录。必要时可以增设子元素加以限定。例如,在Date元素之下可增设Created(创建时间)、Issued(发布时间)、Moditied(修改时间)、Valid(有效时间)等子元素。
三、DC元数据的描述方法
目前,对DC元数据进行描述主要采用HTML或XML标记语言,从发展趋势来看,今后主要采用XML进行描述。XML是可扩展标记语言(ExtensibleMarkupLanguage)的简称,是继HTML之后的又一种Web标记语言,它为用户提供了灵活的标记扩展机制,使得不同内容的资源能以自定义的标记元素来表现。
为了便于与其它格式的元数据进行相互交换和利用,DC元数据采用RDF模式。RDF是资源描述框架(ResourceDescriptionFramework)的简称,是W3C(万维网协会,WorldWideWebConsortium)于1997年10月正式发布的一个草案。它的功能是利用当前存在着的多种元数据标准来描述各种网络资源、形成人机可读,并可以由计算机自动处理的文件;RDF的目标是建立一个供多种元数据标准共存的框架。在这个框架中能够充分利用各种元数据的优势,并能够进行基于Web的数据交换和再利用[2]。
以下是一个基于XML和RDF的DC元数据样例:
(3)可重复性。 四、DC元数据的主要特点DC元数据中的所有元素都可以重
(1)简单易用。DC元数据共包含15个元素,不论复使用,这就解决了多创建者、多版本、多语种资源的是图书情报专业人员还是用户,都能容易地掌握和使著录问题。如果一个主页有几个语种的版本,则可以用。通过DC的可重复性来解决。
(2)可选择性。在DC元数据中,所有的元素都是(4)描述灵活性。在网络资源的描述中,既可用规可选择的。根据资源的内容及针对的行业不同,可以范词来标引,也可用自由词(关键词)来标引。
(5)国际一致性。选择不同的元素进行描述。经过多次修订和补充,DC越来
32引进与咨询2004年第1期 信息与网络
Images;
越完善,有望成为国际标准而为大多数国家所采用。
五、DC元数据的应用
由于DC元数据具有简单易用性、国际一致性、灵活性等特点,因此受到了广泛的重视。到1999年为止,在10多个国家已有50多个与DC相关的项目,分布于各学科各领域。例如澳大利亚政府定位器服务(AustralianGovernmentLocatorService)宣布采用DC元数据格式作为其电子政府文献的信息著录标准;丹麦国家图书馆将DC作为元数据的标准,已成为一项国家政策[3]。
为了推广和使用元数据,自动编辑网站、网页元数据的软件已经出现。有了这种元数据自动生成工具,我们就可以对Web上巨量的网络资源进行编目描述,从而使Web上的一次信息加工为二次信息,对网络信息资源进行高效组织,为充分开发利用这种资源提供了前提条件和可能。目前将这些自动生成元数据的工具分为两类:编辑器(editor)和生成器(generator)[4]。
所谓元数据编辑器,是指通过提供一个符合某种标准的元数据模板,网页制作者根据模板编写网页的元数据,支持软件将这些描述网站的元数据自动置于HTML文件或XML文件的META标记中。而元数据生成器是指从已存在的网站HTML文件中截取信息,生成元数据,并将这些元数据置于META标记中。有的元数据生成工具同时具备以上两种功能的。这种工具的典型代表是:属于编辑器类型的英国ROADS计划元数据编辑器和属于生成器类型的澳大利亚MWP计划的元数据生成工具[5]。
六、DC元数据在元数据体系中的地位问题由于历史的原因,以往的数据库创立者在构建自己的数据库时,闭门造车,没有考虑或很少考虑元数据的互操作问题。这样做的一个最直接的后果就是不同领域(甚至同一个领域)存在多种不同元数据格式,不同的团体也有自己的元数据标准[6]。例如,除了DC、ROADSTemplate和EEVL等用于一般网络资源的元数据外,其他不同领域还开发和采用了以下的元数据:用于人文科学的元数据有:TEIHerder;
用于政府信息的元数据有:GILS;用于地理空间信息的元数据有:FGDC/CSDGM;用于数字图像的元数据有:MOA2Metadata,CDLMetadata,0PeArchivesFormat,VRACoreCategoriesforVi2sualResources和NIS0/CLIR/RLGTechnicalMetadatafor
用于连续图像的元数据有:MPEG-7;用于档案领域的元数据有:EAD;
用于技术报告的元数据有:RFCl807:AformatforBibliographicRecords;
用于FTP文件和FTP文件库的元数据有:IAFA
[7]
Templates。
这些格式和标准互不兼容,符合某种格式的元数据不能被其它格式所接受,从而导致不同数据库之间根本无法互相访问和检索。为了解决这个问题,需要采用一个通用的元数据准则进行管理。元数据正式而通用的管理方法要求元数据准则是一个树形的层次结构。最上层是根级元数据准则,它是各种数据库及其专业子库所遵循的标准。根级元数据准则下将是枝级元数据准则,它是各专业学科所遵循的标准,接下来是一些同类数据库或应用领域的元数据准则。每个枝级元数据准则又是它下级元数据准则的根级元数据准则。这样,顺着根级标准往下,逐级衍生,最终形成一个树形的元数据准则结构。总体上看,它是一个以数据管理为主,数据描述为辅的多层次多元数据准则体系。
由于DC元数据基本达到了简单、灵活,易于操作的要求。并且,DC的整个元素集都可以扩展,DC的每一个元素都可以有子类型或子模式,都可以被重复使用或选择性地使用,因此,DC元数据在这种多层次多元数据准则体系中可以充当根级元数据准则。
参考文献
[1]吴建中.DC元数据[M].上海科学技术文献出版社,2000.
[2]姜恩波.RDF原理、结构初探[J].现代图书情报技
术,2001,(5).[3]庄育飞,郑卫.DublinCore:网络资源组织与整理的新思路[J].情报学报,2000,(2).
[4,5]贺亚锋.Web站点元数据自动生成工具介绍[J].
图书馆杂志,2001,(1).
[6]高建勋,吴开华.元数据发展中的热点问题讨论[J].
图书馆,2002,(5).
[7]王松林.元数据及有关思考[J].情报学报,2002,(8).
[8]徐久龄,肖慧珍.元数据研究[J].情报理论与实践,2003,(2).
[9]安新颖.网络信息资源组织研究[J].现代情报,2003,(2).
因篇幅问题不能全部显示,请点此查看更多更全内容