各级政府掌握着全社会80%的数据资源,“开放政府数据”(Open Government Data,OGD)能够最大限度地推动全社会数据资源的有效配置和充分利用,成为各国政府实践和学术研究的热点。全球范围兴起的“开放政府数据运动”始于2009年美国政府推动的“开放政府行动计划”(Open Government Initiative),两年后的2011年9月美国、英国、巴西等8个国家成立了“开放政府合作组织”(Open Government Partnership,OGP)。到2016年8月其成员国已发展到70个,相继推出“国家行动计划”,从法律、技术、信息基础设施和应用等维度推动各层次的政府数据开放。根据世界银行的统计,目前已有超过250个政府(含中央政府和地方政府)实施“开放数据行动计划”。
构建政府数据管理、开放、查询和再利用的官方平台,发布开放数据目录(Open Data Catalogs)的“一站式”门户网站(Portals)是各国在开放政府数据运动中普遍采取的关键举措。到2016年8月,DataPortals.org收集的数据门户网站已达520个。我国从2012年开始,北京、上海、浙江、重庆、武汉和青岛等地方政府相继推出了十余个开放数据的门户网站。2015年9月5日国务院印发的《促进大数据发展行动纲要》明确在2018年底前要建成国家政府数据统一开放平台。
开放数据是政府信息公开在大数据时代的发展和深化。正如“元数据对政府公开信息的描述、发现和管理有着极其重要的作用”一样,数据目录平台的核心功能是开放数据集的元数据管理。复旦大学郑磊等构建的“中国政府开放数据整体评估框架”中,“元数据”是13个评估维度之一;英国开放数据研究所(Open Data Institute,ODI)开发和维护开放数据质量的在线评估工具“开放数据合格证书”(Open Data Certificate),将标准的、机器可读的元数据作为考查的基本指标之一。随着开放数据运动的逐步深入,元数据从提高开放数据集的可发现性到帮助用户理解、选择数据集,正在向标准化、语义化和机器可读的方向发展。
在政府实践和学术研究领域,我国已开始加快追赶全球开放数据浪潮的脚步。在元数据上,虽然目前各地方政府对于开放的数据都能提供基本的元数据信息,但元数据的方案各不相同、对数据集的描述尚不全面、格式以HTML网页和文本文件为主,离规范化、标准化、互操作和机器可读的目标还存在着不小的差距,这将影响到数据开放的效果。为此,本文借鉴国际先进经验,在分析地方政府开放数据平台元数据不足的基础上,设计基于W3C DCAT标准的核心元数据方案,为我国各级政府开放数据平台的建设和升级提供借鉴和参考。
1 国外开放政府数据的元数据现状
1.1 开放数据的元数据标准
由蒂姆·伯纳斯-李领导的W3C是政府数据开放运动的积极推动者。W3C电子政务标准行动计划(eGov Activity)设有电子政务兴趣小组(eGovernment Interest Group)和政府关联数据工作组(Government Linked Data Working Group)。经历两年的研制,2014年1月16日,政府关联数据工作组最终发布了由爱尔兰国立大学DERI(Digital Enterprise Research Institute)起草、电子政务兴趣小组修改的政府开放数据元数据的正式推荐标准——DCAT(Data Catalog Vocabulary)。
DCAT是RDF词汇表,支持数据目录之间的互操作性(interoperability)。DCAT词汇表共有7个类、17个属性,主要类和属性如图1所示,其中复用了都柏林核心元数据(Dublin Core)、FOAF本体和SKOS本体的相关词汇。从图1可见,对于开放数据集(dataset),DCAT提供了15个属性(带dcat前缀的5个为新属性)。这些属性帮助用户“认识”(如dct:title和dct:description)、“查找”(如dcat:theme和dcat:keyword)、“选择”(如dct:modified和dct:spatial)、“访问、读取或下载”(如dcat:distribution和dcat:landing-Page)和“使用”(如dct:identifier和dcat:contactPoint)数据,能够满足各类数据集“开放”的基本需求。
图1 DCAT词汇表的主要类及其属性
根据W3C的统计,DCAT及其应用纲要(Application Profile)已被欧盟、美国、英国、西班牙、爱尔兰和意大利等国家广泛采用。欧盟DCAT-AP(DCAT Application Profile for Data Portals in Europe)已应用到欧盟28国统一的数据目录门户(www.europeandataportal.eu)上,描述的58万多个数据集涉及文化教育、环境、交通和能源等13个门类。根据欧盟2016年8月的最新统计,意大利(Dati.Gov.IT)和罗马尼亚(Data.Gov.RO)等14个数据门户元数据对DCAT-AP的符合率为100%,奥地利(Data.Gv.AT)的这一比例为99%。值得一提的是,英国和法国的地理数据集对DCAT-AP的符合率分别是93%、97%,立陶宛和北爱尔兰的空间数据则为100%,表明了DCAT的广泛适应性。爱尔兰的元数据方案在欧盟DCAT-AP的基础上,增加了描述地理数据集的元数据。
1.2 美国纽约州开放数据的元数据方案
美国是开放政府数据的发起者和领跑者。从2009年5月21日上线发布国家层面的数据门户Data.Gov,到2016年8月各级地方政府(州、县和市)的开放数据门户网站已达到88个。美国各级政府开放数据的元数据非常重视标准化工作,2014年11月6日更新的国家数据门户的元数据方案(Project Open Data Metadata Schemav1.1,POD v1.1)已建立了到DCAT和Schema.org的映射。由于本文主要关注地方政府,就以纽约州为例介绍一个具体的元数据方案。
纽约州政府于2013年3月11日推出开放数据平台Open.ny.gov,随后信息技术服务办公室于2013年11月6日发表《开放数据手册》,详尽描述了元数据的构建原则和方案。表1是根据《开放数据手册》和Open.ny.gov上的元数据实例总结的纽约州元数据方案的主要元素,可见与DCAT有着很高的兼容程度并做了一定的本土化扩展。
2 我国地方政府开放数据的元数据分析
2.1 目前使用的元数据
不同于美国、英国等国家从中央政府到地方政府的发展路径,目前我国开放数据门户网站主要发端和实践于地方政府。表2列出了当前活跃的、代表性的网站的URL。在详尽调查各数据门户使用的元数据的基础上,限于篇幅本文以北京市和浙江省为例,给出分析结果。
“北京市政务数据资源网”由北京市经济和信息化委员会(经信委)牵头建设、北京市各政务部门共同参与,于2012年10月推出测试版、2013年年底正式开通。目前已开放来自市教委、市交通委、市旅游委等近40个部门的300多个数据集,并为每个数据集提供了txt文本格式的元数据文件。表3总结了元数据情况,其中第一列的元素名称取自元数据文件,第二列的元素标签取自HTML页面,实例数据取自“公益性图书馆”数据集的描述信息(http://www.bjdata.gov.cn/zyml/azt/wtyy/whcs/whgz/3077.htm)。需要说明的是,实际中并没有“数据资源”这一元素,它是本文为了元数据的结构更加简洁、明晰而引入的,实际使用的7个元素(文件名称、下载次数、上传日期、原始数据下载、空间数据下载、资源记录数、数据文件大小)归结为它的“修饰词”。
2015年9月23日,浙江政务服务网“数据开放”专题网站正式上线。这是国家《促进大数据发展行动纲要》发布后,全国各省份中第一个推出的政府数据统一开放平台,现已开放出200多个数据集。表4给出了网站的元数据使用情况,由于只有HTML格式的元数据信息,所以不区分元素的名称与标签,实例数据取自“公共图书馆信息”数据集的描述信息(http://data.zjzwfw.gov.cn/catedetail.action?resid=210551/20150610110144613008&catecode=SJLY005)。同表3一样,实际中也没有“数据资源”这一元素,表4中的“元素修饰词”是我们根据实际情况总结的。
2.2 元数据的不足
目前的元数据虽然能满足各地方政府开放数据的基本需求,但同国际上的发展趋势相比有如下不足:
a.各地方政府的元数据方案之间差异较大,表现为元素的个数、名称与格式上的不一致,这为应用程序跨多个数据目录读取数据集的元数据带来困难,增加了处理的复杂性和代价;
b.对数据集的描述不够全面,表现为没有规范、持久、稳定的唯一标识符,没有数据的时空覆盖范围,没有问题反馈渠道,没有数据的开放许可等;
c.没有区分数据集与数据集包含的数据资源(可下载的文件或访问端点等),造成描述两者的元数据之间的混淆,如“资源类型”“资源记录数”“点击下载”等描述的应是数据文件而不是数据集本身;
d.普遍没有采用机器可读的元数据格式,不利于程序的自动处理和互操作;
e.同一个开放数据网站中,元数据的取值也不规范。如浙江省网站中“数据文件大小”的取值既有带单位的(如172KB),也有没带单位的(如10);北京市“资源更新周期”的取值有“一年”的、也有“每年”的,而“在线资源链接地址”的取值都是“www.bjdata.gov.cn”,造成用户不能从这个元数据直接找到数据资源,也就失去了元数据的价值。
3 核心元数据方案设计
下面从现有的元数据出发,以W3C DCAT为标准化方向,以克服现有不足和满足核心功能(即数据集的可发现性、可访问性及数据目录间的互操作)为目标,设计我国地方政府数据目录的核心元数据方案,主要做法是:a.将元素分为两组,分别描述数据集和数据资源;b.依据DCAT规范元素的名称和语义;c.保留各地方政府与DCAT共有的元素项;d.补充DCAT中核心的、但各地方政府普遍缺失的元素项;e.采用机器可读的元数据格式。
3.1 描述对象
本文将“数据集”和“数据资源”作为元数据的描述对象。
世界银行开放政府数据工作组将元数据定义为“对开放数据集(dataset)各方面的描述数据”。DCAT认为“数据集是由一个机构或部门发布和维护的数据的集合”,对应图1中的dcat:Dataset类。数据集包含一个或多个数据资源,数据资源对应图1中的dcat:Distribution类,可以是能被下载的数据文件、访问数据的端点(endpoint)或RSS源(feed)等。数据集与数据资源之间的关系是“整体-部分”关系,对应图1中的dcat:distribution属性。
3.2 描述数据集的元数据
表5给出了描述数据集的核心元数据,第一列是规范化的元素中文名称、第二列是对应的DCAT元素,最后两列对应北京和浙江实际使用的元数据。19个元素全部来自DCAT词汇表和DC元数据,不仅能覆盖北京、浙江等目前使用的绝大多数元数据,也补充了“标识符”“开放许可”和“联系方式”等基本元素。
3.3 描述数据资源的元数据
表6给出了描述数据资源的10个核心元素,规范和补充了数据文件的“名称”“格式”“类型”“字节大小”和“文件下载的URL”“数据访问的URL”等重要的元素项。
3.4 扩展原则
随着开放数据种类的日益增加,数据集的本征特征会向多样化发展,对核心元数据的扩展势在必行。各国的主要策略是对DCAT的本土化和专业化扩展,例如美国POD v1.1引进了accessLevel(访问级别)、dataQuality(数据质量)、bureauCode(机构代码)和primaryITInvestmentUII(IT唯一投资标识符)等体现美国政府信息化特点的元数据项,欧盟DCAT-AP引进欧盟范围的受控词表(如EuroVoc)规范元素的取值,爱尔兰对地理数据增加了“空间参照系”(Spatial Reference System)、“空间分辨率”(SpatialResolution)等元数据项。
我国在进行本土化时更应考虑中文信息的特点,并结合政府信息资源公开及开放共享的现状和发展的需要。
4 元数据实例
支持互操作的元数据格式有XML、RDF等,它们都是机器可读的。作为DCAT的补充,DCIP(Data Catalog Interoperability Protocol)建议以XML/RDF和JSON格式编码开放数据的元数据,已被美国、英国和欧盟等采纳。
本文以北京市“公益性图书馆”数据集的元数据(参见2.1节的表3)为例,将现有的文本格式转换为XML/RDF格式(见图2)。其中,元素的名称来自DCAT词汇表,除了“标识符”的值(图中黑体),其余值都是实际数据。可以设想,如果各地方政府都以这种格式提供元数据,应用程序就能以一致的方式跨多个数据目录读取和解析它们,实现自动查找、比较和选择数据集,进而自动下载或访问数据。
该例也表明,上述核心元数据方案能够基本满足各类开放数据集的可发现性和可访问性的描述需求,同时提高了现有元数据的规范程度和互操作性。对于专业领域数据集的特殊描述需求,则要引进新的元数据项。
5 结语
数据的开放共享离不开元数据的支持,为开放数据集附加高质量的元数据描述,是实现数据目录之间互操作的基础,更有利于用户发现、理解和使用数据。我国地方政府开放数据元数据的规范化和标准化程度还不高,借鉴和参考国际通用的元数据标准将是一个重要的发展方向。本文在这方面做了初步的尝试,构建了基于W3C DCAT标准的描述开放数据集和数据资源的核心元数据方案。显然,该方案在实际应用中还会有很多不足,如还需要补充和完善编码体系修饰词、规范元数据的取值类型、设计数据集标识符的规范、根据需求增加新的描述对象和属性等。
相信从“元数据方案”到“元数据规范”、再到“元数据标准”的演化,将见证我国开放政府数据从起步、成长到成熟的发展历程。