大数据正在成为国家的重要战略资源,已是社会各界关注的焦点。从大数据的概念入手,界定了大数据概念的内涵、外延,指出政务大数据应用应成为政府管理改革的全新阶段。基于国内外政务大数据发展现状,在评述国内外政府大数据应用发展的基础上,提出中国政务大数据发展需坚持整体性政府、透明化政府和服务型政府三个基本方向,需避免将将大数据等同于开放数据、共享数据和海量数据三大认识误区,需警惕数据权的恶意使用或过度滥用、大数据带来的信息歧视和互联网公司侵害国家数据主权三大潜在问题。
近年来,大数据在全球范围内受到追捧。著名的管理和咨询公司麦肯锡(McKinsey)认为,“大数据已经渗透到工业和商业领域的各个方面,成为影响生产的一个重要因素”,大数据的应用涉及经济、文化、教育、医疗、公共管理等各行各业。正是由于大数据的广泛应用及其背后蕴藏的巨大潜力和价值,许多国家纷纷将“大数据”的建设和发展上升为国家战略,积极推动大数据应用的发展。
一、国内外政务大数据发展现状
2012年3月29日,美国正式发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),该倡议书中提到,大数据计划的实施,旨在帮助美国获得从海量复杂数据集中萃取知识的能力,借此提高国家应对急迫挑战的能力。这一计划类似于过去美国联邦政府在高性能计算和互联网等领域的战略性投入,并旨在推动国家在科学研究、教育和国家安全等领域的能力提升。
该倡议书的发布,标志着大数据已经上升成为美国在计算服务领域的国家战略。英国、加拿大、新加坡、日本、韩国等国家纷纷推出了以开放、融合、创新为特征的新一轮信息技术革命推进政策。
如英国政府所宣布的一项价值1.89亿英镑的“大数据”发展计划,意在推动“大数据”在商业、医疗、农业和科学研究等方面的应用;法国政府发布的“数字路线图(Digital Roadmap)”,计划投资1000余万欧元用于支持包括大数据在内的7个尖端领域的研究;澳大利亚联邦政府发布“澳大利亚公共服务大数据战略”,以推动公共行业利用大数据分析进行服务改革等。
2011年9月20日,美国、英国、挪威、墨西哥、印度尼西亚、菲律宾、巴西、南非等八国发起成立“开放政府联盟”,发布了《开放政府宣言》,目前全球已经有超过60个国家加入该联盟,贴近互联网、开发大数据、造福全社会已经成为当前发达国家政务信息化的主流声音。
相较而言,国内对于大数据的研究起步较晚。始于1993年国家自然科学基金会成立的“大数据共享联盟”,以搜集和展示大数据的研究开发为主。自1999年起,“第三届亚太地区知识发现与数据挖掘国际会议”“Hadoop与大数据技术大会”和“大数据共享联盟”等才开始开展有关大数据研究和开发的促进工作。
2008年,“计算社区联盟”(Computing CommunityConsortium)在《大数据计算:在商务、科学和社会领域创建革命性突破》报告中详尽阐述了大数据对社会治理的推动作用,以及潜在的商业价值。直到2013年,维克托·迈尔-舍恩伯格的《大数据时代:生活、工作与思维的大变革》一书才掀起国内的“大数据”热潮。
自2013年以来,大数据、互联网、云计算等新兴产业得到了中国政府的高度重视。李克强总理在2014年《政府工作报告》中明确提出,要设立新兴产业创业创新平台,在大数据、云计算等方面赶超先进,引领未来产业发展。国务院常务会议多次专题研究部署推进互联网、大数据等新兴产业的快速发展,科技部、发改委、工信部等部委在科技和产业化专项中对新一代信息技术给予重点支持,在推进技术研发方面取得了积极效果。
在国家层面的积极鼓励和倡导下,各地政府高度重视互联网、大数据、云计算等新兴产业发展。2014年2月,广东省率先提出设立广东省大数据管理局,并正式公布了《广东省大数据发展规划(2015-2020年)》,为大数据产业发展注入了强大动力。上海、北京等地率先推出了政府数据资源开放共享网络平台,整合本地区数十个部门的政务大数据资源,向全社会开放共享,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑。
贵州省提出建设“云上贵州”计划,并力争成为全国首个基于云计算建成省级政府数据共享平台的省份。重庆、内蒙古、陕西、湖北等地都提出建设大数据和云计算产业基地的计划,力图将新兴产业培育成本地的支柱产业。
2015年4月,国家发改委在部委中首家专门成立了大数据分析中心——国家发改委互联网大数据分析中心,全面支撑国家发改委宏观调控和重大决策,这标志着中国大数据产业已经开始进入应用深化的全新阶段。
二、政务大数据需坚持的三个基本方向
(一)整体性政府
整体性政府强调政府内部须实现机构、部门、专业、层级等之间的协调整合,以更好地解决公众需求,避免因政府内部矛盾冲突而造成的公共服务效率低下。Michael Milakovich指出,单一数据源已越来越难以满足应对很多政策领域日益复杂问题的需求,未来将会出现越来越多跨数据集的联系,且在数字时代,政府治理的关键在于整合多数据源的公共管理模式,因此,推动政务大数据应用首先应坚持整体性政府方向,推动政府间的数据共享与业务协同。
在英国,曾有报道称,由于缺乏跨部门沟通,当地警察部门和医院系统推进的一个分享暴力犯罪数据的项目最终宣告失败。相比商业机构而言,政府在推进大数据方面所面临的挑战更加尖锐,因为他们必须在遵从安全性和相关法规的前提下,不断打破部门孤岛来推进数据的集成。政府部门不仅要应对多数据源和不同格式数据的集成分析等大数据领域通行问题,还要面对很多政府部门特有的挑战和问题。
但对推进政务大数据应用而言,无论是对政府自身监管行为所产生的大数据,还是对公民在社交媒体或其他网络平台上所产生的行为数据进行采集和分析,都可能促进政府机构中跨层级的“智能中心”的建立。
如在美国“9·11事件”以后,借由国家安全之名,政府开始强力推进跨部门电子数据共享。如美国国土安全部高度强调跨部门数据的互操作性,并应用多种技术手段促进数据在市政部门、社区、医院、供血站、避难所等各类机构之间的顺畅流动。此外,美国在环保、交通、医疗和公共安全等领域的信息共享也取得了良好成效。
(二)透明化政府
R. C. Joseph等认为,大数据分析技术的使用,能够大大提升政府服务的效能。大数据能够提升电子政府的效率和效果,并促进其进一步演化为透明政府(transformationalgovernment,t-government),这被认为是电子政府的最终演化阶段。
大数据应用建立在掌握数据的基础上,以海量数据为前提,政务大数据的发展往往离不开政府开放数据,这使得政府的透明度大大提高。纽约大学法学院教授贝丝·诺维克(Beth Novick)表示,数据的开放可以让政府公职人员和民众一起参与进来,解决政府无法完成的、棘手的问题,更广泛地发挥公众力量,借助大数据平台更好地进行社会管理。随着政府组织的行为及其与公众的交互越来越数据化,在政府自身内部系统中产生的各类大数据也为透明性政府建设提供了巨大潜力。
在推进政务大数据应用中,政府的监管方式应不断创新,更加透明。在最极端的情况下,如果我们可以设想一个机构像维基百科那样完全进行数字化运作,那么通过下载其所有的编辑历史就可以提供该“组织”的所有完整的交互记录,从而提供了一种迄今为止难以想象的机会去理解其治理安排。随着政府组织越来越“成为”一种前台的网络存在和后台的信息处理系统,大数据也将更有力地促进上述整体性政府的最终形成。
(三)服务型政府
大数据可以促进政府公共服务水平的提升,有利于服务型政府的建立。M. R. Rajagopalan等[21]指出,在大数据时代,公众可以更好地参与到政府工作之中,与政府分享信息,形成政府和公众共同参与的政务决策机制。[22]社会公众可以通过社交媒体、公开出版物、博客等渠道分享他们的意见,大数据分析技术可以处理这些非结构化数据,并将更好的服务和方案传递给所需的客户群体。
因此,在大数据背景下,任何政府都可以藉由政务大数据的采集、分析和利用,不断推动优化政府自身运作流程和服务效能。而且,政务大数据分析是政府理解公民行为、解释政策与公共服务优劣的良好手段,也是政府决策者理解公众需求与偏好的工具,以更好地理解人们对于公民参与的积极性,对立法变动的态度,以及对政府公共服务的需求。美国国税局(IRS)曾经重新设计其纳税申报流程,并应用大数据技术手段来提高对纳税欺诈和纳税不遵从行为的自动监测。
在美国,随着联邦政府各个机构对于大数据分析的应用,政府在处理自身事务时将花费越来越少的精力。此外,大数据还可有效改进政府绩效管理方法,促进公共服务的提升。Michael Milakovich指出,以往政府部门的绩效管理往往是滞后的,因为其主要依赖一些事后的指标来评估政府工作的效果。未来,政府管理部门应当更多依靠实时性数据来提升政府管理效能。
三、政务大数据需避免的三大认识误区
(一)将大数据等同于开放数据
由于目前尚无对“大数据”的标准界定,政府部门对大数据的认识存在混乱,有将开放数据等同于大数据,有将任何“大”的政府数据集的发布都当作是大数据。但事实上,很多开放数据只是离散的“小数据”,并不具备大规模、未经处理和非结构化等大数据的基本特征,且很多通过开放数据机构发布的在线数据集仅仅是一个可用的样本集。
同时,虽然开放数据对于促进政务大数据应用意义很大,但当开放数据仅仅是由于上级部门的指令要求,并对政府部门本身工作并没有任何回馈时,开放数据项目就会缺乏可持续性。考虑到开放数据并不是不需要成本(公务员需要花时间去收集这些数据,并发布出去),在政府看不到任何收益的情况下,将其维持下去会很困难。
在加拿大和英国,已经有证据表明,政府开放数据项目的可持续性受到了威胁,有些官员将开放数据描述为仅是由一小群爱好者推动的“桌角项目”。以美国的data.gov门户网站为例,其在2012年包含有378529个原始空间数据集、1264个政府APP和236个公民开发APP。然而,到2014年,该网站的数据集事实上已经下降到了108606个,且各种APP的数量也有所下降。这实际上也是因为网站数据集的可用性不佳造成的。
此外,为了便于开发者和分析者能够不受数据格式限制而处理数据,开放数据集都是以原始格式发布的,这将影响数据的获得和使用。由于编码缺乏一致性,这些数据在没有电脑归纳的情况下非常难以理解,从而难以得到真正有效应用。可见,在推动政务大数据应用中,不能简单地将大数据等同于开放数据。
(二)将大数据等同于共享数据
Gang-Hoon Kim等对美国、英国、荷兰、瑞士、新加坡、日本、韩国、澳大利亚等发达国家的24项政府大数据应用进行了统计分析,发现目前发达国家政府大数据应用与商业领域大数据应用相比,规模还有很大距离;且目前大部分政府大数据应用的对象仍以结构化数据为主,较少采用实时、动态、半结构化甚至非结构化数据。这在中国政务大数据应用中也较为常见。
据调查,目前很多地方政府建设的大数据平台,仅仅是过去政府共享数据平台的“翻版”。政府推动大数据平台建设的首要目的不是推动大数据应用,而是统一政府信息基础设施,实现各部门数据的互联互通。然而,政府大数据不仅仅是政府自身的业务数据,在当今社会,有大量对政府治理有意义的大数据源,如金融、电商、医疗、社交媒体等,并不完全由政府自身掌握。
在推动政务大数据应用中,应逐步整合政府外部数据资源,建设国家层面的全国性大数据中心,形成更加完善的治理决策支持体系,以在数据整合的基础上实现服务整合。以澳大利亚Centrelink国家数据中心的建设为例,全国各地的Centrelink与数据中心直接联网,联邦、州、当地的服务机构,如税务部门、金融机构、警局等,也与数据中心实现联网共享;Centrelink在多种服务渠道的后台,借助信息通信技术将业务流程、服务、网络和资源进行优化整合,便捷、高效地为公众提供一体化的服务。
(三)将大数据等同于海量数据
随着大数据在中国的不断发展,各个地方都开始兴建大数据中心,但对于大数据中心的建设,更多地还停留在“建机房、上设备、堆数据”的阶段,忽视了大数据强调的是对数据的分析和应用。
对于政务大数据的推进或大数据中心的建设,首先应有周密、严谨、细致的数据目录体系顶层规划,建立统一的数据资源目录体系、数据标准体系、数据质量审计体系和业务系统数据共享交换体系等;其次要有可对比、可回溯、可审计的数据质量管理体系,保障数据采集获取的可持续性,避免“数据陷阱”;再者,要有精通数据挖掘和业务建模的数据科学家队伍,从政务应用需求出发,做好潜在数据价值的挖掘与应用。
此外,当前不少学者还未真正认识到大数据价值,认为海量数据无法获得,且大数据只是一种暂时性趋势。殊不知,大数据虽指海量数据,但并不是“全数据”,而是数据资源总量不断增长的状态,且从“大数据”中挖掘出有价值信息才是大数据应用的关键。
四、政务大数据需警惕的三大潜在问题
(一)警惕数据权的恶意使用或过度滥用
随着大数据应用的不断推进,数据开始被视为重要的战略资源,“世界经济论坛”报告曾指出大数据为新财富,价值堪比石油。在政治领域,数据的所有权是一种新的权利源泉。围绕原始数据的占有权和发布权的斗争将成为一个持久性的政治议题。一个不可否认的政治事实是,意识形态的倾向性总是会影响对客观事实的调查,并且对决策过程产生导向作用。
当前,数据权被滥用的案例普遍存在。如针对政府网站数据不准确问题,2001年美国政府颁布了《数据质量条例》(Data Quality Act),允许私人团体对联邦政府部门所发布信息的准确性提出质疑。很多反对美国环保政策的商业团队就经常利用这一条款来拖延环保监管工作的执行。这条法律变成了环境保护监管工作的一个巨大障碍,因为它经常被用来拖延那些必要的监管工作的正常开展。在推进政务大数据应用中,应警惕数据权的恶意使用或过度使用。
(二)警惕大数据带来的信息歧视
大数据技术为基于证据的未来趋势预测提供了一种可能,但同时有可能会带来公平和公正的问题。Michael Milakovich指出,在政务大数据应用中,数据挖掘阶段最有可能引发对公民隐私权的侵害。尽管作为一种提升公共服务传递的重要手段,数据挖掘本身的意图是好的,但由政府收集和分析个人数据,不可避免地会引发对公民自由问题的争论。很多民众正在失去对政府的信任,其中部分原因就是政府机构拥有太多对公民个人数据的获取手段,而相反对个人数据的保护手段却太少。
另外一个政务大数据应用的障碍来自伦理上的挑战,数据“可被获取,并不代表使用它就是道德的”。大数据技术为基于证据的未来趋势预测提供了一种可能,使得社会科学的研究可以做到像自然科学研究一样的精准、量化、客观。大数据可以用于预测未来,人们可以基于大数据构建政策制定的概率模型,分析未来可能会发生什么,但这些模型会带来公平和公正的问题。
举例来说,通过应用大数据技术,我们可以识别一些犯罪的“热点”区域,政府就可以在犯罪发生之前更好预知其发生规律,而生活在这些区域的人将会因此而比其他地方的人面临更高的被逮捕率。
(三)警惕互联网公司侵害国家数据主权
由于中国数据产权的立法滞后,且在国家层面缺乏采集相关数据资源的统一规划,使得当前与国家经济、政治密切关联的数据较少掌握在政府手中,而如阿里、百度、腾讯、小米等互联网公司所掌握的数据资源较为丰富,且与国家经济社会运行关系密切。
以阿里为例,已将数据化作为该公司三大战略之一,其所掌握的大数据资源与中国国家安全之间的关联,是建立在阿里的数据覆盖面和数据累积深度的基础之上的。目前,阿里旗下淘宝的注册用户就接近5亿,从而支撑起阿里的消费者数据、制造业数据和供应商数据。至2013年底,阿里旗下的支付宝实名用户已近3亿(其注册账户早在2012年底即已突破8亿),并成为全球最大的移动支付商;而截至2014年6月30日,创立仅一年的余额宝用户已超过一亿,差不多是股市开市20多年后中国股民的两倍,支付宝和余额宝共同支撑起阿里的金融数据。
马云说其未来进军的领域是医疗和文化事业,届时又会形成阿里关于中国人的体质健康生理数据和心理意识数据。这些数据通过云计算进行挖掘之后,对国家安全的价值会远远超出国家保密局所保密的信息价值。为此,推进政务大数据应用,必须要警惕互联网公司对国家数据主权的侵害。
五、结语
Gang-Hoon Kim等指出,国家主导是政务大数据发展的根本动力。发达国家政府的大数据项目都有着相似的目标导向(如公共服务的平等性和可获取性、公众对公共事务的更好参与、透明性政府等等)。政务大数据应用发展的主要关注点集中在安全性、速度、互操作性、分析能力和竞争人才等方面。
当然,每个国家的政府都有其优先主导的方向,以及基于自身特殊环境的机遇与挑战(如美国的恐怖主义和健康问题,日本的自然灾害,以及韩国的国防事业等等)。中国在推进政务大数据应用的过程中,应从中国实际出发,出台切实可行的政府大数据发展供给政策。