通往正义的数据

作者:林衍       转载自:读者2012年第21期

头一回在美国上统计课,在国内政府部门做过近10年数据统计工作的涂子沛觉得“眼前一亮”。这一讲的内容是统计学的意义。印度裔教授一本正经地对学生们说:“除了上帝,任何人都必须用数据来说话。”

教授的观点一下子震撼了涂子沛。在他的印象中,数据往往被当成论证工具,更像是一种“证明领导意图的手段”。但在这里,“数据”似乎有另外的含义。

2007年底,奥巴马访问谷歌总部并做了演讲:

“人民知道的越多,政府官员才可能更加负责任……我将把联邦政府的相关数据用通用的格式推上互联网。我要让公民可以跟踪、查询政府的资金、合同、专门款项和游说人员的信息。”

涂子沛记得,演讲在此时被热烈的掌声所打断。

这是涂子沛第一次将“公民权利”这样的大词与“数据”联系起来。也正是从那时起,这个从卡内基·梅隆大学毕业,并已经在一家美国公司就职的数据库程序员萌生了一个系统的写作计划。2012年7月,他的《大数据》一书出版,扉页上的题记别具一格:“一个真正的信息社会,首先是一个公民社会。”

涂子沛在美国匹兹堡市一家联邦政府的合同商公司做程序员,每天面对的东西就是数据、代码以及大大小小的表格。

20世纪70年代初,涂子沛出生在一个法官家庭。因为从小看父亲断案,他很早就开始思考什么是“正义”这样的大问题。90年代中期,他进入华中理工大学读书。学校里有“人文讲堂”的讲座活动,这个计算机专业的学生是其最忠实的拥趸之一。时任中国人民大学副校长的谢韬也来讲过,当时他给涂子沛签名并留下这样一句赠语:“要做新世纪国家的建设者。”如今年已不惑的涂子沛仍然保留着这份情怀。当看到“7·21”北京暴雨的新闻后,他连夜写了一篇介绍美国如何发布气象灾害信息的文章。

“没有有效的预警,再准确的数据预报也是一个零。”涂子沛介绍,美国国家天气服务局不仅开通了推特、脸谱等社交媒体账号,还推出了一个叫做“天气收音机”的预警产品,一旦发出气象预警,平时沉默不语的“收音机”会立刻变为“闹钟”。

涂子沛慢慢意识到,原来自己一直关心的“公平正义”,竟然与每天朝夕相处的数据有着如此紧密的联系。

在此之前,和大部分人一样,涂子沛更愿意从技术层面去关注什么是“大数据”——这是对信息爆炸时代的崭新描述,它的基本单位是“太”(TB),而1000个“太”则等于一“拍”(PB)。打个直观的比方,美国国会图书馆是世界上最大的图书馆之一,它所有印刷品的信息量加起来只有15太,而全美国仅在2010年一年的新增数据量就足足有3500拍。

麦肯锡咨询公司曾做出估测,未来数据仍会以每年50%的速度增长,需要大量拥有“深度分析数据”专长的工作者。涂子沛便是其中之一。他会在自己的专栏中记录那些数据改变商业的故事:沃尔玛的研究人员通过数据挖掘,发现四成左右的年轻爸爸在购买婴儿尿布时会顺手买点啤酒犒劳自己,便对这两种商品进行了捆绑销售,结果销售量双双增加。更夸张的事例是,一个高中女孩某天突然收到了超市寄来的婴儿服广告,其父大为光火,但就在超市公开道歉几天后,这位父亲发现自己的女儿真的怀孕了。原来,超市已经可以通过顾客的食品消费数据做出趋势判断。

但当涂子沛开始写作《大数据》时,商业已经不再重要,他想讲述一个数据与正义的故事。

2009年1月17日,美国新任总统奥巴马签署了他的首份总统备忘录《透明和开放的政府》。

120天后,一个叫做Data.gov的网站正式上线,这是一个数据开放的门户网站,旨在全面开放美国联邦政府拥有的数据。

项目的负责人是维伟克·昆德拉——美国历史上的第一位首席信息官,他说:“这是一场数据民主化的运动,我们正在把信息的力量放到美国人民手中。”

起初,这个数据开放网站有点名不副实,即使包括地理数据在内,这个新生网站也仅仅只有47组数据和27个数据分析工具。要知道,年轻的首席信息官要面对的,“是一种沿袭了上百年的行政文化。面对庞大的公共信息,政府官员的第一反应往往是安全第一、保密为上”。尽管早在建国之初,《独立宣言》的起草人之一、美国第3任总统托马斯·杰斐逊就曾说:“信息之于民主,就如货币之于经济。”但事实上,在美国200多年的历史中,开放政府信息的雄心并不多见。

1789年,美国国会制定了《管家法》,规定了行政机关必须在统一的出版物上公开政务信息,但对于公开的内容,行政长官有自由裁定权。进入20世纪后,政府规模不断膨胀,国会先后通过了《联邦登记法》和《行政程序法》,规定公众可以向政府提出信息公开的要求,但如果危及公共利益,政府有权拒绝。

简言之,信息是否公开,还是政府说了算。到了1951年,在当时的冷战格局下,“保密”之风蔓延一时。

同一时期,哥伦比亚大学的新闻学教授克劳斯对当时的信息管理情况进行了调研,并出版了《人民的知情权》一书。他在书中明确提出:只有拥有信息自由,人民才能真正拥有对公共事务的发言权。后来,这本书被誉为美国信息自由运动的“圣经”。

书出版的那一年,一个叫约翰·摩斯的新任国会议员提出了《信息自由法》草案。摩斯任职25年,经历了数任总统,然而即使以开明著称的肯尼迪,也对这个草案避犹不及。约翰逊在听到这个草案后的第一反应则是:“摩斯想干什么?他想搞砸我这届政府吗?”

直到1964年,摩斯的提案才进入辩论阶段。那时候的联邦政府有27个部门,无一例外地在听证会上大声反对。

1966年,由于参众两院对该法案的支持率都高于三分之二,无法动用否决权的总统约翰逊在家中签署了这份法案。

多年后,被称为“《信息自由法》之父”的摩斯回顾说:“我们所做的,只是一个开始。那最好的仗,我已经打过。”

Data.gov的出现则为信息公开的发展注入了新的活力。昆德拉在演讲中表示,政府数据作为一项公共资源,应该像天气预报、体育赛事和股票信息一样实时公开。

充满了挑战性的新事物同样引发了联邦政府各部门头头脑脑的忧虑。有人担心,万一民间机构根据原始数据分析出的结论与政府不一样,岂不是“搬起石头砸自己的脚”?还有人认为,这场面对全世界的数据开放运动,会在不知不觉间让国家利益受到损害。

但改革并没有止步。截至2009年底,这个网站收到了社会各界约900项开放数据的申请。联邦政府最后回复:16%的数据立即开放、26%的将在短期内开放、36%的将计划开放,还有22%因为国家安全、个人隐私以及技术方面的限制无法开放。

在Data.gov上线发布一周年的时候,联邦政府开放的数据总数已经达到了27万项。

在涂子沛看来,创建Data.gov的价值并不仅仅在于满足民众的知情权。

2009年1月,美国联邦政府跨部门工作组曾将一份报告提供给总统科学技术委员会:一组数据,可能会得到数据收集人难以想象的应用,也可能会在另一个看起来毫不相关的领域得到应用,而因为这些创新型的应用,数据的能量将层层放大。

某种程度上,Data.gov的确掀起了社会创新的浪潮。截至2011年12月,在这个政府主导的数据开放网站上,汇集了1140个应用程序、软件工具和85个手机插件,其中有近300个应用程序由民间的程序员、公益组织自发开发。

就在Data.gov上线不到一个月的时候,民间的一位程序员便利用美国交通部开放的数据,开发了一个航班延误的免费查询系统。如2010年波士顿至纽约的航线情况:

这一年总共有6735次航班,其中62%准点或提前到达,14%有20分钟以内的延误,20%有20分钟以上的延误,还有4%的航班最终取消。

就“打飞的”而言,出行的时间至关重要。通常星期六有78%的最高准点率,而不幸赶上星期一坐飞机的人则要承受30%的最高延误率。在一天之内,每天早晨5点到6点起飞的航班有83%的最高准点率,而晚上9点到10点的准点率则低至53%。

当然,这个应用程序最有力度的数据还是所有航班的延误大排名,“Delta1807”以平均延误26分钟成了最不靠谱的航班。

这样的数据挖掘,直接给那些落后的航空公司敲响了警钟。

类似的事例并不鲜见。不少人习惯于在购物前,先到Data.gov上查询该商品是否存在因质量问题而被召回的记录。而在2010年发生的一起矿难中,网民们通过Data.gov上的煤老板捐款记录发现,接收款项最多的个人居然是地方上诉法庭的法官。后来,最高法院依此认定这名法官存在“重大偏袒”的可能。

推动数据开放运动的国家并不只有美国。

2006年3月,英国《卫报》刊登了一篇名为《把皇冠上的明珠还给我们》的文章,这被视为英国数据开放运动的序幕。

设计了全世界第一个网站的蒂姆·伯纳斯·李曾被评选为“最伟大的英国人”。2009年2月,他受邀在TED(技术、娱乐、设计)大会上发表演讲。

“你想象不出政府会找出多少个借口来拒绝开放数据。”这一天,一向以内向闻名的伯纳斯·李一改往日作风,甚至在讲台上带领听众喊起了口号:

“原始数据,现在就要!”

此后不久,他和时任英国首相的戈登·布朗一同出席一次颁奖典礼。布朗问他:“英国政府应该如何利用互联网?”伯纳斯·李立即回答说:“把政府的数据推上互联网。”

2010年1月,英国政府的Data.gov.uk正式上线发布,第一天就公布了3000多项民生数据。而卡梅伦出任首相后,更是率先提出了“数据权”的概念,并将其视为信息时代每一个公民都应拥有的一项基本权利。

2011年,这场“美丽的竞赛”扩展到了全世界。9月20日,由8个国家发起的“开放政府联盟”在纽约成立。几个月后,开放政府联盟又迅速收到了加拿大、意大利、韩国等42个国家和地区的加盟申请。

这个联盟里,最引人瞩目的国家并非美、英,而是来自非洲大陆的肯尼亚。

2010年8月,肯尼亚通过了新的《宪法》,其中第35条规定:“每一个公民都有权获得政府拥有的信息……每一个公民都有权修改、删除(政府保存的)不真实、有误导倾向的错误信息。”

2011年,麦肯锡咨询公司曾以2010年度各国新增的存储器为基准,对全世界大数据的分布做了一个调查,结果发现,中国这一年的新增数据量约为250拍,与日本的400拍、欧盟的2000拍和美国的3500拍比,相去甚远。与此相对应的另一个数据是,中国拥有4.8亿互联网用户,几乎是美国的两倍;拥有近9亿部手机,是美国的3倍,而互联网和手机正是数据的重要来源。

在涂子沛看来,这意味着中国并不缺乏可供收集的数据,而是缺乏收集、挖掘数据的意识。

他回忆起在卡内基·梅隆大学读书时,有一回师门聚会,大家相约每个人贡献一个拿手菜。一位来自中国的博士以一道卤牛肉赢得满堂彩,但当他公布自己的烹饪配方时,却令一位美国教授不知所措。原来,这位教授不太能理解“盐少许”“酒若干”“醋一勺”这样的表述到底是什么意思。

涂子沛记得,在国内做程序员的时候,要是做一个数据系统供本单位使用,那么上级和下级单位一般都无法登录这个系统。还有人告诉他,国内有些城市会把环境监测点刻意设在人工湖畔的树林中或湖中心的亭子里。

这些都让他想起美国《数据质量法》中的严苛规定:任何联邦政府部门收集的数据,必须无偿与其他部门共享。而在发布数据时,必须同时发布一系列的文档,说明数据的来源、采集的方法以及用户复制过程当中可能出现的问题和错误。

涂子沛把他的这些思考都写进了书的尾声,题为“挑战中国,摘下‘差不多先生’的标签”。他在文中提到胡适对于中国人“凡事差不多、凡事只讲大致如此”的判断,也引用了史学家黄仁宇认为中国在历史上缺乏“数目字管理”这种现代治国手段的观点,说明“数据不是任人打扮的小姑娘,漠视精确就是不尊重事实”。

前不久,国内一位学者针对一项社会调查,得出“科学主义一定会导致严重的偏颇,其具体弊端就是迷信数据”的观点。

涂子沛反驳道:中国社会治理领域的问题恰恰不是数据迷信,相反,现实情况往往是,决策者没有合理使用数据,同时又受制于错综复杂的理念和利益之争,导致数据意识形态化,在中国缺乏公信力。

他的观点是,收集数据,使用数据,开放数据,“如果前两者是文化和习惯,那后者则是一种态度。”涂子沛强调,一个真正的信息社会是一个信息自由流动而不受操纵的社会,这种开放意味着信息与每一个公民之间都是等距的,当然,也意味着公平与正义。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注