涂子沛：数据可以治国，还可以强国

2015-05-14 13:00:00

作者：涂子沛，阿里巴巴副总裁，著有《大数据》、《数据之巅》

一提到大数据，很多人的第一反应，是数据在商业领域中的作用，所津津乐道的，也是精准营销，即通过数据洞察用户的需要、扩大营销收入。我认为，数据的作用远不局限于此，数据不仅可以治国，还可以强国。

数据可以治国

数据治国，是指要凭借对数据的有效收集、处理和分析来治理国家，决定国家的大政方针和具体政策。

从定义看，数据是对客观世界进行量化和记录的结果。量化，是人类进行科学研究最根本的手段，就此而言，数据治国也可以理解为“用定量分析、实证研究的科学方法来治理国家”。此外，数据表示的是过去，表达的却是未来。数据之中蕴藏着社会发展的规律，“数据治国”的提法，也暗含着“人类可以更好的把握未来”之意。

回顾人类的历史，任何一个国家的治理，都需要参照数据，但由于信息技术的进步、记录手段的普及，物理世界的状态、个人的社会行为得到了前所未有的记录，这种记录的粒度越来越细、维度越来越多、频度越来越密，形成了“大数据”。今天的数据治国，含义远远超出了“参照数据”。

例如，当前国人关心的头号问题，莫过于空气质量。要解决好这个问题，从环境的监测、传感器的安装，到空气标准的设立、污染原因的分析，再到高污染、高能耗产业的转型、智能电网、智能电表的使用和普及，整个治理链条都贯穿了数据。又例如交通拥堵，如今很多城市，立交桥高达三四层、地铁线也在快速扩张，却赶不上车辆增加的速度，在资源增长空间有限的情况下，唯一的出路，是用好大数据，对城市的状态进行实时的分析和预测，不断优化现有资源的使用情况。还有当下智慧城市的建设，大数据的作用可谓重中之重。

无论是东方、西方，今天都有政府在不断尝试，试图把“凭借数据来治理社会”的模式推到极致。大概2000起，美国国防部高级项目研究所（DARPA）就在尝试建立一个超级数据库，把全社会每一个人的基本资料、信用卡交易信息、医疗保险记录、出入境记录、航空和酒店信息、电子邮件、电话记录、网络搜索记录等等数据都整合到一起，然后通过数据挖掘和监控，在大量的信息当中发现“信号”，实现有效的社会治理和管控。这个计划被称为“万维信息触角”，因为可能侵犯公民的隐私，在美国国会不断受阻，但美国国防部却屡次变换名目、暗中推动项目进展。最终因为后来大面积曝光，引发了震惊世界的“斯诺登事件”。

西边不亮东边亮。2002年，新加坡的国防部长在美国访问，他获知万维信息触角计划之后，大为赞赏。新加坡于是重金引进、聘请美国国防部的工作人员，在他们的帮助下，新加坡快速建立了一套万维信息触角，命名为“风险评估和全景扫瞄”（RAHS）。

RAHS最初的目的，是通过全社会的数据联通和挖掘，在错综复杂的社会现象中发现恐怖袭击、流行病疫情等突发事件的“信号”，达到未雨绸缪、有效治理的目的。这之后，因为行之有效，新加坡政府将系统不断扩大，推广到经济、文化、社会管理的种种领域。房屋管理局用它来了解人们对于住房体系的批评和期待、人口部门通过它掌握大众的生育态度变化、旅游部门用它来预测各地游客数量的周期、食品部门通过它决策是否应该减少对进口食品的依赖等等，从这个角度说，新加坡是数据治国的一个实验室，它不仅将大数据用于情报和反恐，还用于构建和谐社会。

在中国，特别要强调的是，数据治国不是“数字治国”。一些官员一谈起辖区人口面积、GDP增长幅度、项目投资多少、惠及领域若干、利税增加几何都有“数”在胸，还特别喜欢用“三项原则、五个重点、八项规定”等等数字范式对工作进行总结，各项工作的考核也都与数据挂钩，大有唯“数据”盛行之势，这不是不好，但这些都是孤立的、静态的数字，并不是“数据治国”的真义。大数据时代，数据治国更关注的是动态的数据、系统化的数据、以不间断“流”的形式存在的、成片的、活的数据，它们应该成为公共决策的资源为政府和社会广泛使用。归根结底，公共决策最重要的依据将是系统的、成片的、动态的数据流，而不是个人经验和长官意志，过去深入群众、实地考察的工作方法虽然仍然有效，但对社会治理而言，系统采集的数据、科学分析的结果更为重要。

数据还可以强国

数据还可以强国，这是因为，数据正在成为各行各业最重要的创新资源。

以农业为例，来自天气、土壤和农作物的数据，可以实现自动化的灌溉、防治虫灾、决定如何种植和收割，节省水利资源、提高单位产量；在教育领域，以大数据为基础的在线智能学习平台（MOOC），可以突破教室的限制，让成千上万的学生同时得到个性化的教学和辅导；再以医疗领域为例，IBM公司的Watson系统可以快速的检索几百万名患者的病例、最新的医疗研究报告和成果，做出更快、更准确的诊断；工业领域更不待言，汽车、飞机正在被大数据改造，成为无人驾驶汽车、无人驾驶飞机；还有金融领域，利用电商平台的交易数据，阿里小贷可以在几分钟之内判断企业的信用，为近百万小微企业发放贷款。今年初，阿里巴巴又推出了基于个体消费者的“芝麻信用”，用的创新资源还是数据。一百年前的美国，用了几十年的时间才建立全民信用体系。因为无处不在的充沛数据，今天中国的全民信用体系可能在更短的时间内、以更低的成本就可以建立起来。

毫不夸张的说，基于数据的创新将带动人类社会的各个领域都实现巨大的飞跃，这种飞跃是前人难以想象的。今天的年轻人面临的创新机会要远远多于前几代人，因为他们拥有人类有史以来最伟大的创新资源：数据。

和其它的创新资源相比，数据之所以伟大，是因为它不会被它所激发的思想和创新所消耗，它可以重复使用、同时被无数人使用，此数据和彼数据整合，还可以产生新的价值和效用，在空间的拓展中、在时间的延伸中，数据的能量将在人类社会层层放大，数据的不断积累是资源和知识的持续增加。

但要成就数据的“伟大”，还有个前提，这就是数据的开放。对于“开放数据”，中国社会目前还存在不少误解。一是将开放等同于公开，其实开放和公开是两个完全不同的概念。公开是信息层面的，是一条一条的；开放是数据库资源层面的，是一片一片的。开放数据，指的是将原始的数据及其相关的元数据以可以下载的电子格式让第三方自由使用。开放也不一定代表免费，因为开放是有成本的，企业可以以收费的形式开放数据。开放也可以有层次、有范围，针对某个特定的组织和群体开放，不一定面对全体社会大众。

开放数据之于当下中国社会的意义，在于推动知识经济和网络经济的发展，在于促进中国经济由粗放向精细、从“制造”向“创造”的转型升级，在于释放社会生产力、催生创新。通过开放更多的数据，让创新的资源自由的流动，李克强总理提出的“大众创业、万众创新“才能更快、更好在中国大地成为燎原之势。

大众创新、创业的趋势，也可以在美国社会的发展过程中观察到。根据美国科学基金会（NSF）的数据，1981年，大公司（超过25000人）的研发投入占全美研发投入的70%，可谓主导了美国的创新；到2007年，大公司的研发投入仍然在上升，但格局却发生了改变，虽然绝对数量增长了4倍，其占全美研发投入的比例却下降到35%。同期，1000人以下小公司的研发投入增长了50倍，其占全美的比例从1981年的4%上升到2007年的24%。这些数据表明，研发和创新在呈现分散化、在向小公司和个人转移，其中最根本的原因，就是知识、信息，特别是数据资源的深度开放，不再受大公司、大组织的垄断，不再是精英阶层的专利。

文化靠沉淀，文明靠创新。创新，才是一个国家持续发展、不断迈向强大的真正动力。今天的中国，创新已经成为共识。就此而言，数据强国我们正在路上。
数据分析, 数据挖掘

原文发布于宽客论坛，点击阅读原文

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！