AI 传奇第十一回 数据魔方

电脑报 2017-05-10

      数据科学像一支魔杖,指向之处就会出现神奇;数据像一只魔方,在数据科学家手里玩出绚烂多彩的万千花样。

AI 眼中历史与未来

      历史研究,一直是历史学家的专属花园。现在,AI 科学家闯了进来。英国布里斯托大学科学家内罗 · 克里斯蒂亚尼尼(Nello Cristianini)与历史学家合作,用 AI 的数据挖掘技术,从旧报纸堆发现了可能比历史书更准确的英国现代史。

      没有一位历史学家能够阅读跨越一个多世纪英国历史的数千万份报纸 , 而 AI 可以。它积累了 1800 年至 1950 年间的 3500 万份英国地区新闻报道数据(占该时期英国地区报刊总量的 14%),分析了 286 亿个词汇。不妨对比一下:成年人平均阅读速度大约为每分钟 300 字,按这样的速度,一个人如果一刻也不休息地昼夜连续阅读,需要 180 年来完成上述阅读;而 AI 用了大约 8 周。然后,它给出了自己独到的分析,让人们重新认识 19 世纪到 20 世纪上半叶 150 年的英国历史,发现了历史学家用传统方法不能找到的历史事件。

      例如,技术兴起这样的不太明显的历史进程,历史学家往往难以确定,AI 则可以肯定判断。电力什么时候超越了蒸汽?1898 年。因为在这一年,电在新闻中出现的频率开始超过蒸汽,电取代了蒸汽。又如,历史书都记载,火车时代开始于 19 世纪 40 年代,那时英国开始发展国家铁路系统。但 AI 从新闻报道数据中准确地进一步分析出,火车实际上要在半个多世纪后才变得比马车更重要。

      这是 AI 眼中的英国历史,数据分析穿透历史迷雾,在纷乱复杂的历史事件和记录中理清头绪,发现了历史学家难以发现的历史现象。

      数据科学不但能穿透历史看到过去,也能高屋建瓴,远望未来。我们在本专栏第一回看到的连续四次正确预测美国大选结果的 MogAI 智能系统,依靠的仍然是数据分析。而 2009 年 H1N1 甲型流感爆发前几周,Google 通过对人们网上搜索记录的分析,作出了比疾控中心更及时的疫情预测,准确性则与官方数据相差无几。这也是数据分析预测的结果。

      这些故事,还只是数据应用案例的九牛一毛。今天,数据技术广泛应用于大至政治、军事、经济、教育、科研、医疗、金融,小至企业市场销售、个人健康管理等一切领域。随着 AI 应用的深入,数据在一切领域都在扮演不可或缺的重要角色。

造就神奇的数据科学

      数据看起来平淡无奇。声音、图像、文本、数字……自然界和人类社会的一切信息,都可以看成数据。数据虽然无处不在,普通平凡,但是在 AI 时代,它已成为虚拟世界的基础和中心。曾经的经典说法是,真实世界(物质世界)的基础是原子,虚拟世界(数字世界)的基础是比特(bit, 位)。而今天,可以更精确地说,虚拟世界的基础是数据,bit 和 byte(字节),不过是数据的计量单位。虚拟世界是数字世界,更是数据世界。

      数据其实一直就存在,造就神奇的,是数据科学,有了数据科学,数据就变得不平凡。

      数据科学(Data Science)  是一门年轻但发展非常迅猛的学科。数据、数据库、数据分析、数据处理这些概念很早就出现了,但直到 1996 年,在国际分类协会联盟(IFCS)在日本神户举行的双年会上,数据科学这个术语才首次出现在会议文件的标题中。这一年,被看作是数据科学诞生之年。之后,在统计等学科领域里从事数据工作的人开始被改称为数据科学家,数据科学快速发展。

      简单说,数据科学是研究从数据中获取知识的科学理论和方法,目标是从数据中提取出有价值的信息。数据科学是融合统计学、机器学习、高性能计算、数据挖掘、数据仓库、数据可视化等多领域中理论和技术的一门 AI 新兴学科。数据库大师、1998 年图灵奖得主吉姆 · 格雷(Jim Gray)把数据喻为科学的 " 第四范式 ",与经验、理论、计算相提并论,断言未来任何领域的科学问题都将由数据驱动解决。他 2007 年意外海难逝世,但对数据和数据科学重要性的预言,在今天正在变为现实。

      虽然数据如此重要,也一直得到广泛应用,但数据和数据科学成为公众关注热点,还是要等到 2011 年——在这一年,大数据(Big Data)热潮掀起。5 月,权威咨询公司麦肯锡全球研究院发表了一份重要报告《大数据:创新、竞争力和生产力的下一个新领域》。这是专业机构第一次全面介绍和展望大数据。报告指出,大数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。

      紧接着,在 2012 年 1 月的达沃斯论坛上,大数据成了主题之一。会上发布的报告《大数据,大影响》 ( Big Data, Big Impact ) 宣称,数据已经成为一种新的经济资产,就像货币或黄金一样。

      同年 3 月,奥巴马政府发布了《大数据研究和发展倡议》,标志着大数据已经具有重要的时代特征。奥巴马政府还将数据定义为   " 未来的新石油 ",甚至还把对数据的占有和控制,提升到国家数字主权的高度。

      数据热潮的掀起,有一个深刻的背景,那就是,人类社会的数据积累量,已经达到非常惊人的程度,大规模和深度的数据应用,已经成为必需和可能。

$pager$

来自大数据的挑战

      随着互联网、移动互联网、物联网的发展,天罗地网般遍布世界每个角落的信息设备如电脑、手机、传感器、照相机、摄像头、麦克风、射频识别(RFID)读取器、汽车电子设备等等,每时每刻都在产生几乎是无穷无尽的数据,到 2012 年,全球每天会产生 2.5EB(B,Byte,即字节)数据。

      EB 是多少?这先要先温习和扩展一下数据计量单位的知识。我们熟悉的 M、G 甚至 T,已远远不能描述数据的爆炸性增长,更大的计量单位开始使用。数据计量单位代表的数量,从 Byte(字节)开始,从小到大依次增加大约 1000 倍:Byte、KB(103)、MB(106)、GB(109)、TB(1012)、PB(1015)、EB(1018)、ZB(1021)、YB(1024)。YB 之后还有 DB、NB、CB。

      2016 年全球数据总量为 10ZB,能想象 10ZB 数据有多大吗?100 亿块 1TB 硬盘!现在,全球数据仍然在以每年 40%、两年翻一番的速度增长,预计到 2025 年,全球数据超过 160   ZB,之后,就要向 YB 迈进了。

      数据浩如烟海,只是大数据的特征之一,全面的特征要用   4V 来描述—— Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据是人类社会无尽的财富,同时又对数据科学提出无穷的挑战。

      从各种数据采集器汹涌而来的数据,首先要经过预处理,将非结构化数据转化为机器能处理的结构化数据,为数据建模作最重要的准备。所谓数据的结构化,就是要对数据标注出特征属性。比如对语音,需要将声音波形转化为说话内容、说话人性别、年龄、情绪、周围噪声环境等属性信息。对图像,需要转化为人脸五官位置、年龄、情绪等属性信息。对文本,需要将文字做自然语言理解处理,标注出名词、主语、分词等属性信息。这样对数据进行结构化预处理、标注出信息属性的工作,叫数据标注,是数据处理的一项重要的基础性工作。

      数据标注是一项繁重的工作,以前完全靠人工进行,现在开始用机器辅助人工进行。像国外的 " 亚马逊土耳其机器人 " 和国内的 " 魔方众标乐 ",便是能够帮助人工进行数据结构化处理的高效众包处理平台。前者长于图像数据标注,后者长于语音数据标注。

      大数据技术有一个重要的思路与目标,那就是不进行数据抽样,而是进行全数据处理。这样,对数据结构化工作提出了更高的要求,自动化数据预处理将是打开数据处理效率瓶颈的钥匙,使数据质量的提升和数据处理的速度最终能够跟上 AI 发展的步伐。而一旦数据标注效率的瓶颈打开,手握优质结构化数据的数据科学家,就会用各种各样精巧的模型和算法,进行数据挖掘和分析,创造出奇迹。

异军突起的数据可视化

      数据可视化,是数据科学创造的神奇之一,近些年来,数据可视化异军突起,受到高度关注。

      数据可视化(Data Visualization)使人们不再面对枯燥的数据,而是以直观的、交互式的甚至有美感的方式,从不同的维度看到数据及其结构关系,这样,极大的提升了数据应用的价值。电子地图,是数据可视化的一个典型例子。数据库里的地理信息数据,通过可视化技术,在我们面前呈现出一幅直观生动的地图。而且,随着数据不断增多和更新,电子地图的功能也不断丰富,成为我们重要的生活助手。

      数据可视化正在高速发展。城市数据可视化、科学可视化、可视化人机交互、可视化分析、高维数据可视化、数据叙事等应用领域不断开拓。数据可视化还与 AR/VR 结合,增强数据的表现力和影响力。

《卫报》发布的伊拉克战争中伤亡人数图

     数据可视化,常常能达到出人意料的效果。2010 年 10 月,英国《卫报》发布了《维基百科伊拉克战争日志:每一次死亡地图》的可视化数据新闻。用来自维基解密的数据和谷歌地图的免费软件 Googlefushion,制作出一幅点图,将伊拉克战争中所有人员伤亡情况标注于地图之上。地图上的每一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。学者评价是," 新闻工作者富于人性的思索,通过精准的数据和适当的技术传播出来 "。这一地图上遍布血淋林红点的可视化数据新闻,不仅让《卫报》一鸣惊人,也因为直观和交互性地揭示出战争的残酷与血腥,极大震撼和影响了英国公众,一定程度上推动了英国最终作出从伊拉克撤军的决定。

      数据的魔力正在重塑世界,但硬币的另一面也显露出来。数据安全事件频发,数据泄露往往造成严重恶果,已经成为社会一大公害。解决这一难题,掌握数据的政府、企业等机构要负起责任,从法律和管理上发力。我们公众,则要提高数据安全意识。数据科学家和数据工程师,则要从技术上贡献智慧。全社会一起努力,才能构筑起坚强的数据安全保护屏障。

      数据魔方在高速转动,数据洪流滚滚而来,数据弄潮儿应站立潮头。 

相关标签: 科学 英国 伊拉克 卫报 机器人

电脑报
原网页已经由 ZAKER 转码排版 查看原文
最新评论
分享 返回顶部