在比特记忆成为洪流的当下,如何不致沦为“富内斯1”?由中国计算机学会(CCF)于2016年9月24日主办的第四届“大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”告诉你,如何成为比特记忆洪流中的“养蜂人”,推动“蜂群共舞”,挖掘大数据的内外部价值。
比特的记忆,每一个企业和个人都可能沦为“富内斯”
意大利作家翁贝托·艾柯将部落老人篝火旁的娓娓道来称为肉身的记忆,石洞壁上的楔形文字和哥特教堂矗立的尖顶称为矿石的记忆,散发出最浓郁的知识芬芳、铭刻着隽永历史的纸张上的文字称作植物的记忆。那么在大数据时代,由无数字节流组成的记忆就应该称为“比特的记忆”。
现在的互联网越来越像博尔赫斯笔下博闻强记的“富内斯”,他感知一切、记忆一切,不过滤任何事物、不忘掉任何细节:
我们一眼望去,可以看到放在桌子上的三个酒杯;富内斯却能看到一株葡萄藤所有的枝条、一串串的果实和每一颗葡萄。他记得1882年4月30日黎明时南面朝霞的形状⋯⋯。那些并不是单纯的回忆;每一个视觉形象都和肌肉、冷暖等等的感觉有联系。他能够再现所有的梦境。他曾经两三次再现一整天的情况⋯⋯。他对我说:我一个人的回忆抵得上开天辟地以来所有人的回忆的总和。⋯⋯
但是,记忆一切也就意味着不辨别任何事物。我们甚至要怀疑富内斯连思考的能力都没有。思维是忘却差异,是归纳,是抽象化。在富内斯满坑满谷、超负荷的世界里,有的只是伸手可及、几乎微小到瞬间的各种细节。毫无疑问,富内斯的记忆中蕴藏着巨大的宝藏,但他却无力挖掘。
物物互联、人机互动、人际社交、科学研究让数据洪流越来越汹涌,在它面前,每个企业和个人都有沦为“富内斯”的可能。所谓数据时代的难民,人人手握一座博尔赫斯的“图书馆”2,却找不到柏拉图笔下的洞穴出口,迷失在“比特的记忆”中。14世纪英国的奥卡姆如果复活的话,恐怕又要奋力挥舞他的“剃刀”了吧?
机器人很难“叛乱”,挖掘比特记忆还需要“蜂群共舞”
人类作为承载着基因和模因的机器人,已经从基因的统治中叛乱成功。面对人工智能的威胁,人类又开始担心自己“被判乱”,大数据无疑加速了这个进程。但最乐观的科学家认为,即将到来的人工智能更可能“像亚马逊的网络服务——廉价、可靠、工业级的数字智能在一切事物背后运行,除了闪现在你眼前的短暂时刻,它近乎无影无形。这种常见的设施会根据你的需求提供你想要的智能水平。3”人工智能的进步往往把人带往更高价值的事情上去。我们不用怕失去流水线上拧紧螺丝钉的工作,不再致力于成为严谨的数据采集员,数字时代的新志向是成为挥舞数据的人——做只有人类才能从事的工作。
大数据人才就像蜜蜂。中国工程院院士李国杰对大数据有一个非常形象的比喻——蜜蜂模型。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献。同样,在重视大数据本身价值的同时,也要充分挖掘其“外部性”价值。
众创作为问题的众筹模式,在大数据创新中扮演着越来越重要的作用。成立于2010年的Kaggle是一个进行数据发掘和预测竞赛的在线平台,聚集了8.5万名数据科学家。万事达、辉瑞制药公司、好事达保险公司、通用电气、脸书、医疗技术公司Practice Fusion,甚至美国国家航空和宇宙航行局(NASA)都曾经在Kaggle平台上发起过竞赛,并且都取得了不错的成果。
因此,挖掘大数据的“比特记忆”需要的是蜂群共舞,不是单个人或单个团队的力量。
大数据发展步入新阶段,中国应用实践能力一马当先
2015年我国政府连续出台了《促进大数据发展行动纲要》等多个推动大数据发展的政策,推动大数据走向实处,并在国民经济和社会发展“十三五”规划中提出“实施国家大数据战略。把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。”
在大数据与计算智能大赛启动会的间歇,笔者有幸采访了与会的大数据专家、企业领袖,大家对大数据整体发展非常乐观,普遍认为目前国内外大数据已经过了初级阶段,现在已经进入特色发展阶段。在CCF大数据专家委员会秘书长程学旗看来,大数据已经超越概念炒作,越来越落地,在智慧城市、金融、科研、自动驾驶等领域的应用都有新的突破。
李国杰院士指出,我国以“BAT”为代表的互联网公司已具有与国际大公司竞争的经济实力和技术基础,在发展大数据技术上有可能改变过去30年受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。精硕科技(AdMaster)技术副总裁卢亿雷援引大数据技术知名开源社区的贡献度情况,提出中国受益于数据量大、应用场景多,在大数据技术实践、应用能力上已经比国外强很多。
BDCI特色鲜明,有望成为大数据时代的“养蜂人”
如果说Kaggle是致力于挖掘出色的数据科学家,做他们的“经纪人”,那么大数据与计算智能大赛背靠的学术、教育资源使他更像一个“养蜂人”,覆盖了全国近百所高校,吸引超过6000支队伍参赛。不设门槛,任何人都能够得到历练,大赛的目的也不仅仅是解决赛题中的少数问题,更多的是为“蜜蜂”提供“传粉”平台,发挥大数据的“外部性”价值,这也正是中国当下最缺少的。
企业积极参与,11道赛题各具特色,涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、基于位置的服务(LBS)营销、气候预测等多个热门方向,将为图像处理、自然语言处理、无人驾驶等领域提供大量来自真实场景的问题与数据。如中国联通研究院的“依据用户轨迹的商户精准营销”这一赛题,提供了3万个用户的上网详单记录,包括上网行为和通话话单以及1万个商户的位置数据、活动行为数据。同时为参赛选手提供了专门平台的支持,可以使用5种内置的数据加工能力和5种基于工具的建模能力及可视化工具。另外还提供了10人左右的博士、硕士工作团队,给参赛者提供数据、平台能力解读。
大数据与计算智能大赛基于过去三届的积累构建形成了完善的数据科学与大数据分析处理竞赛平台——DF(datafountain.cn)。DF不仅仅为大数据与计算智能大赛提供了便捷的竞赛条件,让所有参赛选手都可以通过DF快速获取数据、参与竞赛、提交作品,其更重要的使命是以“数据互联、大众创新”为宗旨,充分利用“众包”、“众筹、“众创”等新模式,汇集数据资源与行业需求,吸引全球的大数据创新创业人才及优秀的数据科学家共同应对科学发现、人工智能、商业智能、情报挖掘等各领域的重大挑战,挖掘有价值的大数据应用及商业模式,打造“大众创业、万众创新”的新空间。
期待这些大数据“小蜜蜂”在DF共舞,酿出更多蜂蜜、传播更多“大数据花粉”。也祝愿大数据与计算智能大赛成为全国乃至全球最出色的“养蜂人”。