白癜风知名专家 http://hunan.ifeng.com/a/20170705/5797804_0.shtml客观的世界只有一个,而描述这个世界的棱面却有无数个,如果只在一个或某几个棱面采集数据,就如同在降维的世界里,来刻画高维世界,即使收集的数据再多,也是残缺的,更可怕的是,数据越多,分歧也可能越多,因为每一个不同的观点,都能从事实的一个棱面,找到很多相应的数据来支持,然后彼此否定,如果是这样,那么在一定程度上,这比没有数据还要糟糕,这或许就是数据的黑暗陷阱之一。
●大数据的数理哲学基础
当下的世界,无不在快速地数据化,细节和事实都被广泛地记录下来。通过“数据排放(dataemission)”,大数据系统可以记录下用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),还可以记录下传感器发出的(各种温度、湿度、速度、压力等传感器数据)。通过这些记录,消逝的世界,得以重新再现,从而进行规律挖掘和预测分析。以至于大数据时代有个动听的口号:记录一切数据,等待有趣的事发生。
于是,就有人说,大数据时代具有颠覆性,就是因为,目前一切事物的属性和规律,只要通过适当的编码(即数字介质),都可以传递到另外一个同构的事物上,得以“无损”全息表达。在这种意义上,有人就认为,大数据与世界本身是对等的,或者说是同构的(如图1所示)。大数据正是通过“量化一切”而实现整个世界的数据化,这很可能改变人们认知和理解世界的方式,即带来全新的大数据世界观——研究大数据,认知全世界!
图1大数据的数理哲学基础——同构关系
毋庸置疑,大数据是一种宝贵的资源,也是一种强有力的工具。但就目前而言,说大数据是世界的同构映射,恐怕更多的仅仅是一种理想主义。大数据告知人们信息,却不解释信息。大数据引导人们去理解,但倘若使用不当,却会带来误解。大数据有其光辉的一面,但必须避免被它的光芒眩晕了双眼,我们也要利用余眸,留意大数据的黑暗陷阱。
●柏拉图的“洞穴之喻”与刘慈欣的“降维攻击”
古希腊哲学大家柏拉图在《理想国》第七篇中,讲了一个著名的比喻,即“洞穴之喻(AllegoryoftheCave)”:
设想有一个很深的洞穴,洞里有一些囚徒,他们生来就被锁链束缚在洞穴之中,他们背向洞口,头不能转动,眼睛只能看着洞壁。
在他们后面砌有一道矮墙,墙和洞口之间燃烧着一堆火,一些人举着各种器物沿着墙往来走动,如同木偶戏的屏风,当人们扛着各种器具走过墙后的小道,火光便把那些器物的影像投射到面前的洞壁上。由于这些影像是洞中囚徒们唯一能见的事物,他们即以为这些影像就是这个世界最真实的事物(如图2所示)。
图2柏拉图的洞穴之喻
柏拉图利用这个比喻,在启发世人,我们可见的世界,可能仅仅是被火光投射洞穴墙壁上的影像而已(自然,这个影像是失真的),而这些洞穴的居民,却把它当做是真实的世界。而真实的世界是在洞穴之外,是有太阳的地方。
在很多场景下,受到现有测量和认知工具的局限,我们只能感知到某个事实的一个或几个侧面,就如同柏拉图所言的洞穴人,受限于链锁,只能向到前面的洞穴壁,于是,就会误把其所能感知到的投影于洞壁的影像(二维世界),当作真实的世界(三维世界)。
如果将洞壁的影像,进行数据化处理,哪怕技术再先进,收集的数据再多,都难以让洞穴人感知到一个真实的世界,因为他们看到的世界,被“降维处理”了。
无独有偶。刘慈欣先生在其科幻名著《三体》中,也描绘了一个恢弘壮丽的“降维攻击”:“歌者”文明在途经太阳系旁的星际空间时,随手抛下了一张“二向箔”,包括地球在内的整个银河系的三维空间,瞬间就汹涌澎湃地流入二向箔,三维结构被碾压在二维平面之上。
降维为什么能形成攻击,很大程度上,降维就意味着降低了对世界文明的理解力!升维则相反。
一个正面的有趣的案例就是,在机器学习领域,有个非常有效的分类方法——支持向量机(SupportVectorMachine,SVM)。它最喜人的地方莫过于,对于低维空间的线性不可分样本,通过映射算法,可转化为高维特征空间,从而豁然开朗,使得线性不分类问题,变得线性可分。简单来说,SVM之所以好用,是因为它提供了一个“升维”的世界。
这里我们想说,没有足够的维度,看到的世界,就是“伪”世界。没有足够的棱面,看到的事实,就是“伪”事实!
其实这些并不是最可怕的,可怕的是它可能造就一个非良局面,拥有片面数据,然后固执己见,形成彼此否定的黑暗僵局。
但数据越多就越接近真相吗?
请期待
《数据的黑暗陷阱是什么?——
由柏拉图“洞穴之喻”想到的(上)》
作者简介:
张玉宏博士,年毕业于电子科技大学现执教于河南工业大学。中国计算机协会CCF会员ACM/IEEE会员,埃文科技高级技术顾问。主要研究方向为高性能计算、生物信息学主编有《Java从入门到精通》一书。