何为大数据分析

人们对“大数据”有很多层理解。简单的说它就是数据:记录在计算机上、类型丰富的信息。但它又不是传统意义上的数据:人们需要用全新的工具、技术,比如类似Tableau的数据可视化程序,才能更好地收集、调用、分析这些信息资产。

今天人们意识到,大数据分析是众多新兴领域的“地基”:从数据采集技术到分布式存储;从云计算,到实时提供精准的商业建议;从物联网将数据打通,到人工智能“盘活”海量信息价值;大数据的发展令整计算机世界得到了升级:硬件、数据通信技术、网络协议、广告营销模式、甚至终端产品设计。

对于大数据分析的定义,最经典的要数由IBM提出,并被业内不断丰富的“5个V”——数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、准确(Veracity)。这些关键词,为这一技术塑造了立体鲜活的形象。

海量数据从哪来

说一千道一万,一切要从数据本身出发。那么,这些数据都来自何处呢?

依托便捷高速的互联网,尤其是移动互联网环境;加上无处不在的物联网设备(手机、路由器、摄像头、麦克风等),人们日常工作生活所留下的“痕迹”都变成了原始数据:其中非结构化数据包括邮件信息、在线文档、微信聊天记录、社交平台评论、视音频、图片等;结构化数据则包含公交、地铁乘车记录、公司打卡信息、网购消费记录等。这些被物联网设备完整收集的信息,最终形成了庞大的数据集。

数据分析工具

在进行数据分析时,Python、R这样的编程语言常常是人们的首选。以Python为例,它不仅是当今最受欢迎的编程语言之一,而且因为拥有丰富的类库,受到数据科学家的普遍青睐。其中Numpy和Pandas是进行大数据分析的“左膀右臂”:前者可以提供高级数学运算,后者则通过DataFrame功能,为使用者生成结构化数据,大大提高数据分析工作的效率。

由于大数据分析使用了分布式存储,因此与过去的单机数据库非常不同。近年来,包括Oracle、Microsoft SQL Server在内的传统数据库提供商不断升级产品,推出了适合大数据特征的解决方案。除此之外,基于分布式存储的特点,也有包括MongoDB在内的NoSQL数据库产品陆续出现。

在实际应用中,更多人会选择用户友好型的产品作为数据分析和可视化的工具。作为领先的数据分析工具,Tableau整合了底层编程语言和多种类型的数据库,并且将很多程序模块整合进菜单中,比如要在数据整理时去掉多余的空格或标点符号,只需在菜单中选择对应功能即可完成操作。加上图形化界面拖拽的操作方式,Tableau可以帮助用户快速挖掘数据价值。

批评者眼中的大数据分析

风光无限时,亦是危机四伏时。很多人质疑这种基于历史数据分析,预测未来结果的模式。尽管难以服众,但这个事实也恰好体现了大数据分析作为底层技术的定位:它不能完成所有事,但它是一切的基础。基于大数据分析的人工智能技术迅速发展。不论是Google的智能语音助手,还是MIT的图像识别项目,科学家通过人工智能算法从海量语音、照片中寻找规律,并且不断纠正预测的准确性,而非简单照搬过去的规律。

此外,大数据分析所涉及的隐私问题越发引起国际社会的关注。随着极为严格的GDPR法案正式在欧盟区实施,数据隐私话题也进入了新的阶段。由于社交网络的兴起和云计算广泛应用,用户个人信息被分散存储在大量服务器上。这是人类社会进入大数据时代所面临的最大问题。如何解决隐私问题,将影响到未来数据科学的发展走向。

您可能还有兴趣了解...