什么是大数据
  • 作者:山东众数信息科技有限公司
  • 发表时间:2020/7/30 13:38:25

背景:

“大数据 ”这个概念火了很久,但又很不容易说得清楚,那么我们先来说说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。

 

它其实是一个很宽泛的概念,涉及五个领域:

1.业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。

从1到5,越来越需要技术背景;从5到1,越来越贴近具体业务。

其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。

主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。

这里就从“大数据”开始说起。

 

什么是大数据?

“大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。

5千亿张,是不是很暴力了。

再来两个不暴力的:

“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”

这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。

而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:

一位气势汹汹的老爸冲进Target的一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。但非常打脸的是,这位父亲跟他女儿沟通后发现女儿真的怀孕了。

在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。

你看,单个的数据并没有价值,但越来越多的数据累加,量变会产生质的飞跃。

脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。

 

大数据,说白了,就是巨量数据集合。

大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。

具体来说就是:

1.数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。

不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。

2.数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。、

3.价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。

4.处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。

事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”

他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。

结语: 

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 [10]  阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。

不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。

随着社会未来向智能化的逐渐发展,大数据相关技术在一些传统领域的应用将越来越广泛。当然,现阶段大数据产业发展也存在着各种各样的状况。但是,大数据代表了未来发展的方向,这是当今社会的共识,大数据发展已经进入了最好的时代。