大数据处理是干什么的

大数据处理是干什么的 大数据是干什么的?

大数据是干什么的?

大数据是干什么的?

很高兴能够和你一起讨论大数据是干什么的。

这些年以来,我们已经通过各种渠道听说过大数据;大数据出现的频率极高,给大家提供便利的生活支撑,也受到大家极高的关注。现在而今眼目下,好像开口闭口不提一下大数据,都觉得自己Low了的感觉。那我们就来了解一下什么叫大数据,了解大数据的特性,以及存在的危险。

大数据的定义

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。现阶段我们能够接触到的所有信息,都是大数据中的一分部。大数据具有5V特点:Volume(大量)、Velocity(时效)、Variety(多样)、Value(低价值密度)、Veracity(真实性)五个特点。

一、Volume(大量)

大数据有多大呢。就以我们日常接触传统数据来进行恒量吧。

一个中文汉字2个字节,即2byte。

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

简单的工式可能阻碍你的理解,那我们以一下常用数据来帮助你理解。

1、500G 普通笔记本电脑硬盘容量;

2、1TB 普通移动硬盘容量;

3、1ZB其中据相关资料显示,2011年,全球被创建和复制的数据总量为1.8ZB;据预估:到今年年底(2020),全球大数据计算中心存储的数据可达到35ZB。

二、Velocity(时效)

大数据具有一定的时效性。

每一条数据,都是具有一定的时效性的。例如:几个月以前全球的新冠肺炎疫情累积确诊数量为0;截止目前为止,全球已经有超过300万人确诊感染新冠肺炎。每日今日头条呈现的新闻排行榜,也是不停地在变化。每一条数据的产生,到使用,到消亡,所经历的时间越来越短;热搜的排行十几分钟更新一次,实际上,信息的变化更快,快到超出我们的想像。

引用一句话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……

以我们防控新冠肺炎中比较出采的健康码为例:

我们每个人在支付宝上传了我们的相关信息,支付宝根据我们的位置信息、通信信息、健康信息等等给我们及时更新健康码颜色。如果不具有时效性,那么这个健康码就毫无用处。

三、Variety(多样)

大数据的数据来源是多样化的,任何在网上能接触到的信息,或者能搜集到的信息,都会成为大数据的基本信息资料。

每个人的基础信息,包括姓名,年龄,性别,身份证号,电话号码,你日常通过社交软件搜索的内容等等;

每个地图的信息,经度,纬度,路由,你日常通过导航软件展现出来的信息;

音乐,视频,文章,图片,你每天在网上浏览的海量数据都是大数据。

……

以上的所有所有,也就是我们人类能接触到的所有信息,都纳入大数据需要存储的范畴。

四、Value(低价值密度)

大数据的信息量太多,但是真正有效的,有价值的信息确相当有限。比如,某房产中介商获取了一百万人所有身份信息,但是,对他们有效的信息,只限定在该城市中,有购买能力,有购买需求的潜在对象;而其他所有的信息对于该中介来说,毫无用处。

对于所有的企业来说,能够从低价值密度中获得对他有效的信息,再对该信息进行精准处理,则相当重要。在这个年代,谁能最快速有效地获取大数据,提取大数据,处理大数据,再变成商业资源,那他就能成为大数据时代的王者。

五、Veracity(真实性)

大数据的基础信息是真实的,就看每个企业能否在这海量的真实的基础信息中,获取最有效的资源。

大数据的挑战:

当大数据与云计算结合起来之后,大数据就大大向前迈出了一步,大数据给大家的生活带来便利;在这一大跨步当中,安全永远是无法避免的话题。

想一想,很多购物软件的杀熟,新注册人员能看到价格和老用户不一致,这是不是可怕?

想一想,如果并非因为疫情原因,有人随便一查就能知道你的位置信息,通信信息,和哪些人接触过,是不是可怕?

想一想,你现在手机中的很多APP一直在忽悠你打开的权限,是不是可怕?

当你我在享受大数据的快感的时候,有没有发现自己也是穿着皇帝的新装徜徉在大数据的海洋中。

在此呼吁相关企业在提取大数据的时候,需要考虑是否符合法律和伦理;国家也需要尽快出台相关的法律,保护大家的安全。