对数据的认识

发布网友 发布时间:2022-04-20 22:39

我来回答

4个回答

热心网友 时间:2022-05-12 23:31

这些年大数据成了香饽饽,每个人都在谈论大数据,但是他们真的懂大数据么?我觉得并不是。 

很多人看来,大数据其实就数据量级很大,毕竟名字就是这么起的。但,大数据真的只是这样吗?

如果要说大数据的话,就不得不提出IBM公司的5V理论:Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值)以及Veracity(真实性)。

1、Volume(大量)

这个特点也是被人们所熟知的,现在是大数据时代,每天产生的数据都是极其恐怖的,之前的MB,GB已经远远不足以描述当下的数据量,甚至只能使用ZB这种超大的数据单位来进行描述了。而处理大数据,相应的也必须使用分布式运算才可以实现。 

2、Velocity(高速)

海量数据需要足够的储存空间,但处理速度也必须要很快,不然用户的使用体验将会极大受到打击,很难想象百度搜索在用户搜索关键词之后,1分钟才出现结果。如果大数据处理速度不快,这个事情还真会是个现实,甚至有过之而无不及。 

3、Variety(多样性)

所谓的大数据,并不是我们传统的结构化数据,更应该说,大数据的爆炸增长,其实是来源于非传统的非结构化数据,也就是音频、视频、图片、地理位置等。这些数据区别于传统的二维结构,对数据处理的要求更高,也是大数据时代急需解决的问题。

4、Value(价值)

海量的数据是不是就代表着海量的价值,并不如此。相反,数据价值密度在大数据时代反而变得更低,用大浪淘沙来形容并不为过。那该如何进行高效的价值挖掘呢?这就需要使用当下的机器算法来解决了,譬如特征提取,聚类算法,分类,譬如自动识别人脸,对人来说很简单的事,对机器却很复杂。 

5、Veracity(真实性)

上面四点,个人认为还不是最重要的,最重要的应该是真实性,也就是数据的质量。质量的好坏,直接保证了最终大数据输出的截止是否真实可靠。很多人会觉得大数据就一定会是真实的,并不如此,拿广告领域而言,作弊流量现象随处可见。因此,大数据一定会是真实的,并不如此。

热心网友 时间:2022-05-13 00:49

 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。 研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。

热心网友 时间:2022-05-13 02:24

大数据有两个发展方向。一个是方向大家比较熟悉的“数据收集、分析”,借此了解客户需求、明确产品方向等等。我还在人工智能、机器学习等领域做了一些研究,思考怎样把这些先进的技术和数据技术综合在一起,让大数据不仅能帮人做决策,而且能够真正自己做一些简单决策,让人有时间和精力去做更复杂的决定。另外一个方向是“数据即服务”。亚马逊的AWS云计算是“基础设施即服务”,Salesforce是“软件即服务”。Splunk是做大数据的管理平台,我想如果能把这个平台做得更进一步,也是一个很好的方向,把大数据变成“小数据”。大数据概念有3v,数据量很大(volume)、数据速度很快(velocity)、数据种类多(variety)。小数据就是说,点点滴滴的数据都很重要,比如人的心跳,虽然数据不大,但对健康很重要。大小数据的概念不重要,重要的是什么样的数据给我们带来最大的价值,怎么把这个价值体现出来。比如,本来房子是不会讲话的,但屋里的人知道它的温度是多少、气流怎么流。在这些东西数字化之前,我们只能走进屋内去亲自感觉,但数字化可以帮我们把各项情况呈现出来。从这个角度讲,数据的应用让我们看到了很多原来看不到的东西。

热心网友 时间:2022-05-13 04:15

 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com