Hadoop - 大数据概述


由于新技术,设备和社交网站等通信手段的出现,人类产生的数据量每年都在迅速增长。从一开始到2003年,我们生产的数据量为50亿千兆字节。如果您以磁盘形式堆叠数据,它可能会填满整个足球场。2011年每两天产生一次,2013年每十分钟产生一次。这一比率仍在大幅增加。尽管所有这些信息都是有意义的,并且在处理时可能有用,但它却被忽略了。

全球数据的90%是在过去几年中产生的。

什么是大数据?

大数据意味着真正的大数据,它是大数据集的集合,无法使用传统计算技术进行处理。大数据不仅仅是一个数据,它已经成为一个完整的主题,涉及各种工具,技术和框架。

大数据背后是什么?

大数据涉及不同设备和应用程序产生的数据。以下是大数据保护下的一些领域。

  • 黑匣子数据 :它是直升机,飞机和喷气机等的组成部分,它捕捉机组人员的声音,麦克风和耳机的录音以及飞机的性能信息。

  • 社交媒体数据 :社交媒体(如Facebook和Twitter)持有全球数百万人发布的信息和观点。

  • 证券交易所数据 :证券交易所数据持有关于客户所做的不同公司的“买入”和“卖出”决策的信息。

  • 电网数据 :电网数据保存特定节点相对于基站消耗的信息。

  • 运输数据 :运输数据包括车辆的型号,容量,距离和可用性。

  • 搜索引擎数据 :搜索引擎从不同数据库中检索大量数据。

大数据

因此,大数据包括大量,高速度和可扩展的各种数据。其中的数据将有三种类型。

  • 结构化数据 :关系数据。

  • 半结构化数据 :XML数据。

  • 非结构化数据 :Word,PDF,文本,媒体日志。

大数据的好处

大数据对于我们的生活以及它作为现代世界最重要的技术之一而言非常重要。关注仅仅是我们所有人都知道的一些好处:

  • 使用像Facebook这样的社交网络中存储的信息,营销机构正在了解他们的活动,促销活动和其他广告媒体的回应。

  • 利用社交媒体中的信息,如消费者的偏好和产品认知度,产品公司和零售机构正在计划他们的产品。

  • 使用有关病人既往病史的数据,医院正在提供更好更快的服务。

大数据技术

大数据技术对提供更准确的分析非常重要,这可能会导致更具体的决策,从而提高运营效率,降低成本并降低业务风险。

要利用大数据的强大功能,您需要一个可以实时管理和处理大量结构化和非结构化数据的基础架构,并且可以保护数据隐私和安全。

市场上有来自亚马逊,IBM,微软等不同厂商的各种技术来处理大数据。在研究处理大数据的技术时,我们考察了以下两类技术:

运营大数据

这包括像MongoDB这样的系统,它为实时交互式工作负载提供操作功能,主要捕获和存储数据。

NoSQL大数据系统旨在利用过去十年出现的新型云计算架构,以便能够以低成本和高效率运行大量计算。这使得运营大数据工作负载更容易管理,更便宜并且更快实施。

一些NoSQL系统可以基于实时数据,以最少的编码和无需数据科学家和其他基础设施的方式提供洞察模式和趋势。

分析性大数据

这包括大规模并行处理(MPP)数据库系统和MapReduce等系统,为可能接触大部分或全部数据的回顾分析和复杂分析提供分析功能。

MapReduce提供了一种分析数据的新方法,这种方法与SQL提供的功能是互补的,还有一个基于MapReduce的系统,可以从单个服务器扩展到数千个高端和低端机器。

这两类技术是互补的,经常部署在一起。

操作与分析系统

操作 分析
潜伏 1毫秒 - 100毫秒 1分钟 - 100分钟
并发 1000 - 100,000 1 - 10
访问模式 写和读
查询 可选择的 非选择性
数据范围 操作 回顾
最终用户 顾客 数据科学家
技术 NoSQL的 MapReduce,MPP数据库

大数据挑战

与大数据相关的主要挑战如下:

  • 捕获数据
  • 策展
  • 存储
  • 搜索
  • 分享
  • 转让
  • 分析
  • 介绍

为了应对上述挑战,组织通常需要企业服务器的帮助。