谈一下你对hadoop的理解(阿里p7大牛讲解用通俗易懂的话说hadoop是什么)

前言

大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。

Hadoop在分布式计算与存储上具有先天优势。它作为Apache软件基金会的顶级开源项目,其版本迭代持续至今,而且已经拥有一个非常活跃的社区和全球众多开发者,并且成为了当前非常流行的大数据处理平台。很多公司,特别是互联网公司,都纷纷开始使用或者已经使用Hadoop来做海量数据存储与数据挖掘。

hadoop是什么?
  • Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关) Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具Hive代替。
  • Hadoop就是一个分布式计算的解决方案.

谈一下你对hadoop的理解(阿里p7大牛讲解用通俗易懂的话说hadoop是什么)(1)

hadoop能做什么?

hadoop擅长日志分析, facebook就用Hive来进行日志分析, 2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的 自定义筛选也使用的Hive ;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn. 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo !的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。

谈一下你对hadoop的理解(阿里p7大牛讲解用通俗易懂的话说hadoop是什么)(2)

hadoop能为公司做什么?
  • 零数据基础,零数据平台,一切起点都是0
  • 日志处理
  • 用户细分特征建模
  • 个性化广告推荐
  • 智能仪器推荐
  • 一切以增加企业的商业价值为核心目的、最终目的
怎么用hadoop?

hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方案是hadoop R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能出一定成果的,所以选取了这个方向作为试点。

Hadoop的核心组件

分布式文件系统:HDFS

资源调度管理系统:YARN

负责整个集群资源的管理调度

YARN的处理能够只需要有hadoop的集群即可,不再需要把 Hive、Hbase 也安装集群,全部交由YARN做资源调度。

谈一下你对hadoop的理解(阿里p7大牛讲解用通俗易懂的话说hadoop是什么)(3)

分布式计算框架:MapReduce

海量数据离线处理

谈一下你对hadoop的理解(阿里p7大牛讲解用通俗易懂的话说hadoop是什么)(4)

如上面的三个词条的分析,分拆成三个给三个端处理,然后通过计算结果,再合并,做最后返回

Hadoop优势

Hadoop的可靠性:

  • 数据存储:文件多副本、文件拆分成多副本
  • 数据计算:重新调度作业计算

Hadoop的扩展性:

  • 存储/计算资源不够时:可以横向的线性扩展机器,提升资源
  • -个集群可以有上千的节点保证资源的可用。

Hadoop其他优势:

  • 存储可扩展在廉价机器
  • 成熟的生态圈( Hive , Spark , Hbase )什么的,火的不要不要。
,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页