欢迎来到学习窗!

咨询热线 4008888780

位置:广州学习窗 > 广州电脑 > 广州大数据、云计算

Hadoop与HDFS的特性和缺点

授课机构:广州达内教育IT培训

地址:广州天河区保利克洛维26楼达内

网报价格:¥电询

课程原价:¥电询

咨询热线:4008888780

课程详情 学校简介 学校地址 网上报名

关键词:达内UI设计培训班 达内IT培训 达内电脑培训招生

Hadoop与HDFS的特性和缺点


几年前,Hadoop曾被吹捧为数据仓库的替代品。本文将为大家提供作为分析平台的Hadoop/HDFS的特性和缺点的客观摘要,并将其与基于云的Snowflake数据仓库进行比较。


Hadoop:基于文件的分布式架构

由Doug Cutting在Yahoo!上首次开发。从2012年开始开源,Hadoop获得了巨大的吸引力,因为它可能替代昂贵的MPP设备上的分析工作负载(数据仓库应用程序)。


Hadoop分布式文件系统(HDFS)虽然在某种程度上类似于数据库,但它并不具有相应工作负载、读取一致性和并发管理系统的数据库。Hadoop与MPP数据库有许多相似之处,包括其多节点可伸缩性,对列数据格式的支持,SQL的使用以及基本的工作流管理,但这存在着许多差异:


不符合ACID:与Snowflake不同,Snowflake支持多个并发的读取一致的读取和更新,并且完全符合ACID的要求,HDFS只是写入不可变文件,不允许进行更新或更改。要更改文件(大部分情况下),你必须将其读入,并在应用更改后将其写出。这使HDFS更适合于非常大量的数据转换,但对于即席查询而言却是一个较差的解决方案。


HDFS适用于大型数据集:与Snowflake不同,Snowflake将数据存储在可变长度的微分区上,HDFS将数据分解为固定大小(通常为128Mb)的块,并在三个节点之间复制。对于小型数据文件(小于1GB)来说,这是一个糟糕的解决方案,在这种情况下,整个数据集通常保存在单个节点上。但Snowflake可以轻松处理微小的数据集和TB级数据。


HDFS不能弹性伸缩:尽管有可能(由于停机)向Hadoop集群添加其他节点,但是集群大小只能增加。相比之下,Snowflake可以在几毫秒内立即从X-Small扩展到4X-Large庞然大物,然后迅速缩小或什至完全暂停计算资源。


Hadoop非常复杂:也许Hadoop最大的单一缺点是部署、配置和维护的传奇成本。相比之下,Snowflake不需要部署硬件或安装和配置软件,统计信息将自动捕获,并由基于成本的复杂查询工具使用,并且DBA管理几乎为零。

咨询电话:400 8888 780


广州达内教育IT培训简介

达内教育,美国上市公司(NASDAQ:TEDU),全国最大的IT职业培训机构,专注IT职业教育18年,已帮助80万名学员成功就业。目前,已开设24大课程方向,在全国70多个城市建立了330家培训中心,线上线下都能学。 

  • 学校名称:广州达内教育IT培训

    固定电话:4008888780

    授课地址:广州天河区保利克洛维26楼达内 预约参观