加入收藏 | 设为首页 | 会员中心 | 我要投稿 天瑞地安资讯网 (https://www.52baoding.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据平台——数据存储

发布时间:2023-01-13 16:07:21 所属栏目:大数据 来源:网络
导读: 在早期广大大数据培训机构的共同努力下,但凡提大数据,必然离不开hadoop,hbase等等这些带有明显大数据特征的数据存储产品,但很多情况下,虽然公司耗费高昂的硬件费用部署了hadoop,其带来

在早期广大大数据培训机构的共同努力下,但凡提大数据,必然离不开hadoop,hbase等等这些带有明显大数据特征的数据存储产品,但很多情况下,虽然公司耗费高昂的硬件费用部署了hadoop,其带来的最终收益,达不到预期的效果。

究其原因,很多人包括很多公司,将大数据生态与大数据软件划了等号。

那么什么是大数据生态呢?

大数据生态-----网络化数据社会与现实社会的有机融合、互动以及协调,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统(源自百度百科)。转为白话,就是以最终的应用服务为目标,以(大)数据为载体,充分利用相关技术,实现(大)数据价值的充分挖掘。

所以,大数据生态核心是数据处理,至于用什么软件,用什么架构,用什么技术,并不是核心,只要能实现TB/PB数据前提下,高效便捷的存储、计算、分析的目的,其他的who care(谁说的,融资、PPT美化压力下,领导care,老板care,想升职加薪就得care),“黑猫白猫大数据存储系统,能抓到老鼠就是好猫”。

所以大家就有可以针对不同的应用场景,选用不同的数据存储软件了。

一、hdfs。

这里为什么不提hadoop而提hdfs呢?是因为hdfs是“分布式”文件存储系统的典型代表,而hadoop经历这么多年的发展,很多hadoop的其他组件已经无法满足工作的需要了,所以一般我们只用hdfs作为大数据存储的基础,其他组件功能都用如spark、tez、kyline代替了。幸好,大数据生态圈的复杂性,也让我们有了更多的选择,可以进行自由组装搭配,只要在技术栈和成本上考虑好就行。

分布式文件存储系统最大的好处就是分布式,可以充分利用高性能存储硬盘,毕竟相较于内存,硬盘成本要低很多了。

不过也因为是文件存储的缘故,在对实时查询要求较高的场景下,性能是无法忍受的;更多适用于非实时场景下的计算、分析的数据的存储和管理。

大数据存储的三种方式_大数据存储系统_服务器数据存储用什么系统

原文链接:

二、NOSQL和SQL数据。

之所以将这两种数据存储放到一起,是因为他们都可以应用于实时的系统平台。

在大数据生态中,虽然大量数据存在于hdfs中,但也要考虑大数据横向平台的管理,这些系统和传统应用并没有什么区别,譬如元数据管理模块,主数据管理模块,数据质量规则管理模块,数据标准管理模块,数据标签管理模块、数据资产地图展示模块等等。这些模块非常重要,但是实现上却很传统,只是对大数据计算和分析的相关规则内容存储和管理的模块。自然也就不需要将相关数据存储到传输成本较高的文件存储系统中了。

服务器数据存储用什么系统_大数据存储系统_大数据存储的三种方式

(编辑:天瑞地安资讯网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!