加入收藏 | 设为首页 | 会员中心 | 我要投稿 天瑞地安资讯网 (https://www.52baoding.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据如何存储

发布时间:2022-12-03 13:32:56 所属栏目:大数据 来源:转载
导读: 对传统的单机文件系统来说,横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem),你可以通过横跨上千甚至上万台机器来完成大量数据得存储,同时这些数据全部

对传统的单机文件系统来说,横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem),你可以通过横跨上千甚至上万台机器来完成大量数据得存储,同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者,你完全不用去计较文件具体存储的位置,这个文件系统会为你搞定一切。

我们当然不是为了搜集数据而进行存储,我们还要用数据做一些事情。虽然我们通过HDFS存下了横跨上千台机器的数据,我们依然面临一个问题——这些数据过于庞大,如果只交给一台机器处理,我们可能得等上几周甚至更长。这些可能以T甚至于P来计量单位的数据大数据存储系统,只靠一台机器真的能跑到地老天荒。

大数据存储的三种方式_大数据存储公司_大数据存储系统

对于很多公司,这是无法接受的事情——我们都知道有各种热度排行,加入一台机器处理这个数据、计算热度、进行发布,可能一周之后出来结果,但大家早已经不关心了。

所以使用大量机器进行处理是必然的选择。在大量机器处理过程中,必须处理一些事务:任务分配、紧急情况处理、信息互通等等,这时候必须引入MapReduce / Tez / Spark 。这其中,前者可以成为计算引擎的第一代产品,后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计,可以说只用了两个计算的处理过程,但是这个工具已经足够应付大部分的大数据工作了。

(编辑:天瑞地安资讯网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!