大数据如何存储

发布时间：2022-12-03 13:32:56 所属栏目：大数据来源：转载

导读： 对传统的单机文件系统来说，横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem)，你可以通过横跨上千甚至上万台机器来完成大量数据得存储，同时这些数据全部

对传统的单机文件系统来说，横跨不同机器几乎是不可能完成的任务。而通过HDFS(Hadoop Distributed FileSystem)，你可以通过横跨上千甚至上万台机器来完成大量数据得存储，同时这些数据全部都能归属在同一个文件系统之下。你可以通过引用一个文件路径获取存储在许多台机器上的数据文件。作为一个使用者，你完全不用去计较文件具体存储的位置，这个文件系统会为你搞定一切。

我们当然不是为了搜集数据而进行存储，我们还要用数据做一些事情。虽然我们通过HDFS存下了横跨上千台机器的数据，我们依然面临一个问题——这些数据过于庞大，如果只交给一台机器处理，我们可能得等上几周甚至更长。这些可能以T甚至于P来计量单位的数据大数据存储系统，只靠一台机器真的能跑到地老天荒。

大数据存储的三种方式_大数据存储公司_大数据存储系统

对于很多公司，这是无法接受的事情——我们都知道有各种热度排行，加入一台机器处理这个数据、计算热度、进行发布，可能一周之后出来结果，但大家早已经不关心了。

所以使用大量机器进行处理是必然的选择。在大量机器处理过程中，必须处理一些事务：任务分配、紧急情况处理、信息互通等等，这时候必须引入MapReduce / Tez / Spark 。这其中，前者可以成为计算引擎的第一代产品，后两者则是经过优化后的下一代。MapReduce采用了非常简单的计算模型设计，可以说只用了两个计算的处理过程，但是这个工具已经足够应付大部分的大数据工作了。

（编辑：天瑞地安资讯网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

区块链为大数据分析提	具备可视化的数据不仅
如何管理高度可扩大系	人工智能平台计划中的