亚博网站信誉有保障的

| English

大数据存储技术路线

发布时间:2021-03-31 13:18:12 浏览: 216次 来源:网络整理 作者:佚名

大数据功能(4V + 1O)

新的数据处理技术,产品和创新

为了应对数据处理的压力,在过去的十年中,数据处理技术领域进行了许多创新和发展。除了用于高并发和短交易的OLTP内存数据库(Altibase,Timesten)外,其他技术创新和产品都面向数据分析,它们是大规模数据分析,也可以说是大数据分析。

在这些面向数据分析的创新和产品中manbetx移动版 ,除了基于Hadoop环境的各种NoSQL外,还存在一种新型的数据库产品(可以称为NewSQL)智博体育 ,用于基于Shared Nothing架构的结构化数据分析。 ,例如:由Nanda GM在中国开发的Greenplum(被EMC收购),Vertica(被HP收购),Asterdata(被TD收购)以及GBase 8a MPP集群。目前,可以看到许多类似的开源和商业产品,并且新产品不断涌现。一个有趣的现象是,这些新数据库供应商中的大多数都还没有成立十年天博体育注册官网 ,而那些发展良好的供应商基本上已经被收购了。收购了这些新数据库供应商的公司,例如EMC和HP,都希望通过收购新技术和产品进入大数据处理市场,并且它们都是新的参与者。除了收购Sybase,SAP还单独开发了一种称为HANA的新产品,这是一种基于内存并面向数据分析的内存数据库产品。

这些新的分析数据库产品的主要共同点是:

该体系结构基于大规模分布式计算(MPP);硬件基于X86 PC服务器;存储基于服务器随附的本地硬盘;操作系统主要是Linux;它具有极高的横向扩展和固有的故障容错和数据高可用性保证机制;可以大大降低每TB数据的处理成本,并为“大数据”处理提供技术和经济高效的支持。

总的来说,数据处理技术已经进入了新的创新和发展高潮,机遇很多。主要原因是已经使用了30年的传统数据库技术遇到了技术瓶颈,市场和用户需求正在推动技术创新并为此创造了许多机会。面对大数据,越来越多的用户愿意尝试新技术和新产品,而他们并不那么保守,因为每个人都开始清楚地看到传统技术的瓶颈,而选择新技术可以解决新问题他们面对。

当前的总体趋势是,在数据量快速增长和多种类型的数据分析并存的压力下,数据处理技术正在向细分方向发展。在过去的30年中,平台满足所有应用程序需求的时代已经过去。我们必须开始根据应用程序需求和数据量选择最合适的产品和技术来支持该应用程序。世界数据处理市场正在发生革命性的变化。传统数据库(OldSQL)统治着世界,并成为一种情况,其中OldSQL + NewSQL + NoSQL +其他新技术(流,实时,内存等)共同支持多种类型的应用程序。在大数据时代,需要选择由数据驱动的最佳平台和产品。

MPP关系数据库和Hadoop非关系数据库

有三种典型的大数据存储技术路线:

第一种类型是使用MPP架构的新型数据库集群,其重点是行业大数据,使用Shared Nothing架构,使用列存储,粗粒度索引和其他大数据处理技术,并与MPP架构相结合以实现有效的分布式计算模式,以完成对分析应用程序的支持。操作环境主要是低成本PC Server,具有高性能和高可伸缩性的特征。它已被广泛应用于企业分析应用领域。

此类MPP产品可以有效地支持PB级结构化数据分析,而这是传统数据库技术所无法实现的。对于新一代企业数据仓库和结构化数据分析,目前最好的选择是MPP数据库。

MPP体系结构图

第二种类型是基于Hadoop的技术扩展和打包。相关的大数据技术源自Hadoop,用于处理传统关系数据库难以处理的数据和场景,例如非结构化数据的存储和计算。充分利用开源Hadoop的优势,随着相关技术的不断发展,其应用场景将逐步扩大。当前最典型的应用场景是扩展和打包Hadoop,以实现对Internet大数据存储和分析的支持。 NoSQL技术有数十种,正在进一步细分。对于非结构化和半结构化数据处理,复杂的ETL流程大数据存储技术,复杂的数据挖掘和计算模型,Hadoop平台更胜一筹。

第三种类型是大数据多合一,它是为大数据分析和处理而设计的软件和硬件的组合。它由一组集成服务器,存储设备,操作系统,数据库管理系统组成,并且由专门预先安装和优化的软件组成,用于数据查询,处理和分析。高性能大数据一体机具有良好的稳定性和垂直可扩展性。

数据仓库的重要性

在Internet迅速发展之前,电信运营商,大型银行,保险公司等都花费大量资金来建立自己的企业级数据仓库。这些仓库主要是为了为企业的决策者生成企业的一些关键指标(KPI)。一些企业拥有成千上万的KPI报告,包括每日,每周,每月等。这些系统具有几个主要特征:

技术体系结构主要基于传统的RDBMS +小型计算机+高端阵列(每个人都称为IOE),当然,还有一些DB2,Teradata等数据库。

报告基本上是固定的静态报告,生成方法为T + 1(无法立即生成)。

数据量增长相对缓慢,而DW的环境变化不大。

最终用户只能查看摘要报告,很少可以基于摘要数据进行动态追溯。

大多数领导人基本上都认为已经花了很多钱,但是他们看不出这是否值得。最后,每个人都对大量报告视而不见。

这种类型的系统属于“高,富,英俊”,并且被富裕的公司用作领导者。

最后,大多数公司和部门目前根本没有数据仓库。实际上,对传统数据的分析还没有很好地进行,还没有得到普及,现在已经遇到了大数据。

数据仓库对于企业来说确实有用,关键是如何充分利用数据。

数据处理技术的核心问题是什么?

事实上,我们一直面临着数据处理中的核心和最大问题,那就是性能问题。性能不佳的技术和产品没有生命力。大数据不会引起数据处理性能问题,大数据技术也不会解决这些问题。处理性能的提高将促进数据价值的挖掘和利用,数据价值挖掘越深入,对处理技术的要求就越高。

当前数据仓库只能满足某些静态统计要求,并且处于T + 1模式;同样由于性能问题,运营商无法有效地构建超出PB级的大型数据仓库,也无法提供及时的查询,自助服务分析和复杂的模型。迭代分析的能力不允许大量的前线人员使用数据分析方法。

如今,如果您构建“大数据”数据仓库,则运营商面临的挑战将比过去10年要大得多。当前,没有任何一种技术和平台可以满足类似运营商的数据分析需求。替代解决方案只能是mashup架构,使用不同的分布式技术来支持PB级别以外的数据仓库系统。这种mashup体系结构的主要核心是新一代的MPP并行数据库集群+ Hadoop集群,以及一些内存计算甚至流计算技术。

大数据需要多种技术来支持它。当前,企业面临的数据处理挑战变得越来越严重,主要是由于以下原因:

第一个原因是数据量已经是上一代的一个数量级,而且省级运营商可以在一年内超过1PB的结构化数据。

第二个原因是“大数据”更多地关注用户行为,群体趋势以及事件之间的相关性,而不仅仅是过去的KPI。这就对数据分析功能和数据分析平台的性能提出了新的要求和挑战。

未来大数据处理的核心技术

摘要-新的MPP数据库的值

技术:基于列存储+ MPP架构的新数据库的核心技术与传统数据库有很大不同。它是为结构化数据分析而设计和开发的,可以有效地处理PB级数据。从技术上讲大数据存储技术,它解决了许多行业用户的数据处理性能问题。

用户价值:新的数据库在x-86 PC服务器上运行,可以大大降低数据处理成本(1个数量级)。

未来趋势:新数据库将逐步与Hadoop生态系统结合以进行混合和匹配,使用MPP处理PB级,高质量的结构化数据,同时为应用程序提供丰富的SQL和事务支持功能;使用Hadoop来实现半结构化,非结构化数据处理。这样可以同时满足结构化,半结构化和非结构化数据的处理要求。

下图是NTU General正在做的大数据处理平台架构图。它将逐步整合MPP和Hadoop技术,为用户提供一个透明的数据管理平台。

MPP与Hadoop技术集成的产品架构图

参考:#三种最典型的大数据存储技术路线