时空飞越千万倍 内存计算奇惊天
IDC发布《数字宇宙研究报告》称:2011年全球被创建和复制的数据总量将达到1 8ZB,与2010年同期相比,上涨超过1ZB。如果按照全球人口总数70亿换算,相当于人手一块容量为100GB的硬盘。报告预计到2015年,
如果从传统数据库中读取海量数据需要数十分钟的时间,那么从SAP HANA中读取同样的数据只需要不到一秒钟的时间。
电力信息化用户参考:内存计算技术的存储模式有哪些特点?
潘明惠:内存计算技术采取行存储和列存储的混合模式。传统关系型数据库是按照行的方式存储数据的,能够为交易系统即OLTP应用提供高效的支持。例如一个零售商每当客户购买产品时,需要在业务系统中创建一条数据记录销售的时间、地点、客户、金额、地址等字段数据,当前端完成数据的录入并提交后台系统后,在数据库中会在数据表中插入一行记录,这条记录中会包含本次销售业务操作相关的数据。然而,基于行存储的数据库在支持数据分析应用即OLAP应用时则显得低效和力不从心。 同样的例子,假设这家零售公司在传统数据库中保存了3亿条记录,并且需要基于这些销售记录分析单笔销售的平均金额,则需要首先读取所有这3亿条记录,并取出其中的销售金额这一个字段,然后再进行平均值计算。这意味着实际进行分析的数据(消费金额字段)只占总体数据的5%(假设每条数据20个字段)。显然这是非常低效的方式。而在基于列存储的机制中,这3亿条记录实际上是按照列进行存储,即总共只有20条记录(20个字段,每个字段一条记录)。在进行同样的分析时,只需要取出销售金额这一列的记录并计算平均值即可,与基于行存储的机制相比,在这个示例的应用场景下,数据处理的效率提高了50倍。
电力信息化用户参考:在近年,硬件服务器的处理器主频提升并不明显,但是单台服务器配置更多的CPU,并且每个CPU包含更多的内核。提升并行处理的能力,才能够在新的硬件发展趋势下保证系统的性能能够持续的提升。内存计算在这一点上有何建树?
潘明惠:SAP HANA支持多服务器、多处理器的高效并行处理,能够最高效、充分的利用多处理器的并发能力。能够拆解数据模型,分成可以并行执行的步骤,也能够将数据处理和运算拆分并部署到多个处理器。例如计算引擎可以将数据模型拆解,将一些SQL脚本拆分成可以并行执行的步骤。这些操作将递交给数据库优化器来决定最佳的访问行存储和列存储的方案。
除此外,SAP HANA的基本机制是将数据全部存储到内存中,以进行高效的数据访问和运算。虽然硬件包括内存的价格日趋低廉,但相比磁盘而言,内存仍是较贵的存储设备。而在企业系统中数据增长迅速,达到数TB甚至数十TB的情况下,将所有数据原封不动的导入内存仍将带来较大的硬件投资。为了帮助企业节省这一部分投资,SAP HANA中采取了基于智能数据字典等高效的数据压缩机制,能够将数据压缩5-20倍,从而充分节约硬件投资。
在SAP HANA中,将源数据导入内存后,在HANA中的虚拟建模,一个属性视图可以被看作为一个数据立方体,属性视图不存储任何数据,数据存储在列存储表中 ,系统只保存这些数据模型内表的构际关系以及数据的运算逻辑,当前端提交分析请求时,HANA会根据虚拟数据模型进行数据的计算并将结果提交给前段。这意味着HANA中不会存在冗余的数据,从而大大节约的硬件的投资和维护成本。
另外,虚拟模型可以进行灵活的创建、修改、删除,从而满足业务的需求变化,而无需担心对整体数据仓库数据结构的影响。在传统数据仓库中,通过ETL方式抽取数据并加载到数据模型中往往需要数小时甚至更长的时间,而在HANA的架构下,后端数据处理和加载的时间将大大缩短,从而减少IT部门运维系统投入的时间和精力,并为前端数据处理提供更长的时间窗口,减少数据不一致性发生的可能。
电力信息化用户参考:在数据库层面进行数据密集型运算,似乎也是内存计算所特有的优势?
潘明惠:是的。SAP HANA 除了提供完善的数据库功能外,其内置的计算引擎可以将原本在应用层进行的运算转移到数据库层面进行处理,这在数据密集型运算的场景,能够优化应用层和数据库层之间的数据交互,从而从整体上提升系统的效率。传统上,数据密集型运算包括计划、预测、模拟等,在HANA中首先将计划(Planning)
电力信息化用户参考:内存计算技术的存储模式有哪些特点?
潘明惠:内存计算技术采取行存储和列存储的混合模式。传统关系型数据库是按照行的方式存储数据的,能够为交易系统即OLTP应用提供高效的支持。例如一个零售商每当客户购买产品时,需要在业务系统中创建一条数据记录销售的时间、地点、客户、金额、地址等字段数据,当前端完成数据的录入并提交后台系统后,在数据库中会在数据表中插入一行记录,这条记录中会包含本次销售业务操作相关的数据。然而,基于行存储的数据库在支持数据分析应用即OLAP应用时则显得低效和力不从心。 同样的例子,假设这家零售公司在传统数据库中保存了3亿条记录,并且需要基于这些销售记录分析单笔销售的平均金额,则需要首先读取所有这3亿条记录,并取出其中的销售金额这一个字段,然后再进行平均值计算。这意味着实际进行分析的数据(消费金额字段)只占总体数据的5%(假设每条数据20个字段)。显然这是非常低效的方式。而在基于列存储的机制中,这3亿条记录实际上是按照列进行存储,即总共只有20条记录(20个字段,每个字段一条记录)。在进行同样的分析时,只需要取出销售金额这一列的记录并计算平均值即可,与基于行存储的机制相比,在这个示例的应用场景下,数据处理的效率提高了50倍。
电力信息化用户参考:在近年,硬件服务器的处理器主频提升并不明显,但是单台服务器配置更多的CPU,并且每个CPU包含更多的内核。提升并行处理的能力,才能够在新的硬件发展趋势下保证系统的性能能够持续的提升。内存计算在这一点上有何建树?
潘明惠:SAP HANA支持多服务器、多处理器的高效并行处理,能够最高效、充分的利用多处理器的并发能力。能够拆解数据模型,分成可以并行执行的步骤,也能够将数据处理和运算拆分并部署到多个处理器。例如计算引擎可以将数据模型拆解,将一些SQL脚本拆分成可以并行执行的步骤。这些操作将递交给数据库优化器来决定最佳的访问行存储和列存储的方案。
除此外,SAP HANA的基本机制是将数据全部存储到内存中,以进行高效的数据访问和运算。虽然硬件包括内存的价格日趋低廉,但相比磁盘而言,内存仍是较贵的存储设备。而在企业系统中数据增长迅速,达到数TB甚至数十TB的情况下,将所有数据原封不动的导入内存仍将带来较大的硬件投资。为了帮助企业节省这一部分投资,SAP HANA中采取了基于智能数据字典等高效的数据压缩机制,能够将数据压缩5-20倍,从而充分节约硬件投资。
在SAP HANA中,将源数据导入内存后,在HANA中的虚拟建模,一个属性视图可以被看作为一个数据立方体,属性视图不存储任何数据,数据存储在列存储表中 ,系统只保存这些数据模型内表的构际关系以及数据的运算逻辑,当前端提交分析请求时,HANA会根据虚拟数据模型进行数据的计算并将结果提交给前段。这意味着HANA中不会存在冗余的数据,从而大大节约的硬件的投资和维护成本。
另外,虚拟模型可以进行灵活的创建、修改、删除,从而满足业务的需求变化,而无需担心对整体数据仓库数据结构的影响。在传统数据仓库中,通过ETL方式抽取数据并加载到数据模型中往往需要数小时甚至更长的时间,而在HANA的架构下,后端数据处理和加载的时间将大大缩短,从而减少IT部门运维系统投入的时间和精力,并为前端数据处理提供更长的时间窗口,减少数据不一致性发生的可能。
电力信息化用户参考:在数据库层面进行数据密集型运算,似乎也是内存计算所特有的优势?
潘明惠:是的。SAP HANA 除了提供完善的数据库功能外,其内置的计算引擎可以将原本在应用层进行的运算转移到数据库层面进行处理,这在数据密集型运算的场景,能够优化应用层和数据库层之间的数据交互,从而从整体上提升系统的效率。传统上,数据密集型运算包括计划、预测、模拟等,在HANA中首先将计划(Planning)
责任编辑:何健
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞
-
曹志刚:我们期待风电成为中国的主力能源
2020-11-17风电,能源,主力能源 -
张钧:未来配电网内涵特征与发展框架研究
2020-11-03配电网,智能配电网,智能配电网建设研讨会 -
习近平:持续增强电力装备、新能源等领域的全产业链优势
2020-11-02电力装备,新能源,通信设备
-
曹志刚:我们期待风电成为中国的主力能源
2020-11-17风电,能源,主力能源 -
张钧:未来配电网内涵特征与发展框架研究
2020-11-03配电网,智能配电网,智能配电网建设研讨会 -
杜祥琬:创新观念,推动能源高质量发展
2020-09-28能源,创新,观点
-
PPT丨王继业:电力系统储能发展与挑战
2020-10-14储能,电力储能,储能应用 -
奋斗姿态书写人生底色 银隆储能“小哥哥”的职场进击姿势
2020-10-12银隆新能源,储能,新能源汽车 -
邹骥:通过发展清洁能源 提高中国公信力
2020-06-28邹骥,清洁能源,绿色低碳能源
-
习近平:持续增强电力装备、新能源等领域的全产业链优势
2020-11-02电力装备,新能源,通信设备 -
重磅 | 发改委发文7月起电价降5%
2020-06-29国家发改委,企业,用电成本,电费 -
李克强:放宽配售电业务市场准入 推动建立市场决定能源价格机制
2019-10-12配售电业务市场准入