名扬数据:关于数据仓库也是需要大数据的

将会出现三级数据存储模型,大数据定位为离线的数据仓库。实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,旨在构建大数据资源池,最近在处置一个商业银行的大数据项目。项目边境确认过程中,针对项目的定位呈现了两种不同的观点,对大数据的激进行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到一个新的切入点,才发现,原来二者并不矛盾。

数据仓库与操作数据库:通常的人们认可的概念是一个面向主题的集成的时变的非易失的数据集合,数据仓库的定义并无统一的说法。支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,充任决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

操作数据库的主要任务是执行联机事务处理和查询处理,数据仓库不同于操作数据库。称作联机事务处理(OLTP系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处置,OLA P二者的主要区别在于用户系统的面向性:客户与市场;数据内容:当前与历史;数据库设计:ER与面向主题;视图:当前与全景;访问模式:原子事务与只读操作。也就是说从软件实现的角度,激进模式下数据仓库服务器通常采用关系型数据库。数据仓库和操作型数据采用的模式是一样的这就决定了数据仓库和操作数据库面临同样的问题:行业垄断带来的利息依赖、数据模型带来的存储瓶颈和运算瓶颈。

大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题,致力于低成本的数据挖掘体系:保守BI瓶颈在于软硬件绑定、商业垄断和处理性能,2构建基于大数据平台的数据模型。基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。可以充分利用企业已有的IT资源设施,3实时+离线模式的确立。充分利用幼稚的BI技术,从而为企业提供更好的服务。

遗留问题