如何在数字时代发挥数据的价值,几乎是每一家公司都在思考的问题。ThoughtWorks曾对当前的流行概念“Data Mesh(数据网格)”提出四项原则:以域为主权、数据为产品、自助式数据平台和联合计算治理。其中,前两个是指不少企业的业务人员会在原有的IT基础架构上进行再次开发,以获得对数据的掌控权,为此服务商要将数据能力产品化,便于向客户交付,并加入更多的自动化能力。同时,还需要有联合的管控机制对跨域数据进行治理。
“Data Fabric(数据编织)”是企业对数据仓库的一种补充方案,其重要性逐年提升。Gartner认为,随着数据越来越复杂、业务快速发展,Data Fabric的目标是为数据的集成和访问提供一种更灵活、无缝的自动化方式。这一过程中,主动智能会逐渐取代被动AI,帮助企业更便捷的获取数据洞察,通过主动的原数据构建让生命周期的每一个环节实现智能的数据治理。
如今,不少企业都在尝试构建湖仓一体的数据架构体系,希望集成并统一数据仓库和数据湖的功能,在单一平台上支持AI/ML、BI和数据工程。数据仓库是由上至下的系统,可以预知问题、完成大量预处理工作、提前确定数据模型,使得数据入库时就能根据主题模型预处理,之后存储到盘上,在需要查询时达到最佳的性能,不过,这种方式的实施和维护成本较高,缺乏数据灵活性,难以应对发展变化的挑战。数据湖则是由下至上的系统,以相对可控的成本存储了大量的数据,不需要做过多的预处理工作,模型延后(Schema on read),实效性相对较差,缺乏数据可靠性和安全性,商业智能和数据分析用例的性能不佳。
相比之下,湖仓一体的方式可以将二者的优势相融合,更适用于数据分析和机器学习工作负载,在同一个平台中同时满足数据仓库和数据湖的需求,减少数据冗余,更具有成本效益,支持更广泛的工作负载,易于数据版本控制、治理和安全性。对于数据网格、数据编织、湖仓一体三种技术框架和方法论,企业中不同岗位的决策者会有各自的关注点,例如,CEO/CIO/CDO会关注组织架构域所有权和数据即产品的方法,以及如何在管理成本和维护人员规模的同时进行扩展;CTO/CSO会关注技术方案,如何用数据编织的方法丰富数据仓库的构建方式,为机器学习自主治理提供服务;相关从业者会关注湖仓一体,如何把MPP的关系型数据库或数据仓库和数据湖做到湖仓一体的融合。
“我们在国内做了很多湖仓一体的项目,客户既有做数据仓库的,也有做数据湖的,我们帮助这些企业做了传统的MPP数仓替换、数仓的增强。”Cloudera大中华区技术总监刘隶放表示,“我们提供的方案是替代性的,可以完全替换数据湖,但是数仓是一个长期过程,不同行业的客户所处的数仓实施阶段不同,业务需求也不同,因此是一个长期的项目规划,包括保障已有的投资等等。对此,我们的团队有着丰富的经验。”
Cloudera大中华区技术总监刘隶放
不少企业在构建数据湖时会遇到数据治理的挑战,过去的数据如果不沉淀到数仓、放到历史数据中处理和归档,可能就会丢失,当前的湖仓一体或数据湖平台可以把数据沉淀下来进行分析,但要是没有自主的元数据管理功能,时间一久就会从数据湖变成“废水池”。所以,当前的数据分析平台会把元数据管理放到更高的优先级,帮助企业管理者获得数据的掌控力。借助Cloudera的SDX (SharedData Experience),可以简化本地和基于云的应用程序的部署,使运行在不同集群中的工作负载能够安全,灵活的共享数据,提供数据溯源、共享元数据、统一安全,以及一致的数据治理和数据生命周期管理。
Cloudera对自身的定位是一个适用于数据编织、数据湖库和数据网格和未来数据生态系统架构要求的混合数据平台,能够从平台层面支持客户,支持企业在多个公有云和私有云,以及本地平台上做数据访问和分析,让企业在灵活的企业架构中完成数据驱动的分析系统。平台能力方面,Cloudera的产品适用于Data Lakehouse、Data Fabric、Data Mesh,包括数据持久化、数据协调、数据探索、数据的增删改查等各种能力。Cloudera不仅支持多云和本地的数据管理和分析,还可以让分析代码在一次编写之后,能够跨平台运行。
对于不同环境中的数据,Cloudera可以利用Apache NiFi迅速对接不同的产品,由Apache Kafka保证数据转换中的稳定传输,通过Apache Flink完成数据的实时查询和处理,帮助客户进行流式平台的处理和加工,解决相应复杂环境、不同端点的业务事件。从多云平台到数据编织和编排,包括数据目录、安全治理、可观察性和复制,在其上提供湖仓一体支撑平台运行,以及数据录入和机器学习的使用,支撑不同平台的自助服务,帮助企业打造现代化的企业数据架构。
刘隶放认为,边缘计算、云化、跨云是未来数据平台的重要发展趋势,企业会选择更加高效、升级或改造成本更低、更具性价比的解决方案,“我们会帮助客户建立数据驱动的文化,从产品平台上支持企业实现数据驱动的转型。在这个基础之上,我们会从降本增效的维度考虑,帮助客户在最佳形态下执行自己的数据分析需求。我们可以支持跨云和多云,包括本地私有云的部署,同时,我们也和广泛的合作伙伴进行了开放性的认证,能够支持开放的标准和互操作性,以最快的速度推动企业增长。”
本文属于原创文章,如若转载,请注明来源:混合数据时代 Cloudera如何帮助企业构建现代化的数据架构?https://bigdata.zol.com.cn/805/8053603.html