当前位置:首页 > 为什么 > 正文内容

数据架构变革,为什么Lakehouse需要Data Fabric

早间资讯网8个月前 (08-31)为什么32

在大模型引爆的热潮中,今年6月底,Snowflake和Databricks围绕着AI打起了擂台,AI给数据技术带来了变革。如果将目光向前推一个月,就会发现另一场数据架构变革的浪潮正轰轰烈烈展开。

在5月份的连续三周内,IBM、HPE、微软三巨头争相布局Data Fabric+Lakehouse,先后发布新的Data Fabric产品,或更新现有的Data Fabric产品,增加新的Lakehouse功能。在刚刚结束的DTCC2023大会上,我们也发现了Data Fabric+Lakehouse的身影。

DataFabric+Lakehouse为数据架构带来怎样的变革?为何大家争相布局?能为企业带来怎样的价值?企业将如何应对新技术?本文将尝试解答。

巨头、新贵争相布局Data Fabric+Lakehouse

2020年Databricks提出Lakehouse概念,即我们所说的湖仓一体架构,背后基本思想是将数据仓库和数据湖的优势结合,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,取长补短。如今Lakehouse和另一个新颖的Data Fabric结合起来,巨头和新贵纷纷布局Data Fabric+Lakehouse,掀起了一场新的数据架构变革热潮。

在5月9日举行的THINK大会上,IBM发布了watsonx.data lakehouse,拉开了今年数据架构变革的序幕。watsonx.data 与IBM云数据中心(IBM Cloud Pak for Data)紧密相连,后者更多扮演Data Fabric的角色,内置治理、集成、隐私和安全功能。

一周后,HPE于5月16日发布了Data Fabric的升级版Ezmeral。更新后的数据架构基于MapR技术,具有S3、Posix和Kafka存储功能,并支持Iceberg和Delta。最大的特点是,HPE将Ezmeral Data Fabric与其新的统一分析(Unified Analytics)相连接。

此后一周,微软于5月23日首次推出了Microsoft Fabric。该产品与OneLake(其Lakehouse产品的新名称)一起,旨在为企业的所有数据管理、分析和机器学习需求提供一站式服务。

数据连接提供商 CData Software的联合创始人兼首席运营官Manish Patel说,IBM、HPE和微软都发布了类似的DataFabric和Lakehouse,表明市场需求强劲,这也是数据架构和使用模式演变的部分结果。

在刚刚结束的第14届中国数据库技术大会(DTCC2023)上,滴普科技在“基于Data Fabric的实时湖仓平台技术实践”的主题分享中,也提到了Data Fabric+Lakehouse带来的变革,滴普科技基于Data Fabric打造了新一代实时智能湖仓平台FastData。我们在大会期间采访了滴普科技DLink产品总经理冯森,了解新数据架构带来的改变以及对用户的价值。

DataFabric能为Lakehouse带来什么价值?

Data Fabric是一个比较新的技术名词,在过去几年中,Data Fabric作为一种在数据孤岛不断增长的情况下重新集中管理数据的架构元素越来越受欢迎。我们先来看看权威机构对Data Fabric的定义:

Forrester将Data Fabric定义为是一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。

Gartner将Data Fabric定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台(包括混合云和多云)的设计、部署和使用,从而实现灵活的数据交付。

Gartner自2019年起,已连续三年将Data Fabric列入十大数据分析技术趋势。而在最新发布的2022年重要战略技术趋势中,Data Fabric更是荣登数据分析领域十大技术趋势之首,其重要性可见一斑。

随着数字化转型不断推进,企业数据爆发式增长,数据分散在不同的系统中,容易形成数据孤岛,多云、混合云、异构数据源为数据统一管理、数据分析带来了挑战,限制了企业数据驱动策略的落地,无法充分挖掘数据价值为业务服务。

在Gartner近日发布的技术成熟度曲线《Hype Cycle for Data, Analytics and AI in China, 2023》,滴普科技作为湖仓一体、可组装式分析代表厂商入选了这次报告。冯森介绍,Data Fabric更加强调集中化统一管理,是对数据的管理实现逻辑统一、物理分散的架构。Lakehouse与Data Fabric的结合有效解决了上面的问题。

一方面,Data Fabric+Lakehouse既可以集成和分析海量大数据集,又能够建立统一的数据治理,数据目录,统一控制不同数据源的访问权限,统一管理混合云环境。此外,Lakehouse与Data Fabric的结合帮助用户全面整合了从数据源到数据分析以及数据价值实现的完整链路,为用户建立统一治理、流批一体、湖仓一体的数据智能平台,实现海量数据实时分析,同时又能打破数据孤岛,帮助企业实现跨业务数据的即时访问,实现业务之间有效协作,提升数据生产力,加速业务价值变现,支撑企业数字化转型。

企业如何面对数据架构变革?

企业的数据基础设施的建设并不相同,有的可能没有使用数据仓库,有的可能使用了数据仓库、大数据平台、数据湖中的一种或多种,该如何拥抱新的数据技术呢?

不同规模的企业对数据基础设施的需求会有所不同,比如一些中小企业,数据量和任务复杂度不高,可能采用MPP数仓就可以满足业务需求;一些大型企业数据量比较大并且任务复杂度很高,可能会采用Hadoop+MPP数仓的架构来满足业务需求;还有一些大型央国企子公司很多,需要多数据湖架构,一般会采用基于Data Fabric的多湖多租户的湖仓一体架构才能满足集团统一管控的需求。

实际上,对于新技术的应用本质上都是出于降本增效考虑,在国产化浪潮下,不同企业对新技术的应用也有差异,需要区别对待。

以滴普科技所服务的大中型企业为例,一些企业已经建设了大数据平台,可能需要对大数据平台进行国产化升级替换,在一些央国企的客户遇到过类似的需求,首先要满足其原有大数据平台平替的能力,同时也能够更加有效地通过统一的数据管理平台,降低整体开发运维成本,实现跨业务部门或者跨集团子公司的数据分析需求。

还有一部分企业,数据基础设施建设得比较完善,也比较复杂,会有架构升级的需求,但是受制于目前国内湖仓一体架构还比较新,行业落地实践不够成熟,会先从创新业务切入,然后慢慢逐步替代。创新业务比较常见的是实现实时分析。针对不同业务的实时性分析需求,滴普科技除了提供FastData产品本身支持从数据源到入湖,再到湖内构建分层数仓,再到数据分析这样全链路数据处理分钟级时效性外,还提供秒级及以下的解决方案,比如通过消息队列实现秒级以下时效性,或者将湖内数据出湖到MPP数仓提升数据服务秒级时效性,以及通过任务调度的方式实现分钟或者小时级别以上的时效性等。

一部分企业数据基础设施建设没有那么完善,甚至有的都没有建设大数据平台,相对而言包袱小,可能会直接升级到新一代实时智能湖仓平台。

大型国央企对数据架构升级有不同的需求,需要更灵活的产品组合能力。FastData实时智能湖仓平台基于现代数据栈MDS架构设计,可以通过可拆可合的方式非常灵活地适应不同业务场景,对于还没有大数据平台的企业,可以通过FastData构建一站式数据集成、开发、分析、治理、湖仓一体平台;对于大数据平台相对完整的企业,可以通过拆分各个套件的方式提升原有大数据平台的能力,这样可以更好地帮助企业处理数据,沉淀数据资产。

此外,不管是哪种类型的企业,随着业务的发展和数据量的暴增,对数据的使用都在逐步从从离线场景到实时数据分析场景进行转变。企业希望业务端的数据能够快速被清洗处理,从而满足基于数据的事前预测、事中判断和事后分析。而智能湖仓平台的流批一体处理能力能够支持全链路CDC功能,支持流批一体的方式入湖,并且在湖内通过流读变更数据的方式构建分钟级近实时数仓,同时能够基于分析引擎提供快速的数据服务,不仅简化了数据处理流程,同时提高了系统的数据时效性。

小结:Lakehouse的未来

数据技术的发展日新月异,DataFabric和Lakehouse结合方便集成和分析大数据集,同时不放弃混合云环境中的集中控制和安全性,这有助于企业沉淀数据资产以及挖掘数据价值。

Lakehouse在国内外都朝着oneLake的方向发展,帮助企业实现数据统一管理和服务,与DataFabric的结合响应了这一趋势。随着新技术不断出现,Lakehouse跟机器学习/大模型场景的结合也值得关注。

从Gartner发布的技术曲线上可以看出,Lakehouse还处在技术创新阶段,目前已经被大家广泛关注,技术也开始逐步成型。如何实现统一的技术标准,如何解决目前存在的一些技术问题,以及如何帮助客户实现业务价值,是当前需要积极解决的问题。“随着技术逐渐走向成熟,市场认知提高,Lakehouse可能会迎来市场上的一个爆发期。”冯森说,未来可期,但是数据基础设施的建设、升级需要循序渐进。

免责声明:本站部分内容来自网友自行上传或转自网路,如有侵犯您的利益请联系我们。我们会尽快处理并致以最深的歉意。邮箱:marssir@vip.qq.com

本文链接:https://news.zaojiaoguan.com/news/4222.html

分享给朋友:

“数据架构变革,为什么Lakehouse需要Data Fabric” 的相关文章

法国发问:为什么没有在中国闹事的?

法国发问:为什么没有在中国闹事的?

近年来,全球范围内闹事和抗议活动时有发生,然而,中国似乎较少出现大规模社会动荡。这一现象引起了诸多观察者的疑问:为什么中国没有像其他国家那样频繁闹事呢?作为世界第二大经济体和人口最多的国家,中国拥有复杂的社会结构和多元化的文化背景,因此,这个问题的答案远非简单。或许中国政府的稳定措施起到了积极推动的...

申请MSDS需要哪些文件?MSDS都有哪些内容?

申请MSDS需要哪些文件?MSDS都有哪些内容?

MSDS全称是Material Safety Data Sheet(物质安全数据表),国际上称作为化学品安全信息卡,是化学品生产商和进口商用来阐明化学品的理化特性(如PH值,闪点,易燃度,反应活性等)以及对使用者的健康(如致癌,致畸形等)可能产生的危害的一份档案。 MSDS是化学品生产或销售企业按法...

JY戴士转型带货主播,狼王每次转型为什么都能成功?天赋啊

JY戴士转型带货主播,狼王每次转型为什么都能成功?天赋啊

如果你是一名游戏圈的老粉丝的话,那么对于JY这个名字一定不会感到陌生。JY可是电竞职业圈中的元老级人物,从最初的魔兽争霸3职业选手出道,再到后来转型LOL,最后在狼人杀项目上创出了一片天地,还亲自开发了狼人杀线上APP,并创建了线下JYClub狼人杀俱乐部,绝对是一位实力和天赋并存的选手。JY属于中...

农村人学习城市人,也开始抵制彩礼,为什么?

农村人学习城市人,也开始抵制彩礼,为什么?

前面的文章,我提到了,城市人和农村人对彩礼的态度不同,和传统的民间融资方式有一定的关系。 农村是个熟人社会、人情社会,人们需要借款时,主要还是通过基于人际关系的信用借款的方式来解决问题,而在城市,由于商业的相对发达,人们往往是通过基于财产和收入的银行信用贷款的方式,来解决问题。而彩礼这笔钱是需要男方...

留学生在海外工作需要注意哪些问题?

留学生在海外工作需要注意哪些问题?

1.有工作许可证,合法工作。 首先要明确自己的签证类型是否可以工作,或者是否有相关的工作许可证,这是在海外工作的前提。英国、澳大利亚等一些国家的全日制学生可以有留学签证,如果英国的留学签证上印着“No recourse to public funds.Work and any changes mus...

哆啦A梦:动漫里机器猫手为什么是圆的?因为它要施以援(圆)手

哆啦A梦:动漫里机器猫手为什么是圆的?因为它要施以援(圆)手

动漫《哆啦A梦》是很多漫友童年的美好回忆,即便没有看过这部动漫的人,对于里面的机器猫也非常了解,知道这是一只能从口袋里掏出来任何可以哄人开心东西的喵。 所以,很多不看动漫的人,都会将自己的网名改为蓝胖子,因为这样显得自己很暖心。 施以援(圆)手 动漫里的哆啦A梦,可以从口袋拿出很多奇妙的道具,来帮助...

红睦房祝秀英医生:这4种妇科检查为什么要在月经期做?

红睦房祝秀英医生:这4种妇科检查为什么要在月经期做?

我们知道,大多数的妇科检查要避开月经期,以免影响检查的准确性。 不过,有些检查是一定要在月经期做的。下面这4种检查,在月经期做,结果才能准确。 1、性激素六项(抽血) 对于女性来说,性激素六项是常用且重要的一项检查,用于评估卵巢功能、预测卵泡发育、排卵时间,对月经失调、不孕不育原因的诊断和鉴别诊断,...

耳聋耳背知识分享----验配助听器需要注意什么???

耳聋耳背知识分享----验配助听器需要注意什么???

助听器是一种供听损人群使用的、补偿听力损失的小型扩音设备。助听器适用于绝大多数有听力损失的人群,轻度、中度、重度耳聋的人群佩戴助听器都能获得一定的效果,改善聆听。 及时验配合适的助听器可以提高听损者的生活质量、减少交流困难、延缓听力下降速度、避免言语识别能力的进一步退化,有听力障碍的人群应尽早得到听...