热点:

    数据湖也要自学习 构建数据通路是前提

      [  中关村在线 原创  ]   作者:徐鹏

    数据湖就像是企业存储各种原始数据的大仓库,这些数据在入库之初是杂乱无章的,但是企业需要让这些数据具备存储/读取、被处理、可分析的能力。既然是湖,借助管道让数据流动起来是关键因素,否则就变成了“堰塞湖”。

    数据湖也要自学习 构建数据通路是前提
    数据湖也要自学习 构建数据通路是前提

    根据AWS的定义,数据湖是一个集中式存储库,以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析——从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

    不过对于传统原始数据来说,各个业务应用所储存的数据并不能做到完全互通,这就导致了数据孤岛,数据源既有结构化,也有分析化的,还有流式的,把这些商用大数据汇聚起来就成了数据湖,同样是存数据,这与以往的数据仓库是不一样的,二者的目标就不相同。例如,数据湖可囊括AI县相关的数据,这里面就包括了结构化数据、非结构化数据、半结构化数据,而数据仓库只能对结构化数据发挥作用。从调用来看,数据湖包括的信息通常可以被高频访问,为企业带来新的运营方向,而数据仓库的数据则是按需来调取。

    此外,数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和Schema以优化快速SQL查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

    数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或Schema。这意味着可以存储所有数据,而不需要精心设计也无需知道将来可能需要哪些问题的答案,可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得结果。

    Aberdeen的一项调查表明,实施数据湖的组织比同类公司在有机收入增长方面高出 9%。这些领导者能够进行新类型的分析,例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备以及做出明智的决策来更快地识别和应对业务增长机会。

    对于传统数据仓库来说,数据脱格和数据解耦是必备的动作,这不是在原有生产系统所进行的,而是发生在数据仓库中,而在大数据时代这个动作就变成了数据湖,对元数据进行管理。对象存储有了元数据管理,用户可以拥有更大的数据湖。在完成数据脱格的时候,能够把数据有效管理起来,为后续的数据质量治理、数据管理提升打好基础。

    数据湖要发挥足够的能力,就要与数据科学、机器学习来结合使用。在客户使用数据湖时,所使用的是数据全生命周期,覆盖了获取、处理、分析、存储,以及对元数据的管理,数据要具备可追溯性,无论是传输还是存储读取,连续性都是不可或缺的。这些实时数据使得用户可以从多个来源收集,并以其原始形式将其移入到数据湖中,此过程允许用户扩展到任何规模的数据,同时节省定义数据结构、Schema和转换的时间。

    实时性、智能化、高弹性,使得云上构建数据湖成为了很多用户的选择。ESG研究发现,39% 的调查对象认为云部署主要用于分析,41%认为用于数据仓库,43%认为用于Spark。此时,数据湖的无缝传输和稳定性变得更加重要。以AWS为例,其要做的第一步就是将数据移动到云中。要知道,带宽和传输速度的物理限制在不会造成重大中断、高成本和长时间的前提下,限制了移动数据的能力。

    为此,AWS 提供了多种方法将数据从数据中心移动到AWS。对于本地数据移动,如果在网络和AWS之间建立专用网络连接,可以使用 AWS Direct Connect;要使用物理设备将PB级到EB级数据移动到AWS,可以使用AWS Snowball和AWS Snowmobile;要使本地应用程序将数据直接存储到AWS,可以使用 AWS Storage Gateway。对于实时数据移动,AWS 提供了多种方法来提取通过新来源(如网站、移动应用程序和连接互联网的设备)生成的实时数据。为了简化流数据或 IoT 设备数据的捕获和加载,用户可以使用Amazon Kinesis Data Firehose、Amazon Kinesis Video Streams和AWS IoT Core。从AWS所提供的这些服务,多少代表了云厂商对于数据湖中数据迁移的态度。

    当然,数据湖也面临着一些难题,数据湖架构的主要挑战是存储原始数据而不监督内容。对于使数据可用的数据湖,它需要有定义的机制来编目和保护数据。没有这些元素,就无法找到或信任数据,从而导致出现“数据沼泽”,最终让数据湖变得“堵塞”。

    联想ThinkSystem SR650(Xeon 铜牌3104/16GB/300GB)

    联想ThinkSystem SR650(Xeon 铜牌3104/16GB/300GB)

    [经销商] 京东商城

    [产品售价] 15299元

    调查区域:企业小调查(点击预览可查看效果)


    本文属于原创文章,如若转载,请注明来源:数据湖也要自学习 构建数据通路是前提//bigdata.zol.com.cn/727/7276537.html

    bigdata.zol.com.cn true //bigdata.zol.com.cn/727/7276537.html report 3856 数据湖就像是企业存储各种原始数据的大仓库,这些数据在入库之初是杂乱无章的,但是企业需要让这些数据具备存储/读取、被处理、可分析的能力。既然是湖,借助管道让数据流动起来是关键因素,否则就变成了“堰塞湖”。数据湖也要自学习 构建数据通路是前提根据AWS的定义,...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错