etl处理完成的数据可以存在以下哪些组件中()

题目

etl处理完成的数据可以存在以下哪些组件中()

  • A、hdfs
  • B、hive
  • C、hbase
  • D、mapreduce
参考答案和解析
正确答案:A,B,C
如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

组件与模型分离的作用是什么?()

A.更准确地设置组件的状态

B.可以更高效地对组件进行操作,并且也更容易在组件之间共享和数据

C.跳过事件处理类,直接处理组件的事件

D.数据更准确


参考答案:B

第2题:

Describe the different types of ETL metadata and provide examples of each.

举例说明各种ETL过程中的元数据。


正确答案:
答:元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。
通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Execution Metadata)。
业务元数据,是从业务的角度对数据的描述。通常是用来给报表工具和前端用户对数据进行分析和使用提供帮助。
技术元数据,是从技术的角度对数据的描述。通常包括数据的一些属性,如数据类型、长度、或者数据概况分析后一些结果。
过程处理元数据,是ETL处理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接受等数据

第3题:

数据的预处理ETL的L表示()。

A、抽取

B、转换

C、加载

D、清洗


参考答案:C

第4题:

在设计大数据架构的时候,可以使用以下哪些技术做etl()

  • A、mapreduce
  • B、hive
  • C、sql
  • D、oozie

正确答案:A,B

第5题:

以下哪种属于元数据概念范畴?

A.数据结构

B.数据流

C.数据访问日志

D.ETL过程


参考答案:A,B,C,D

第6题:

When should data be set to disk for safekeeping during the ETL?

简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?


正确答案:
答:
Staging的意思就是将数据写到磁盘上。出于安全及ETL能方便重新开始,在数据准备区(Staging Area)中的每个步骤中都应该将数据写到磁盘上,即生成文本文件或者将建立关系表保存数据,而不应该以数据不落地方式直接进行ETL。
例如,在数据抽取阶段,我们需要连接到源系统,为了对源系统的影响尽量小,我们需要将抽取的数据保存成文本文件或者放入数据准备区的表中,这样,当ETL过程出现错误而失败时,我们就可以从这些文本文件开始ETL,而不需要再次影响源系统。

第7题:

Describe how to estimate the load time of a large ETL job.

Real Time ETL

简述如何评估大型ETL数据加载时间。


正确答案:
答:评估一个大型的ETL的数据加载时间是一件很复杂的事情。数据加载分为两类,一类是初次加载,另一类是增量加载。
在数据仓库正式投入使用时,需要进行一次初次加载,而这次初次加载需要的时间一般较难预料。在数据仓库的日常使用和维护中,每天需要对数据仓库进行增量加载。增量加载的数据量要比初次加载小很多。
下面以初次加载为例来谈谈如何评估大型ETL的数据加载时间。
对初次加载的加载时间进行预估,需要将整个ETL过程分成抽取、转换和加载三部分,分别对这三部分进行评估。
1.对抽取时间的评估。
抽取通常占用的ETL的大部分时间,而且对这部分需要时间的评估也是非常困难的。为了对这部分时间进行评估,我们可以将查询时间分成两部分,一部分是查询响应时间,另一部分是数据返回时间。查询响应时间指从查询开始执行到结果开始返回这段时间。数据返回时间指第一条记录返回到最后一条记录返回的时间。
另外,初次加载的数据量太大,我们可以考虑选择其中的一部分来评估整体的时间,实际处理中,可以选择事实表的一个分区。一般来说各个分区的数据量差不多,评估出一个分区的时间,乘上分区数可以作为整体的评估时间。
2.对数据转换时间的评估
数据转换工作通常在内存中完成,一般来说都有着非常快的速度,占总体时间的比重比较小。如果要评估这部分需要的时间的话,最简单的评估方法是先评估出抽取时间和加载时间,然后运行整个过程,用整体时间减去抽取时间和加载时间。
3.对加载时间的评估
很多原因都可能影响加载时间,其中最重要的两个分别是索引和日志。
对加载时间的评估,也可以像评估抽取时间时一样,选择加载数据的一部分,如1/200进行加载,计算出时间后乘以200来作为整体加载时间。
总之,大型ETL数据的加载时间的评估是很困难的,我们采用的方法主要是类比评估,即选择一部分数据减少整体时间进行评估。在进行评估时要注意到测试环境和生产环境的配置等的差别会引起评估结果的偏差。虽然这种对时间的评估一定会有误差,但是可以做为整体加载时间的一个参考。

第8题:

Delphi程序与数据库之间进行数据交换一般要由多个数据库组件协作完成。如果用户要查询数据库中的一条信息,该指令通过用户界面组件发出,经数据源组件到达数据集组件。数据集组件利用 _________组件与数据库建立连接,并读取数据库中的数据,而后又经过_________ 组件将数据送到用户界面组件中显示。


参考答案数据库连接组件 数据源组件

第9题:

数据仓库的数据ETL过程中,ETL软件的主要功能包括:

A.数据抽取

B.数据转换

C.数据加载

D.数据稽核


参考答案:A,B,C

第10题:

以下哪些内部组件用于工作站中的临时数据存储?()

  • A、电源
  • B、CPU
  • C、RAM
  • D、硬盘

正确答案:C

更多相关问题