阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。

题目
阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。
某互联网销售企业需要建立自己的电子商务平台,将所有产品信息集中在一起,为用户提供全方位的产品信息检索服务。但产品供应商大多数已经建有自己的电子商务平台,且数据独立存储,而且数据格式和数据平台有较大差异,有的供应商甚至没有采用数据库来存储商品信息。为此该企业专门成立专家组来论证其数据集成方案。
李工提出采用集中式集成方式把产品供应商的数据集中在一起,采用数据仓库技术来实现与各家供应商的数据集成。而王工提出采用松耦合的联邦数据库集成方案。专家组经过激烈讨论,认为王工方案更为合理,建议采用王工提出的集成方案。
【问题 1】(10 分)
请结合数据仓库和联邦数据库集成方案各自的特点,简要说明专家组采用王工提出的集成方案的原因。
【问题 2】(7 分)
部分供应商的产品信息没有相应的数据库,而是直接嵌入在 WEB 页面中供用户浏览。数据集成时需要直接从供应商电子商务平台的网页上获取其产品信息。请简要给出此类数据集成的方法和基本步骤。
【问题 3】(8 分)
在方案评审会上,项目组针对李工和王工的方案展开了激烈的讨论。刘工指出两种方案在实施的过程中,都存在数据源之间的语义映射和转换问题,都会带来数据集成的不确定。请简要说明产生不确定的原因。

如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

阅读以下关于变更的叙述,回答问题1至问题3。【说明】在一个正在实施的系统集成项目中出现了下述情况:一个系统的用户向他所认识的一个项目开发人员抱怨系统软件中的一项功能问题,并且表示希望能够进行修改。于是,该开发人员就直接对系统软件进行了修改,解决了该项功能问题。针对这样一种情况,请分析如下问题。

基线是软件生存期各个开发阶段末尾的特定点,不同于里程碑。()

A.错误

B.正确


参考答案:A

基线通常对应于开发过程中的里程碑,一个产品可以有多个基线,也可以只有一个基线。

第2题:

阅读以下关于成本管理的叙述,回答问题1至问题3,将解答填入答题纸的对应栏内。【说明】一个预算100万的项目,为期12周,现在工作进行到第八周。已知成本预算是64万,实际成本支出是68万,挣值为54万。

请计算成本偏差(CV)、进度偏差(SV)、成本绩效指数(CPI)、进度绩效指数(SPI)。


CV=EV-AC=54-68=-14万元
SV=EV-PV=54-64=-10万元
CPI=EV/AC=54/68=0.794
SPI=EV/PV=54/64=0.843

第3题:

阅读以下关于变更的叙述,回答问题1至问题3。【说明】在一个正在实施的系统集成项目中出现了下述情况:一个系统的用户向他所认识的一个项目开发人员抱怨系统软件中的一项功能问题,并且表示希望能够进行修改。于是,该开发人员就直接对系统软件进行了修改,解决了该项功能问题。针对这样一种情况,请分析如下问题。

配置项审计包括功能配置审计和物理配置审计。()

A.错误

B.正确


参考答案:B

第4题:

阅读以下关于输入输出接口设计的说明,回答问题1至问题3,将解答填入对应栏内。

【说明】

下图为采用查询方式工作的输入接口,地址译码器中A15~A1直接接到或门的输入端。

输入设备在向接口传送8位数据的同时,还传送负脉冲STB,该信号的作用是什么?


正确答案:脉冲除了将输入设备的数据锁存到锁存器的输出端外该脉冲还用来触发D触发器使其输出Q为高电平此高电平表示外设有数据准备好。
脉冲除了将输入设备的数据锁存到锁存器的输出端外,该脉冲还用来触发D触发器,使其输出Q为高电平,此高电平表示外设有数据准备好。 解析:本题考查输入输出接口设计以及输入输出控制方式应用知识。
计算机与外设之间进行数据传送主要有三种基本控制方式:查询方式、中断方式和DMA方式。
查询方式是通过执行输入/输出查询程序来完成数据传送的,其工作原理是:当CPU。启动外设工作后,不断地读取外设的状态信息进行测试,查询外设是否准备就绪,如外设准备好,则可以进行数据传送:否则,CPU继续读取外设的状态信息进行查询等待,直到外设准备好。
采用程序查询方式进行数据传送时,实际上在外设准备就绪之前,CPU一直处于等待状态,致使CPU的利用率较低。倘若CPU按这种方式与多个外设传送数据时,就需要周期性的依次查询每个外设的状态,浪费的时间就更多,CPU的利用率就更低。因此,这种方式适合于工作不太繁忙的系统。
中断方式是一种硬件和软件相结合的技术,中断请求和处理依赖于中断控制逻辑,而数据传送则是通过执行中断服务程序来实现的。这种方式的特点是:在外设工作期间,CPU无须等待,可以处理其他任务,CPU与外设可以并行工作,提高了系统效率,同时又能满足实时信息处理的需要。但在进行数据传送时,仍需要通过执行程序来完成。
采用中断方式可以提高CPU的利用率,但有些I/O设备(如磁盘、光盘等)需要高速而又频繁地与存储器进行批量的数据交换,此时中断方式已不能满足速度上的要求。而直接存储器处理DMA方式,可以在存储器与外设之间开辟一条高速数据通道,使外设与存储器之间可以直接进行批量数据传送。实现DMA传送,要求CPU让出系统总线的控制权,然后由专用硬件设备(DMA控制器)来控制外设与存储器之间的数据传送。这种传送方式的特点是:在数据传送过程中,由DMA控制器参与工作,不需要CPU的干预,批量数据传送时效率很高,通常用于高速I/O设备与内存之间的数据传送。
本题采用程序查询方式从输入设备读取数据。
接口图中的选通信号低电平有效,是由外设提供的输入信号。当该信号有效时,将输入设备送来的数据锁存至输入锁存器中临时存储起来,并设置数据已经准备好的状态,标志该状态的是上图中的D触发器。
D触发器的初始状态为0(数据未准备好),当输入设备的数据准备好时,通过CP将D触发器设置为1,标明数据已准备好,CPU可随时读取。
要从输入设备读取数据(有效),首先应确定输入设备的端口地址,包括状态端口和数据端口。从题图中可知,要读取输入设备的状态端口(即数据是否准备好),需进行下面的运算:
A15+A14+A13+…+A2+A1++
即地址信号A15、A14、…、A2、A1与IOR进行或运算(经过或门)后的输出,与A0经非门后的输出再进行或运算,若为0,则可将D触发器中的状态输出至数据线D7,因此,要求A15、A14、…、A2、A1全部为0且A0为1,即状态端口地址为0001H。同理,要读取输入设备的数据,需进行下面的运算:
A15+A14+A13+…+A2+A1++A0
即当A15、A14、…、A2、A1全部为0并且A0也为0,才能通过三态门将数据送往数据总线,因此数据端口地址为0000H。
若用查询方式将输入设备的一个数据读入CPU的BL寄存器中,则根据其工作方式,需要对I/O接口的状态不断进行测试,一旦满足条件(准备好传送数据即外设就绪),紧接着就执行数据传送指令,程序如下:
START: MOVDX,0001H;外设的状态端口号送入DX寄存器
NEXT1: IN AL,DX ;从外设端口读取状态并暂存入AL
NEXT2: ANDAL,80H;判断数据是否就绪(D7是否为1)
JZ NEXT1;未就绪(D7为0),则继续查询,否则开始读取数据
MOVDX, 0000H ;外设数据端口号送入DX寄存器
IN AL,DX ;从外设端口读取数据到的数据暂存入AL
NEXT3: MOVBL,AL ;将数据送入BL寄存器
RET

第5题:

先阅读以下说明,然后回答问题1至问题4。

[说明]

Windows Server 2003是基于Windows NT的技术,支持完善的NTFS分区格式。

请简要说出NTFS的特点。


正确答案:(1)NTFS对用户权限做出了非常严格的限制具有更高的安全性。 (2)NTFS支持对单个文件或目录的压缩。 (3)NTFS使用事务日志自动记录所有文件夹和文件更新系统能重做或恢复未成功的操作从而保护了系统的安全性。 NTFS文件系统与FAT文件系统相比最大的特点是安全性在NTFS分区上支持随机访问控制和拥有权对共享文件夹无论采用FAT还是NTFS文件系统都可以指定权限以免受到本地访问或远程访问的影响;对于在计算机上存储文件夹或单个文件或者是通过连接到共享文件夹访问的用户都可以指定权限使每个用户只能按照系统赋予的权限进行操作充分保护了系统和数据的安全。NTFS主要特点体现在以下三个方面: 1.通过NTFS许可保护网络资源 在Windows 2000以上版本网络资源的本地安全性是通过NTFS许可权限来实现的。在一个格式化为 NTFS的分区上每个文件或者文件夹都可以单独的分配一个许可这个许可使得这些资源具备更高级别的安全性用户无论是在本机还是通过远程网络访问设有NTFS许可的资源都必须具备访问这些资源的权限。 2.使用NTFS对文件和文件夹进行压缩 NTFS支持对单个文件或者目录的压缩。这种压缩不同于FAT结构中对驱动器卷的压缩其可控性和速度都要比FAT的磁盘压缩要好的多。 除了以上两(一、二两个)个主要的特点之外NTFS文件系统还具有其他的优点如:对于超过4GB以上的硬盘使用NTFS分区可以减少磁盘碎片的数量大大提高硬盘的利用率;NTFS可以支持的文件大小可以达到64GB远远大于FAT32下的4GB;支持长文件名等。 3.使用事务日志 NTFS使用事务日志自动记录所有文件夹和文件更新当出现系统损坏和电源故障等问题而引起操作失败后系统能重做或恢复未成功的操作从而保护了系统的安全性。
(1)NTFS对用户权限做出了非常严格的限制,具有更高的安全性。 (2)NTFS支持对单个文件或目录的压缩。 (3)NTFS使用事务日志自动记录所有文件夹和文件更新,系统能重做或恢复未成功的操作,从而保护了系统的安全性。 NTFS文件系统与FAT文件系统相比最大的特点是安全性,在NTFS分区上,支持随机访问控制和拥有权,对共享文件夹无论采用FAT还是NTFS文件系统都可以指定权限,以免受到本地访问或远程访问的影响;对于在计算机上存储文件夹或单个文件,或者是通过连接到共享文件夹访问的用户,都可以指定权限,使每个用户只能按照系统赋予的权限进行操作,充分保护了系统和数据的安全。NTFS主要特点体现在以下三个方面: 1.通过NTFS许可保护网络资源 在Windows 2000以上版本,网络资源的本地安全性是通过NTFS许可权限来实现的。在一个格式化为 NTFS的分区上,每个文件或者文件夹都可以单独的分配一个许可,这个许可使得这些资源具备更高级别的安全性,用户无论是在本机还是通过远程网络访问设有NTFS许可的资源,都必须具备访问这些资源的权限。 2.使用NTFS对文件和文件夹进行压缩 NTFS支持对单个文件或者目录的压缩。这种压缩不同于FAT结构中,对驱动器卷的压缩,其可控性和速度都要比FAT的磁盘压缩要好的多。 除了以上两(一、二两个)个主要的特点之外,NTFS文件系统还具有其他的优点,如:对于超过4GB以上的硬盘,使用NTFS分区,可以减少磁盘碎片的数量,大大提高硬盘的利用率;NTFS可以支持的文件大小可以达到64GB,远远大于FAT32下的4GB;支持长文件名等。 3.使用事务日志 NTFS使用事务日志自动记录所有文件夹和文件更新,当出现系统损坏和电源故障等问题而引起操作失败后,系统能重做或恢复未成功的操作,从而保护了系统的安全性。

第6题:

阅读以下关于变更的叙述,回答问题1至问题3。【说明】在一个正在实施的系统集成项目中出现了下述情况:一个系统的用户向他所认识的一个项目开发人员抱怨系统软件中的一项功能问题,并且表示希望能够进行修改。于是,该开发人员就直接对系统软件进行了修改,解决了该项功能问题。针对这样一种情况,请分析如下问题。

CCB必须是常设机构,实际工作中需要设定专职人员。()

A.错误

B.正确


参考答案:A

第7题:

试题四(共 25 分)

阅读以下关于数据集成的叙述,在答题纸上回答问题 1 至问题3。

某互联网销售企业需要建立自己的电子商务平台,将所有产品信息集中在一起,为用户提供全方位的产品信息检索服务。但产品供应商大多数已经建有自己的电子商务平台,且数据独立存储,而且数据格式和数据平台有较大差异,有的供应商甚至没有采用数据库来存储商品信息。为此该企业专门成立专家组来论证其数据集成方案。

李工提出采用集中式集成方式把产品供应商的数据集中在一起,采用数据仓库技术来实现与各家供应商的数据集成。而王工提出采用松耦合的联邦数据库集成方案。专家组经过激烈讨论,认为王工方案更为合理,建议采用王工提出的集成方案。

【问题 1】(10 分)

请结合数据仓库和联邦数据库集成方案各自的特点,简要说明专家组采用王工提出的集成方案的原因。

【问题 2】(7 分)

部分供应商的产品信息没有相应的数据库,而是直接嵌入在 WEB 页面中供用户浏览。数据集成时需要直接从供应商电子商务平台的网页上获取其产品信息。请简要给出此类数据集成的方法和基本步骤。

【问题 3】(8 分)

在方案评审会上,项目组针对李工和王工的方案展开了激烈的讨论。刘工指出两种方案在实施的过程中,都存在数据源之间的语义映射和转换问题,都会带来数据集成的不确定。请简要说明产生不确定的原因。


正确答案:

试题四分析
本题主要考查数据集成中的数据仓库方案和联邦数据库方案的内容。
【问题l】
本问题考查数据仓库和联邦数据库集成方案的基本概念。数据苍库集成是把多种来源的数据集中在一起,建立数据仓库,所有数据都驻留在单个数据库服务器上,配置大型处理器和存储容量。数据仓库主要用于决策支持,在数据处理过程中强调分析。其特点是:①集成的数据;②面向主题;③数据相对稳定;④包含历史信息。但是此种集成方法中需要将数据源的数据转换为数据仓库中的语义,而且需要定期的数据复制和数据更新。数据源往往指的是数据库系统。
联邦数据库集成是把多个数据库系统联合在一起,构成“联邦数据库系统”,数据
库之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接。其特点是:①联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。这种分布式的数据集成,更加符合应用系统的实际情况。②异构数据源不仅仅是数据库系统,通过中间件,可以扩展到传感器、文件和应用程序等。
两种方式都需要将数据源中的数据语义转换为统一数据语义,这种转换往往存在不确定性。
【问题2】
本问题考查Web内容提取或Web数据挖掘的相关知识。Web信息系统中的数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,但是其数据呈现是嵌入在页面中。因此需要采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。
其基本的步骤是:
(1)分析页面,确定其页面中的数据模式。制定数据挖掘的特征和提取规则,编写特定的页面分析和数据提取程序。
(2)抓取页面,通过爬虫技术获取对应的网页。将远端的页面下载到本地进行存储,为后续数据提取做准备。
(3)特征提取与处理,获取相应数据,依据的原则是分析页面阶段所形成的特征和提取规则。
(4)数据清洗,根据规则进行判断,抛弃异常数据。
(5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。
Web内容提取的算法程序本身是近似的,因此在获取数据的内容上存在不确定性。
【问题3】
本问题考查在数据集成过程存在的不确定性问题。问题1和问题2中实际已经明确了集成过程中存在不确定性。主要的原因在于数据集成系统依靠模式映射来指明数据  ,源中的数据和中介所用数据之问的语义关系,但映射过程中可能发生不确定性。具体原因有:
(1)数据源与中介模式之间的语义映射可能是近似的。实际统中往往很难有非常精确、完整的语义映射。
(2)用户不熟悉模式或系统的域太宽,不能提供基于表单式的查询接口,需要使用关键字查询,但将关键字查询转换成一组候选的结构化查询时,会带来不确定性。
(3)数据常常是使用信息获取技术从非结构化数据源获取的,而这些获取技术一般只是“大致可用”,所取得的数据可能是不确定的。
因此,在本试题中,无论采用数据仓库或者联邦数据库集成方案,都存在数据源之间的语义映射和转换问题,都会带来数据集成的不确定。
试题四解答要点
【问题1】
数据仓库集成是把多种来源的数据集中在一起,建立数据仓库,所有数据都驻留在
单个数据库服务器上,配置大型处理器和存储容量。数据仓库主要用于决策支持,在数
据处理过程中强调分析。其特点是:
(1)集成的数据。
(2)面向主题。
(3)数据相对稳定。
(4)包含历史信息。
联邦数据库集成是把多个数据库系统联合在一起,构成“联邦数据库系统”,数据库之间通过接口查询,互相通信,数据分布在不同地方的计算机或数据库服务器上,通过网络连接。其特点是:
(1)联邦数据库提供集成的数据格式,对用户提供统一的访问,屏蔽了各个数据库的复杂性和分布情况,简化了开发数据库查询和对数据统一理解的工作。这种分布式的数据集成,更加符合应用系统的实际情况。
(2)异构数据源不仅仅是数据库系统,通过中间件,可以扩展到传感器、文件和应用程序等。
【问题2】
此类数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,因此应采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。
其基本步骤为:
(1)分析页面,确定其页面中的数据模式。
(2)抓取页面,通过爬虫技术获取对应的网页。
(3)特征提取与处理,获取相应数据。
(4)数据清洗,根据规则进行判断,抛弃异常数据。
(5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。
【问题3】
数据集成系统依靠模式映射来指明数据源中的数据和中介所用数据之间的语义关系,但映射过程中可能发生不确定性,其原因有:
(1)数据源与中介模式之间的语义映射可能是近似的。
(2)用户不熟悉模式或系统的域太宽,不能提供基于表单式的查询接口,需要使用关键字查询,但将关键字查询转换成一组候选的结构化查询时,会带来不确定性。
(3)数据常常是使用信息获取技术从非结构化数据源获取的,而这些获取技术一般只是“大致可用”,所取得的数据可能是不确定的。

第8题:

阅读以下关于变更的叙述,回答问题1至问题3。【说明】在一个正在实施的系统集成项目中出现了下述情况:一个系统的用户向他所认识的一个项目开发人员抱怨系统软件中的一项功能问题,并且表示希望能够进行修改。于是,该开发人员就直接对系统软件进行了修改,解决了该项功能问题。针对这样一种情况,请分析如下问题。

版本管理是对项目中配置项基线的变更控制。()

A.错误

B.正确


参考答案:A

第9题:

阅读以下关于成本管理的叙述,回答问题1至问题3。

[说明]

一个预算100万的项目,为期12周,现在工作进行到第八周。已知成本预算是64万,实际成本支出是68万,挣值为54万。

请计算成本偏差(CV)、进度偏差(SV)、成本绩效指数CPI、进度绩效指数SPI。


正确答案:CV=EV-AC=54-68=-14万元 SV=EV-PV=54-64=-10万元 CPI=EV/AC=54/68=0.794 SPI=EV/PV=54/64=0.843
CV=EV-AC=54-68=-14万元 SV=EV-PV=54-64=-10万元 CPI=EV/AC=54/68=0.794 SPI=EV/PV=54/64=0.843 解析:考查对挣值管理的几个重要参数的掌握程度。

第10题:

阅读以下关于分布式数据库的叙述,回答问题1至问题3。

随着传统的数据库技术的成熟和计算机网络技术的发展,分布式数据库系统的研究与开发受到人们越来越多的关注。分布式数据库支持数据独立性和分布透明性。用户不必关心数据的逻辑分区,不必关心数据物理位置分布的细节,也不必关心副本的一致性问题。

请用200字以内的文字叙述分布式数据库的主要特性和优缺点。


正确答案:分布式数据库具有物理分布性、位置自治性与协作性支持数据独立性、集中与自治相结合的控制、适度数据冗余度、分布的事务管理。 优点:具有灵活的体系结构、分布式的管理和控制、系统的高可靠性和可用性、高扩展性、局部处理、响应速度快、经济性能优越。 缺点:系统开销通信较大、复杂的存取结构、保持数据一致性算法复杂、数据的安全性和保密性要求高。
分布式数据库具有物理分布性、位置自治性与协作性,支持数据独立性、集中与自治相结合的控制、适度数据冗余度、分布的事务管理。 优点:具有灵活的体系结构、分布式的管理和控制、系统的高可靠性和可用性、高扩展性、局部处理、响应速度快、经济性能优越。 缺点:系统开销通信较大、复杂的存取结构、保持数据一致性算法复杂、数据的安全性和保密性要求高。 解析:本题目考查分布式数据库的主要特点和优缺点,同时考查在数据量很大的情况下数据表分片的设计及分片需要满足的条件,以及保持数据库一致性的方法。
分布式数据库具有物理分布性、位置自治性与协作性,支持数据独立性、集中与自治相结合的控制、适度数据冗余度、分布的事务管理。优点包括具有灵活的体系结构、分布式的管理和控制、系统的高可靠性和可用性、高扩展性、局部处理、响应速度快、经济性能优越。缺点包括系统开销通信较大、复杂的存取结构、保持数据一致性算法复杂、数据的安全性和保密性要求高。
在数据库中,某个业务表中的数据量很大,急速膨胀,在这样的情况下,为了保持高的数据响应速度,根据数据的时间局部性和空间局部性原则,可以对数据表进行分片设计。一般有两种分片方法:水平分片和垂直分片。
数据表分片满足完备性条件,可重构条件和不相交条件。其中完备性条件是指必须把全局关系的所有数据映射到片段中,决不允许有属于全局关系的数据却未被映射到任何一个片段;可重构条件是指必须保证能够由同一个全局关系的各个片段来重建该全局关系。对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系。不相交条件是指要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)。
分布式数据库中各局部数据库应满足集中式数据库的基本需求,除此以外还应保证数据库的数据全局一致性、并发操作的可串行性和故障的全局可恢复性。保持数据库一致性的方法是要保持数据副本的一致性,保证分布式事务的ACID属性和故障恢复的一致性。

更多相关问题