Distribuição de tarefas ETL em ambientes GRID

Um Data Warehouse (DW) armazena dados de forma integrada, orientada por assunto e consistente, o que o torna, assim, num repositório de dados ideal para suporte a processos de tomada de decisões. No entanto, para manter este repositório devidamente actualizado é necessário aceder a um conjunto varia...

Full description

Bibliographic Details
Main Author: Santos, Vasco (author)
Other Authors: Oliveira, Bruno (author), Silva, Rui (author), Belo, Orlando (author)
Format: conferencePaper
Language:por
Published: 2011
Subjects:
Online Access:http://hdl.handle.net/1822/16295
Country:Portugal
Oai:oai:repositorium.sdum.uminho.pt:1822/16295
Description
Summary:Um Data Warehouse (DW) armazena dados de forma integrada, orientada por assunto e consistente, o que o torna, assim, num repositório de dados ideal para suporte a processos de tomada de decisões. No entanto, para manter este repositório devidamente actualizado é necessário aceder a um conjunto variado de sistemas fonte, transformar a informação que neles é colectada, de acordo com os requisitos do negócio, com vista a uma alimentação adequada do DW. Estas tarefas, geralmente designadas por Extracção, Transformação e Carregamento, são normalmente complexas, requerem grandes recursos computacionais e operam numa janela temporal limitada. Neste artigo será exposta uma abordagem não convencional para a execução destas tarefas, tirando partido do poder computacional existente numa organização, através da utilização de uma GRID, e apelando à abstracção que uma linguagem de manipulação de dados como a Álgebra Relacional nos providencia, tendo como suporte o standard de representação de dados presente na linguagem XML.