BI

Introdução

Organizações¹ [1] de hoje, a fim de atingir seus objetivos operacionais, estão enfrentando obstáculos cada vez mais complexos em termos de gestão e resolução de problemas. Além disso, o grande crescimento na quantidade de dados impõe desafios na análise desses dados e recuperação de informações relevantes em tempo real. Diante de tais situações, as organizações passam a utilizar ferramentas de Business Intelligence (BI), que engloba um conjunto de metodologias, processos, arquiteturas e tecnologias que transformam dados brutos em informações significativas e úteis, permitindo identificar e compreender as informações relevantes para a tomada de decisão nos níveis estratégico, tático e operacional.[2], [3]

A eficiência do Business Intelligence depende, inicialmente, de um banco de dados que armazena os "acontecimentos", como por exemplo a venda de determinado produto em uma rede de lojas com seus respectivos detalhes: quantidade, valor, horário, loja e etc. Este banco de dados é conhecido como Data Warehouse, e a partir dele é possível realizar diversas análises de dados, auxiliando nas decisões de uma empresa. Entretanto, para que possa cumprir com seu propósito, o Data Warehouse (DW) organiza em novas estruturas os dados recebidos de vários bancos de dados operacionais e de outras fontes de dados, adequado-se a tarefa de executar análise de negócios. Baseado em um modelo multidimensional, o DW pode armazenar informações temporais, admitindo análises por essa perspectiva. Além disso, ao contrário dos bancos de dados operacionais que se concentram em funções específicas executadas por aplicações, o foco de um DW está nas necessidades analíticas, onde as várias dimensões do modelo permitem a realização de pesquisas pelas diversas perspectivas (ou dimensões), reduzindo também os percursos de navegação.[3]

Diante deste contexto, um dos objetivos do trabalho é aprofundar no dimensionamento de dados para a montagem de uma Data Warehouse. Relacionar também novas linhas de armazenamento de dados e análises, como a Big Data Analytics. O Site da SpagoBI brasil (http://spagobibrasil.com.br/) apresenta como instalar e utilizar uma Data Warehouse em vídeos tutoriais.

¹ Definido por Maximiano, uma organização é uma combinação de esforços individuais que tem por finalidade realizar propósitos coletivos, tornando possível perseguir e alcançar objetivos inatingíveis por uma pessoa. Grandes empresa, pequenas oficina, laboratórios, corpos de bombeiros, hospitais e escola são exemplos de organizações.[1]

Objetivos específicos

O trabalho de pesquisa sobre BI aqui mencionado tem por objetivo reunir conhecimento sobre a estrutura do Data Warehouse e a influência que um sistema de arquivos tem sobre as ferramentas de análise. Além disso, a integração entre as ferramentas de análise de dados SpagoBI e o armazenamento de dados (Data Storages) é fundamental para o BI e Big Data Analytics. Assim, neste trabalho pretendemos montar um Data Warehouse e integrá-lo com as ferramentas de análise para BI, e em particular estudaremos sobre a integração entre o SpagoBI e o Hadoop.

Cronograma

Fundamentação Teórica

Cases

Benchmarking

Existem várias plataformas "open source", como é o exemplo da SpagoBI, JasperSoft e Birt. Em particular, a SpagoBI é uma plataforma que possui somente suites livres, não possuindo versões mais completas e pagas como a JasperSoft ou a Birt. Além disso, SpagoBI é uma suíte totalmente open source para Business Intelligence e Big Data Analytics, desenvolvida e gerida pelos laboratórios SpagoBI do Grupo de Engenharia. Ela inclui não apenas relatórios e gráficos das características tradicionais, mas também soluções únicas e inovadoras para domínios emergentes. SpagoBI é parte da pilha de softwares gerenciados pelo OW2 (http://www.ow2.org/), que promove soluções open source profissionais, adequadas aos contextos empresariais.[4]

Detalhar mais as soluções encontradas

Funcionalidades

Componentes

Ferramentas de ETL

Na construção de um DW é preciso executar a ferramenta de ETL ("Extract Transform and Load"), responsáveis, basicamente, pela obtenção de dados de um sistema de origem para um repositório central. As funções das ferramentas de ETL não se restringem em apenas extrair(E), transformar(T) e carregar(L) os dados. Os dados recebidos das diferentes fontes (DSs – "Data Sources") são mapeados, formatados adequadamente, padronizando-se unidades a fim de fornece confiabilidade, além de remover erros e corrigir dados em falta para o carregamento nos "Data Marks" (DM) ou DW. [2]

Em uma descrição simplificada das etapas de ETL, a extração, primeira etapa de ETL, é responsável pela extração de dados dos sistemas de origem. Cada fonte de dados tem o seu conjunto distinto de características que precisam ser geridas de forma a extrair eficazmente os dados para o processo de ETL. O processo deve integrar efetivamente os sistemas que têm diferentes plataformas, tais como diferentes sistemas de gerenciamento de banco de dados, diferentes sistemas operacionais e protocolos de comunicação diferentes. Em seguida vem a etapa de tranformação de dados, segundo passo em qualquer cenário de ETL. Esta etapa tende a fazer alguma limpeza e formatação dos dados de entrada para se obter dados precisos, dados corretos, completos, consistentes e inequivocados. Este processo inclui a limpeza de dados, transformação e integração. Ele define a granularidade das tabelas de fatos, as tabelas de dimensão, esquema do DW ("stare" ou "snowflake"), fatos derivados, mudança lenta das dimensões, tabelas de fatos sem dados. Todas as regras de transformação e os esquemas resultantes são descritos no repositório de metadados. Finalizando as etapas de ETL, carrega-se os dados para a estrutura multidimensional alvo. Neste passo, o dado extraido e transformado é escrito nas estruturas dimensionais realmente acessadas pelos utilizadores finais e sistemas de aplicação. A etapa de carga inclui ambas as tabelas de dimensão de carga e tabelas de carregamento de fatos. [5]

Os Processos utilizados para extair dados das diferentes DSs, internas e externas de uma organização, podem ser complexos e dispendiosos, e por isso as ferramentas de ETL têm se desenvolvido cada vez mais, reduzindo custos. Portanto, ETL representa mais que um fluxo de dados, representa a tranformação de dados brutos em informações que podem ser facilmente utilizadas pelos usuários de negócios. Segundo Ralph Kimball e Joe Caserta, a parte ETL consome mais de 70% de todos os recursos necessários para se construir um DW. [2][6]

OLAP

DW

Data Mining

Forecast

Análise de cenários

Conclusões

Referências

[1] A. C. A. MAXIMIANO, Introdução à Administração, 8th ed., 1 vols. São Paulo: Atlas, 2011.

[2] M.-A. Aufaure, “What’s Up in Business Intelligence? A Contextual and Knowledge-Based Perspective,” in Conceptual Modeling, W. Ng, V. C. Storey, and J. C. Trujillo, Eds. Springer Berlin Heidelberg, 2013, pp. 9–18.

[3] A. Vaisman and E. Zimányi, Data Warehouse Systems. Berlin, Heidelberg: Springer Berlin Heidelberg, 2014.

[4] “With SpagoBI suite, Engineering Group launches its open source proposition for Big Data analytics in the global marketplace | spagobi.” .

[5] S. H. A. El-Sappagh, A. M. A. Hendawi, and A. H. El Bastawissy, “A proposed model for data warehouse ETL processes,” J. King Saud Univ. - Comput. Inf. Sci., vol. 23, no. 2, pp. 91–104, Jul. 2011.

[6] “Wiley: The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data - Ralph Kimball, Joe Caserta.” [Online]. Available: http://www.wiley.com/WileyCDA/WileyTitle/productCd-0764567578.html. [Accessed: 21-Mar-2016].