Grande Data

Revisão de 18h23min de 6 de janeiro de 2014 por Gabriel de Avila Carranza (discussão | contribs) (Criou página com '== Confusão == Números errados e informações corrompidas sempre ocorreram em banco de dados, mas não queiramos considera-los inevitáveis pois devemos aprender a conviver...')
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)

Confusão

Números errados e informações corrompidas sempre ocorreram em banco de dados, mas não queiramos considera-los inevitáveis pois devemos aprender a conviver com eles. Reduzir o número de erros é garantir a qualidade dos dados. No mundo do big data armazenamos os dados como um todo (N1=1all) e não somente amostras, como é feito por exemplo em pesquisas eleitorais (IBOPE).
O CENSO, um exemplo de N1=1all, leva muito tempo para levantar todos os dados sobre a população, aproximadamente 10 anos, isso em termos de tomada de decisão é praticamente ineficaz, pois levaria muito tempo até encontrar uma solução de problemas atuais. Por isso o governo usa amostras da população, aleatoriamente, escolhendo um grupo de pessoas e extraindo os dados, posteriormente calcula-se essa pesquisa a nível nacional e retira suas conclusões com erros percentuais. Caso o governo queira detalhar essa pesquisa e buscar por exemplo: homens com idade entre 20 e 30 anos, e tentar obter alguma conclusão sobre eles teria problemas, pois a cada detalhamento em amostras o erro percentual tornasse absurdamente grande. Como solução devemos pegar os dados N1=1tudo e assim podemos detalhar pesquisas sem eventuais problemas. Aqui abrimos mão da exatidão para conhecermos melhor os detalhes que antes não podiam ser vistos.
Com o avanço da tecnologia a capacidade de recolher grande quantidade de dados a um tempo hábil e a baixo custo de armazenamento, tornou o desenvolvimento dessa área realidade.
Hoje empresas e governos estão usando essas técnicas para conhecer melhor os usuários e extrair dos dados, informações preciosas.

Correlação

Os e-commerce até encontrarem a visão de big data, processavam de modo convencional. Se você comprar um livro de determinado assunto, seria bombardeado com livros semelhantes mesmo que parasse de ler ou se quer terminasse o livro, demonstrando um sinal de que não gostou do assunto. Porém as lojas não visualizavam o cliente como um N1=1all, somente amostras. Parecia que você ia as compras com um idiota ao lado.
Hoje o sistema esta tão avançado que ao comprar um livro de culinária o site recomenda produtos como uma torradeira por exemplo, mesmo que você nunca tenha comprado uma. Com as analises mais apuradas as lojas começaram a faturar mais.
Em essência, uma correlação quantifica a relação estatística entre dois dados. Se essa correlação é forte, significa que quando um dado se altera o outro tem grande chances de alterar também.
A correlação permite que analisemos uma rotina não com o foco na ação, mas em um substitutos para analisar melhor esse fenômeno. Essa correlação pode ser meramente coincidência, não há certeza só probabilidade, é por isso que analisar o mundo dessa forma nos garante encontrar novos caminhos, pois podemos ver o mundo de todos os sentidos mesmo os que não existem coesão e também os que não encontrávamos correlação alguma.

Dataficação

A palavra "dado" tem origem do latim e pode ter o sentido de "fato". Ela tornou-se titulo de um trabalho clássico de Euclides, no qual ele explica a geometria como ela é conhecida e pode ser demonstrada.
Atualmente dados se refere a algo que permite ser analisado, registrado e organizado. Dataficar é colocar num formato quantificado a fim de tabular e analisar, é bem diferente da digitalização, processo de converter informações analógicas nos zeros e uns do código binário.
A dataficação ao máximo não é tão difícil quanto parece, seria a capacidade de tornar toda e qualquer ação, objeto e espaço em números possíveis de serem registrado. A IBM já registrou uma patente nos EUA, em 2012, sobre "Segurança por meio de tecnologia computacional de superfície", é o termo usado por profissionais para um tapete sensível ao toque, uma especie de tela gigantesca de smartphone, que seria capaz de identificar os objetos sobre ela, em sua forma básica, identificar pessoas de acordo com o peso ou postura e caminhar.

Controle

Antes que Johannes Gutenberg inventasse a imprensa, por volta de 1450, a disseminação de ideias estava limitada às conexões pessoais. Os livros eram guardados por monges que agiam em nome da Igreja Católica para proteger seu domínio. A Cambrige University começou o século XV com apenas 122 tomos. Poucos séculos depois da invenção de Gutenberg, a imprensa se replicara por toda a Europa, possibilitando a impressão em massa de livros e panfletos. Em poucos anos, o fluxo de informação passou de um riacho para um rio torrencial.
Os sistemas computacionais de hoje baseiam suas decisões em regras às quais foram programados para seguir. Os algoritmistas serão especialistas que farão um voto de imparcialidade e confidencialidade, como contadores e outros profissionais fazem hoje. Eles avaliarão a seleção de fontes de dados, a escolha de instrumentos analíticos e de previsão, incluindo algoritmos e modelos, e a interpretação dos resultados. Se houvesse um algoritmista na equipe do Department of Homeland Security (Departamento de Segurança Interna dos Estados Unidos) em 2004, talvez tivesse evitado que a agencia criasse uma lista de passageiros indesejáveis tão falha a ponto de incluir o senador Kennedy.
Assim como o big data é utilizado em grandes corporações e governos, é possível criar algoritmos que regula o poder dessas instituições, como especie de uma auditoria externa. Por fim, algoritmistas externos estão preparados para dar consultoria a agências governamentais quanto ao melhor uso do big data no setor público, com o uso da transparência e acesso a informação.
Algoritmistas internos trabalham dentro de uma organização para monitorar as atividades em prol das pessoas afetadas pelas análises, e ele seria o responsável caso qualquer problema fosse identificado.

Riscos

Durante quase 40 anos, até a queda do Muro de Berlin, em 1989, a polícia secreta da Alemanha Oriental, conhecida como Stasi, espionava milhões de pessoas. Ao empregar cerca de 100 mil pessoas em horário integral, a Stasi observava carros e ruas, abria cartas e espionava contas bancárias, instalava escutas em apartamentos, grampeava linhas telefônicas e induzia namorados e casais, pais e filhos, a se espionarem, traindo a mais básica confiança que os seres humanos nutrem um pelos outros. Hoje estamos sob constante vigilância: quando usamos cartões de crédito, celulares, documento de identidade. Confirmando assim o livro que George Orwell escreveu 1984 (Companhia das Letras, 2009). A internet facilitou, barateou e tornou o rastreamento mais útil. A Amazon monitora nossas preferências de compra, a Google nosso hábitos de navegação, enquanto o Twitter sabe o que se passa em nossas mentes. O Facebook também parece observar toda a informação, junto com nossas relações sociais. Operadoras de celular sabem não só com quem conversamos, mas também quem está próximo.
Sempre estivemos na era da informação, oque nos diferencia agora é que com a queda no custo de armazenamento, as facilidades em dataficar e o crescente poder de processamento. Coloca em risco nossa privacidade.