Mas afinal… o que é Big Data? Descubra e saiba por onde começar!

Você já deve ter escutado o termo Big Data por aí e se perguntou: que raio de coisa é essa?

Mesmo sem saber, você também já deve ter notado que é um assunto que está bastante em alta no últimos tempos e vem ganhando popularidade mais rápido que qualquer outro tema no mundo da tecnologia.

Mas o que é Big Data?

Provavelmente você não vai encontrar uma definição formal para Big Data no dicionário. Mas podemos considerá-lo como uma coleção de conjuntos de dados tão grandes e complexos que gerenciá-los por ferramentas tradicionais de banco de dados é inviável.

Em outras palavras, Big Data consiste em um grande volume de dados diversos que estão sendo gerados em alta velocidade. Esses dados não podem ser gerenciados e processados usando softwares e aplicações tradicionais. O Big Data requer o uso de um novo conjunto de ferramentas, aplicações e estruturas para processar e gerenciar dados.

Características do Big Data

Mas e como saber quando estou lidando com Big Data?Três V's do Big Data | Big Data: o que é e por onde começar!

O Big Data pode ser identificado através de algumas características específicas. Essas características são popularmente conhecidas como os Três Vs do Big Data, são eles: Volume, Velocidade e Variedade.

Volume:

Refere-se à quantidade de dados em que se está trabalhando. Com o avanço da tecnologia e a invenção de novas mídias e redes sociais, a quantidade de dados gerados diariamente cresce muito mais rápido do que se possa imaginar. Esses dados estão espalhados por diferentes lugares, em diferentes formatos e variando de Gigabytes para Terabytes, Petabytes, Exabytes e subindo exponencialmente.

Pra termos uma noção, dados são gerados quando você: faz ligações, troca mensagens, realiza transações bancárias, envia e-mails, acessa sites ou plataformas de busca ou jogos online, passa em uma catraca, bate o ponto no serviço, usa o cartão de crédito ou o de débito, realiza compras online, realiza compras na loja física, login, logout, enfim… Deu para entender, certo?

Ao ler esse post, por exemplo, você está gerando dados!

É importante lembrar que esses dados não são produzidos somente por humanos. Existem grandes quantidades de dados sendo fornecidos por máquinas, como: servidores, dados de APIs, filas de mensagens, logs diversos e por aí vai.

Velocidade:

O segundo V é relacionado com a rapidez com que os dados são gerados. Diferentes softwares possuem diferentes requisitos. No mundo competitivo atual, tomadores de decisão precisam de informações na menor quantidade de tempo possível – preferencialmente em tempo real. Nos diferentes campos e diferentes áreas da tecnologia, vemos dados sendo gerados em diferentes velocidades. Como o pessoal que usa dados do mercado financeiro, tweets e ações no Facebook (curtidas, comentários e compartilhamentos, por exemplo).

Pense no Uber e imagine como seria caso o app não conseguisse mostrar aonde está a exata localizado do motorista, bem como, mostrar a estimativa de quanto tempo o motorista irá levar para chegar ao seu local. É muito possível que o aplicativo seria um total fracasso ou apenas mais um na indústria, certo?

Quer um exemplo melhor?

Vamos imaginar a rotina de um investidor da bolsa de valores. Imagine caso o investidor não conseguisse acompanhar a bolsa em tempo real. Em outras palavras, ele iria precisar esperar o dia passar para saber se ganhou dinheiro ou perdeu. Nesse meio tempo, ele poderia ter tomado diversas decisões, como retirar o seu dinheiro ou investir ainda mais.

Variedade:

Refere-se aos diferentes formatos em que os dados estão sendo gerados ou armazenados. Diferentes aplicações geram dados em diferentes formatos, como: textos, números, imagens, áudios, vídeos, dados estruturados e, também, dados não estruturados.

Em muitos casos, grandes volumes de dados não estruturados são gerados separadamente de dados estruturados, sendo que ambos se complementam. Até o avanço das tecnologias em Big Data, a indústria não possuía ferramentas poderosas e confiáveis que pudesse trabalhar com tamanho volume de dados não estruturados que vemos atualmente. E isso é fundamental!

No mundo de hoje, organizações não dependem só de dados estruturados oriundos do banco de dados da empresa. Elas estão sendo forçadas a consumir grandes quantidades de dados que são gerados também externamente a empresa. Dados comportamentais de fluxo de cliques e redes sociais, por exemplo. Só assim para conseguir acompanhar o mercado e se manter competitivo.

Tipos de dados

Tipos de Dados | Big Data: o que é e por onde começar!Os dados existem em diversos formatos, mas podem ser classificados em duas categorias: estruturados e não estruturados.

  • Os dados estruturados são dados que possuem uma estrutura pré-definida e que muitas vezes são de natureza relacional ou se assemelham a um modelo relacional. Dados estruturados podem ser facilmente gerenciados e consumidos usando ferramentas tradicionais. Incluem-se nesta categoria os bancos de dados relacionais, dados de sistemas CRM, arquivos XML, etc.
  • Os dados não estruturados, por sua vez, são os dados que não têm um modelo bem definido ou que não se encaixam no mundo relacional. E-mails, imagens, áudios, feeds, arquivos PDF, documentos digitalizados e entre outros são exemplos dessa categoria.

Fontes do Big Data

Aí você deve estar se perguntando: como encontrar os benditos dados?

Assim como os formatos de armazenamento dos dados evoluíram, as fontes para encontrá-los também e sua expansão é constante. Existe a necessidade de armazenar os dados em uma ampla variedade de formatos. Grandes fontes de dados podem ser classificadas em seis categorias diferentes:

  • Dados da Empresa: arquivos simples, e-mails, documentos do Word, planilhas, apresentações, páginas / documentos HTML, documentos PDF, XMLs, formatos herdados, etc.
  • Dados transacionais: muitas empresas possuem alguns tipos de aplicações que envolvem a realização de diferentes tipos de transações, como aplicativos da Web, aplicativos móveis, sistemas de CRM, entre outros. Para suportar as transações dessas aplicações, geralmente há um ou mais bancos de dados relacionais com uma infraestrutura de back-end.
  • Mídias Sociais: existe uma grande quantidade de dados sendo gerados em plataformas e redes sociais como o Twitter, Facebook, etc. As redes sociais geralmente envolvem principalmente formatos de dados não estruturados.
  • Dados gerados por máquinas: em geral, possuem volumes de informações que ultrapassam a capacidade de geração de dados por seres humanos. Incluem-se nesta categoria dados de dispositivos médicos, vídeos de vigilância, satélites, torres de telefones celulares, maquinaria industrial e outros.
  • Dados públicos: são dados que estão disponíveis publicamente, como dados de organizações governamentais, institutos de pesquisa, departamentos meteorológicos, dados do Censo, Wikipédia, etc.
  • Dados de arquivo: com o baixo custo de hardware e o crescimento da armazenagem nas nuvens, nenhuma organização quer descartar esses dados. Pelo contrário, querem armazenar tantos dados quanto possível. Incluem-se nesta categoria documentos digitalizados, registros de ex-funcionários, projetos concluídos, transações bancárias antigas, etc.

Como trabalhar com dados?

SQL Server e Hadoop| Big Data: o que é e por onde começar!

Vamos então à parte prática! Sistemas de Big Data podem ser trabalhados com servidores de bancos de dados SQL e NoSQL que possuem fins analíticos. A sugestão é sempre tentar conhecer os dois modelos, tanto o SQL quanto o NoSQL. Contudo, sabemos que isso nem sempre é possível.

Portanto, a minha sugestão é a seguinte:

  • Para NoSQL, o MongoDB tem crescido bastante e é uma excelente opção
  • Para SQL, o Microsoft SQL Server tem se mostrado interessante a partir da sua versão 2014.

Na versão 2014 do SQL Server, foram lançadas um conjunto de ferramentas que giram em torno do tema Big Data, tais como o Microsoft Analytics Platform e o Azure SQL Database.

Além disso, nessa versão, também está presente a integração do SQL com o Hadoop. O Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. Para muitos cientistas de dados, a integração com o Hadoop é essencial para a gestão de Big Data. O MongoDB também possui essa integração.

Outras soluções como a da Oracle também possuem essa integração e ferramentas de análise, portanto, sinta-se à vontade para estudar bastante e fazer a melhor escolha de SGBD para você e seu projeto.

Como começar os estudos na área?

A ciência de dados pode ser vista como uma evolução da análise e gestão de negócios, pois é uma atividade que permite aos tomadores de decisão das empresas optarem por caminhos mais assertivos. O que reduz significativamente os riscos para uma organização, por trazer o fator estatístico para pautar as decisões estratégicas.

Então, além da afinidade com a matemática e o pensamento lógico, o cientista de dados precisa estar familiarizado com os bancos de dados relacionais e os NoSQL. Você terá que dominar a linguagem SQL para realizar consultas e análises em bancos de dados relacionais. E, também, terás que aprender JavaSript para lidar com banco de dados NoSQL

Uma forma de entender mais sobre esses conceitos e aproximar-se da profissão, é iniciando os estudos sobre Banco de Dados. Na Becode, temos um excelente treinamento para isso. O foco desse treinamento é criar uma sólida base de conhecimentos sobre Banco de Dados relacionais, para então, partir os estudos para tópicos mais avançados e mais próximos a área de Big Data.

Contudo, se você já estiver interessado em iniciar os estudos em um SGBD com a integração com o Hadoop, uma boa pedida é o curso de SQL server 2014, onde você irá aprender a usar a ferramenta do zero! Desta forma, preparando-se para as ferramentas mais avançadas e analíticas do SGBD.

Além disso, procure aprender sobre Linux. Nesse post, explicamos com mais detalhes porque o conhecimento em Linux é fundamental para quem deseja trabalhar com Big Data, dê uma olhada nele também, vale a pena! Bom, por enquanto é isso. Acredito que você tem decisões importantes para fazer, quanto o seu primeiro passo na área.

Espero que esse post tenha ajudado você nesse sentido! Qualquer dúvida, sugestão ou crítica, fique à vontade para deixar o seu comentário abaixo. Iremos adorar ouvir de você. Até a próxima!

 

Curso Online de Microsoft SQL Server 2014 da Becode

Keise de Leone Marques

Escrito por Keise de Leone Marques

Comunicadora dedicada à tecnologia da informação e MBA em Marketing Digital. Fã da análise de dados, curiosa por Big Data e Internet das Coisas. Nas horas vagas, procura agregar conhecimentos com novas certificações. Objetivo: aliar Comunicação e Tecnologia da Informação para revolucionar o mundo.

8 Comentários

Leave a Reply
    • Estou a ler todos os tópicos do Site da Becode, estão de parabéns, eu Li mais de 12 tópicos, e só esse conteúdo do Big Data Li mais de 8 vezes eu acho, e fico me fazendo repetidamente perguntas do Big data para entra na minha cabeça para depois eu ter confiança em responder perguntas sobre o trabalho, muito obrigado, estou a fazer estagio de TI tecnologia da informação em uma empresa chamada Duratex na unidade de Taquari RS a um ano e sete meses, vou ficar fazendo até completar 2 anos que é a data que não pode mais renovar o estagio, mais ainda tenho chance de ser efetivado é difícil mais não perco o foco, estou dando o meu melhor e tudo que vem de conhecimento que eu posso fazer estou la sempre, ótimo site, e me desculpem pela frase rustica a cima pensei que não iria enviar, ate por q só mó nerd para coisa de tecnologia pego tudo fácil kkkk, vou continuar seguindo vocês e arrecadando mais conhecimento sobre o Site muito obrigado abraços att.;;

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Por que aprender Linux deveria ser a sua prioridade! | Becode

Por que aprender Linux deveria ser a sua prioridade!

Entrevista de emprego para área de tecnologia? Veja como se portar! | Becode

Entrevista de emprego para área de tecnologia? Veja como se portar!