Blog Zoox Smart Data

Data Science: Tudo o que você precisa saber antes de iniciar um projeto

Escrito por Zoox Smart Data | Sep 23, 2022 5:29:49 PM

“Dados! Dados! Dados!” ele gritou impacientemente. “Não posso fabricar tijolos sem barro”

—Arthur Conan Doyle

Neste especial, a Zoox Smart Data tem o prazer de trazer um pouco mais sobre o universo dos dados e como colocá-los em perspectiva levou ao que vivenciamos hoje como a transformação digital.

“Big Data“ é a palavra do momento.  A maioria das pessoas que se depara com ela percebe que é uma força poderosa em um processo de transformação digital. Porém, poucos conhecem a variedade de ferramentas disponíveis que podem ajudar os negócios de grande e pequeno porte a aproveitar essa revolução.

Mas afinal, o que é big data, o que é data science, como começar um projeto de data science?

Neste especial, buscamos trazer de forma bem elucidativa, o que é, por onde começar e as perspectivas desse segmento para o mercado.

Boa leitura.

O que é Data Science?

Antes de explicarmos o que é Data Science, é preciso explicar, de forma didática, o que é big data e a sua importância.

Tradicionalmente, big data é a expressão para dados com enorme volume, velocidade e variedade. As tecnologias tradicionais de banco de dados não conseguem lidar com ele — por isso a necessidade de inovações de engenharia de dados. 

Já o Data Science é a arte de coletar esses dados do big data para prever comportamentos futuros, descobrir padrões que nos ajudarão a priorizar ou obter informações produtivas ou, ainda, extrair sentidos desse montante de dados inexplorados. Data Science envolve princípios, processos e técnicas para compreender fenômenos por meio da análise (automatizada) de dados.

Quando falamos sobre Decisão Orientada por Dados (DOD) nos referimos à prática de basear as decisões na análise dos dados, em vez de apenas na intuição.

O economista Erik Brynjolfsson e seus colegas do MIT e da Penn’s Wharton School realizaram um estudo de como DOD afeta o desempenho das empresas (Brynjolfsson, Hitt & Kim, 2011). 

Foi desenvolvida uma medida de DOD que classifica as empresas quanto ao uso de dados para tomar decisões. Eles mostram que, estatisticamente, quanto mais orientada por dados, mais produtiva uma empresa é — mesmo controlando uma vasta gama de possíveis fatores de confusão. E as diferenças não são pequenas. Um desvio padrão a mais na escala de DOD está associado com um aumento de 4%–6% na produtividade.

 A DOD também está correlacionada com maior retorno sobre ativos, retorno sobre o patrimônio  líquido, utilização de ativos e valor de mercado - a relação parece ser causal.

Um dos principais ativos do Data Science são os dados, e a capacidade de extrair conhecimento útil a partir deles, ao serem considerados importantes ativos estratégicos.

Ao termos a plena visualização dos dados como ativos, nos é permitido pensar explicitamente sobre a extensão em que se deve investir neles. 

Construir uma equipe de alto nível em data science é uma tarefa não trivial, mas pode fazer uma enorme diferença para a tomada de decisão.

O que eu preciso saber para iniciar no mundo da Data Science?

É desafiador imaginar as infinitas possibilidades que os dados nos proporcionam. 

Antes de prosseguir, devemos rever brevemente o lado da engenharia de data science. Discussões sobre data science comumente mencionam não apenas habilidades e técnicas analíticas para compreensão dos dados, mas também as ferramentas mais usadas. Definições dos cientistas de dados (e anúncios para os cargos) especificam não apenas áreas de conhecimento, mas também linguagens de programação e ferramentas específicas. 

É comum ver anúncios de emprego que mencionam técnicas de mineração de dados (por exemplo, florestas aleatórias, máquinas de vetor de suporte), áreas de aplicação específica (sistemas de recomendação, otimização de posicionamento de anúncios), juntamente com ferramentas de software populares para o processamento de big data (Hadoop, MongoDB). Muitas vezes, há pouca distinção entre a ciência e a tecnologia para lidar com grandes conjuntos de dados.

Portanto, o primeiro passo é ter conhecimento das linguagens, ou se especializar em uma única linguagem.

Em sequência, devemos ressaltar que data science, como ciência da computação, é um campo novo. As preocupações específicas de data science são bastante novas e os princípios gerais estão começando a emergir.

Compreender o processo e as etapas ajuda a estruturar nosso pensamento de análise de dados e o torna mais sistemático e, portanto, menos propenso a erros e omissões.

Existem evidências convincentes de que a tomada de decisões orientada em dados e tecnologias de big data melhoram substancialmente o desempenho nos negócios.

Data science suporta a tomada de decisões orientada por dados — e, às vezes, conduz automaticamente tais tomadas de decisão — e depende de tecnologias para armazenamento e engenharia de “Big Data”, mas seus princípios são separados. Os princípios de data science, também diferem e são complementares a outras tecnologias importantes, como testes de hipóteses estatísticas e consultas de base de dados (que têm seus próprios livros e aulas).

O que é preciso saber para começar um projeto Data Science?

Como você já sabe, Data Science é a ciência da computação que extrai informações significativas a partir de dados brutos e comunica-as, com eficiência, em atividades práticas.

A engenharia de dados, por outro lado, é um domínio da engenharia dedicado a criar e manter sistemas que superam as obstruções do processamento de dados e os problemas do tratamento de dados para os aplicativos que consomem, processam e armazenam dados com grande volume, variedade e velocidade.

Os cientistas de dados e analistas de negócio que atuam com inteligência de negócio são como primos: ambos usam dados para trabalhar no mesmo objetivo comercial, mas sua abordagem, tecnologia e função diferem em graus mensuráveis.

A finalidade da inteligência de negócio é transformar dados brutos em informações de negócio que os líderes e gerentes podem usar para tomar decisões derivadas dos dados. Os analistas de negócio usam as ferramentas de inteligência de negócio para dar suporte à tomada de decisões de gerenciamento de negócio. Se você quiser criar painéis de suporte à decisão, visualizações ou relatórios a partir de conjuntos completos de médio porte de dados de negócio estruturados, pode usar as ferramentas e métodos de inteligência de negócio.

Existem alguns conhecimentos de suma importância a serem explorados para quem deseja se aventurar nesse meio e é a partir dos temas a seguir, que você terá um vislumbre da importância de cada um para a área.

 Linguagens

Para aqueles que estão se inserindo na área de Data Science, um dos grandes questionamentos está relacionado à linguagem a ser usada. 

Alguns especialistas defendem o fato de que o desempenho da linguagem em si não importa, mas sim a desenvoltura na qual é usada. Enquanto outros defendem que existem algumas linguagens-chave que precisam ser utilizadas para que o trabalho ganhe fluidez.

Não existe certo ou errado. O fato é que cada linguagem tem suas vantagens e desvantagens. O importante é conhecê-las minimamente e compreender qual delas é a que mais se adequa ao seu modelo de negócio e segmento de atuação.

Atualmente as linguagens mais utilizadas são: 

  • Phyton;
  • R; 
  • Scala; 
  • SAS; 
  • Java; 
  • Matlab; 
  • C; 
  • C++

Mineração de dados

A mineração de dados - ou data mining- é o processo que permite relacionar os dados e encontrar anomalias, padrões e correlações na grande infinidade que é o big data.

Através da utilização de algumas técnicas, é possível obter insights valiosos que contribuem no aumento de receita, redução de custos, diminuição de riscos e auxilia na criação de experiências hiperpersonalizadas e hipersegmentadas para os clientes. 

As principais técnicas utilizadas na mineração de dados são:

  • Classificação; 
  • Associação; 
  • Agrupamento

Variedade de dados

A grande velocidade e imenso volume de dados que são incorporados ao big data diariamente ocasiona a Variedade de Dados. Por isso, no Data Science e na engenharia de dados, geralmente, você trabalha com três variedades de dados.

Dados estruturados: São dados armazenados, processados e manipulados em linhas e colunas, em formato tabela, e são encontrados em bancos de dados relacionais (RDBMS).

Dados não estruturados: Não se encaixam em nenhum formato de banco de dados estruturado. Esse tipo de dado geralmente é gerado a partir da atividade humana.

Dados semiestruturados: Esse tipo de dado não se encaixa em nenhum banco de dados estruturado, porém pode ser estruturado por etiquetas - tags - úteis para criar uma segmentação, ordem e hierarquia.

Agora que você já sabe os conhecimentos necessários para o desenvolvimento de um projeto de Data Science, vamos entender o passo a passo para a sua implementação.

Passo a passo para a implementação de um projeto

Entender o problema e as possíveis soluções

Compreender o problema que você busca resolver é um princípio básico de um projeto de qualidade. Essa definição ajuda a delimitar e direcionar o foco do seu time de data science

Com um problema bem definido se pode traçar possíveis soluções e buscar fontes de dados seguras e que ajudem a estruturar uma análise de qualidade, orientando uma tomada de decisão assertiva.

Cada problema deve ser definido, compreendido e analisado de forma isolada.

Obtenção e tratamento dos dados

Esse é um dos passos mais trabalhosos e delicados. Textos, tabelas, áudios, fotos, vídeos, documentos ou comentários, os dados podem vir de variadas fontes, formatos e estruturas. 

Nessa etapa, é importante a realização de um trabalho em conjunto entre o dono dos dados e a equipe de data science.

 O dono dos dados é responsável por fornecer a sua visão crítica sobre os dados com base no seu conhecimento e experiência, orientando quais dados são confiáveis e podem ser utilizados. Já a equipe de data science pega essas informações e aplica técnicas de big data, amostragem e mineração de dados para obter o tratamento adequado para enviá-los para a análise.

É importante lembrar que a qualidade dos dados depende da sua origem e dos tratamentos aplicados.

Análise e interpretação dos dados

Com dados confiáveis em mãos, se inicia a etapa de análise e interpretação. 

Nessa parte do projeto, são utilizados machine learning ou algoritmos estatísticos para detectar padrões, tendências e gerar modelos preditivos que ajudarão a obter insights valiosos para a orientação de uma tomada de decisão.

Tomada de decisão e implementação

Essa é a etapa final do projeto e ela pode ser colocada em prática de duas formas. A primeira é tomando decisões baseadas nos aprendizados gerados ao longo do projeto e a segunda é implementar modelos que atuem nos dados finais. 

O objetivo dessa etapa é garantir que o projeto tenha utilidade e os insights gerados contribuam para a solução do problema definido

-----------

Data Science é uma área completamente nova e em constante evolução. Sem dúvidas, é um setor que pode contribuir com o crescimento de diversas áreas da sua empresa. 

Esses foram os conhecimentos e passos básicos que, a partir dos nossos anos de experiência com projetos da área, podemos compartilhar com você. 

Porém, lembre-se sempre: não existe uma receita certa. Cada projeto é único e depende dos seus objetivos, área de atuação e segmento.