Mineração de dados explicada

Saiba o que é mineração de dados (ou data mining) e suas principais ferramentas. Conheça os usos, benefícios e tendências atuais.

O que é mineração de dados?

Mineração de dados (ou, do Inglês, data mining) é a exploração e análise de grande volume de dados para descobrir padrões e regras significativos. É considerada uma disciplina no campo de estudo da ciência de dados e difere-se da análise preditiva porque a análise preditiva descreve dados históricos, enquanto a mineração de dados visa prever resultados futuros. Além disso, as técnicas de mineração de dados são usadas para desenvolver modelos de aprendizado de máquina (machine learning, ML) que capacita o uso da inteligência artificial (artificial intelligence, AI) moderna, como algoritmos de mecanismos de pesquisa e sistemas de recomendação.

Usos de mineração de dados

Data Mining Applications

Marketing de banco de dados e direcionamento

Varejistas usam a mineração de dados para compreender melhor seus clientes. A mineração de dados permite que eles segmentem melhor os grupos de mercado e personalizem promoções para efetivamente aprofundar e oferecer promoções personalizadas para diferentes consumidores.

Gestão de risco de crédito e pontuação de crédito

Os bancos utilizam modelos de mineração de dados para prever a capacidade do tomador de empréstimo para assumir e pagar uma dívida. Usando uma variedade de informações demográficas e pessoais, esses modelos selecionam automaticamente uma taxa de juros com base no nível de risco atribuído ao cliente. Os candidatos com melhores pontuações de crédito geralmente recebem taxas de juros mais baixas, já que o modelo usa essa pontuação como um fator em sua avaliação.

Detecção e prevenção de fraudes

As instituições financeiras implementam modelos de mineração de dados para detectar e interromper automaticamente transações fraudulentas. Esta forma de computação forense ocorre pelos bastidores de cada transação e, algumas vezes, sem o consumidor saber. Ao monitorar os hábitos de gastos, estes modelos sinalizarão transações anormais e reterão instantaneamente os pagamentos até que os clientes verifiquem a compra. Os algoritmos de mineração de dados podem funcionar de forma autônoma para proteger os consumidores contra transações fraudulentas por meio de uma notificação por e-mail ou texto para confirmar uma compra.

Bioinformática de assistência médica

Os profissionais de saúde usam modelos estatísticos para prever a probabilidade de um paciente adquirir diferentes condições de saúde com base em fatores de risco. Dados demográficos, familiares e genéticos podem ser modelados para ajudar os pacientes a fazerem mudanças para prevenir ou mediar o aparecimento de condições negativas de saúde. Esses modelos foram usados recentemente em países em desenvolvimento para ajudar a diagnosticar e priorizar pacientes antes de médicos chegarem no local para administrar tratamento.

Filtro de spam

A mineração de dados também é usada para combater o influxo de e-mails de spam e malware. Os sistemas podem analisar as características comuns de milhões de mensagens maliciosas para informar o desenvolvimento de software de segurança. Além da detecção, esse software especializado pode dar um passo além e remover essas mensagens antes mesmo delas chegarem à caixa de entrada do usuário.

Sistemas de recomendação

Os sistemas de recomendação agora são amplamente usados entre os varejistas on-line. A modelagem preditiva do comportamento do consumidor é agora um foco central de muitas organizações e considerado essencial para a concorrência. Empresas como Amazon e Macy’s desenvolvem seus próprios modelos de mineração de dados exclusivos para prever a demanda e melhorar a experiência do cliente em todos os pontos de contato. A Netflix de forma reconhecida ofereceu um prêmio de um milhão de dólares por um algoritmo que aumentaria significativamente a precisão de seu sistema de recomendação. O modelo vencedor melhorou a precisão da recomendação em mais de 8%.

Análise de sentimento

A análise de sentimento a partir dos dados de mídia social é uma aplicação comum da mineração de dados que utiliza uma técnica chamada mineração de texto. Este é um método usado para obter uma compreensão de como um grupo agregado de pessoas se sente em relação a um tópico. A mineração de texto envolve o uso de um registro de canais de mídia social ou outra forma de conteúdo público para obter insights importantes como resultado do reconhecimento de padrões estatísticos. Dando um passo mais além, as técnicas de processamento de linguagem natural (natural language processing, NLP) podem ser usadas para encontrar o significado contextual por trás da linguagem humana usada.

Mineração de dados qualitativa (Qualitative Data Mining, QDM)

A pesquisa qualitativa pode ser estruturada e então analisada usando técnicas de mineração de texto para entender grandes conjuntos de dados não estruturados. Uma visão aprofundada de como isso foi usado para estudar o bem-estar infantil foi publicada pelos pesquisadores de Berkley.

Como fazer a mineração de dados

O processo de mineração de dados aceito envolve seis etapas:

  1. Compreensão do negócio

    A primeira etapa é estabelecer quais são as metas do projeto e como a mineração de dados pode ajudar você a alcançar tais metas. Um plano deve ser desenvolvido neste estágio para incluir prazos, ações e atribuições de funções.

  2. Compreensão dos dados

    Os dados são coletados de todas as fontes aplicáveis de dados nesta etapa. As ferramentas de visualização de dados muitas vezes são usadas neste estágio para explorar as propriedades dos dados para assegurar que ajudarão a alcançar os objetivos de negócios.

  3. Preparação dos dados

    Então, os dados são limpos e dados ausentes são incluídos para assegurar que estão prontos para serem minerados. O processamento de dados pode levar muito tempo dependendo da quantidade de dados analisados e do número de fontes de dados. Portanto, os sistemas distribuídos são usados em modernos sistemas de gerenciamento de banco de dados (SGBD) para melhorar a velocidade do processo de mineração de dados em vez de sobrecarregar um sistema único. Eles também são mais seguros do que ter todos os dados de uma organização em um único armazém de dados. É importante incluir medidas à prova de falhas no estágio de manipulação de dados, de modo que os dados não sejam perdidos de forma permanente.

  4. Modelagem dos dados

    Em seguida, modelos matemáticos são usados para encontrar padrões nos dados usando ferramentas de dados sofisticadas.

  5. Avaliação

    As descobertas são avaliadas e comparadas aos objetivos de negócios para determinar se devem ser implantados na organização.

  6. Implantação

    No estágio final, as descobertas de mineração de dados são compartilhadas nas operações de negócios rotineiras. Uma plataforma empresarial de business intelligence pode ser usada para fornecer uma fonte única da verdade para o data discovery independente.

Data Mining Process

Benefícios da mineração de dados

  • Tomada de decisões automatizada

    A mineração de dados permite que as organizações analisem dados de forma contínua e automatizem as decisões de rotina e cruciais sem o atraso do julgamento humano. Os bancos podem detectar transações fraudulentas instantaneamente, solicitar verificação e até mesmo guardar informações pessoais para proteger os clientes contra o roubo de identidade. Implantados em algoritmos operacionais de uma empresa, estes modelos podem coletar, analisar e agir em dados de forma independente para simplificar a tomada de decisões e melhorar os processos diários de uma organização.

  • Predição e previsão precisas

    O planejamento é um processo crucial em todas as organizações. A mineração de dados facilita o planejamento e fornece aos gerentes previsões confiáveis com base em tendências passadas e condições atuais. A Macy’s implementa modelos de previsão de demanda para prever a demanda para cada categoria de vestuário em cada loja e encaminhar o estoque apropriado para satisfazer com eficiência as necessidades do mercado.

  • Redução de custos

    A mineração de dados permite o uso e a alocação mais eficientes dos recursos. As organizações podem planejar e tomar decisões automatizadas com previsões precisas que resultarão em redução máxima de custos. A Delta incorporou chips RFID [Radio-Frequency Identification (identificação por radiofrequência)] nas bagagens despachadas dos passageiros e implantou modelos de mineração de dados para identificar as funções no processo e reduzir o número de malas extraviadas. Essa melhoria de processo aumenta a satisfação do passageiro e diminui o custo de busca e redirecionamento de bagagem perdida.

  • Insights sobre os clientes

    As empresas implementam modelos de mineração de dados a partir de dados de clientes para descobrir as principais características e diferenças entre seus clientes. A mineração de dados pode ser usada para criar personas e personalizar cada ponto de contato para melhorar a experiência geral do cliente. Em 2017, a Disney investiu mais de um bilhão de dólares para criar e implementar pulseiras digitais, as “Magic Bands”. Estas pulseiras têm uma relação simbiótica com os clientes, trabalhando para aumentar sua experiência geral no resort e, ao mesmo tempo, coletando dados sobre suas atividades para a Disney analisar e melhorar ainda mais a experiência do cliente.

Desafios da mineração de dados

Embora seja um processo poderoso, a mineração de dados é prejudicada pelo aumento da quantidade e da complexidade do Big Data. Quando exabytes de dados são coletados pelas empresas todos os dias, os tomadores de decisão precisam encontrar maneiras de extrair, analisar e obter insights de seu abundante repositório de dados.

  • Big Data

    Os desafios do big data são prolíficos e penetram em todos os campos que coletam, armazenam e analisam dados. Big data é caracterizado por quatro desafios principais: volume, variedade, veracidade e velocidade. O objetivo da mineração de dados é mediar esses desafios e desbloquear o valor dos dados.

    Volume descreve o desafio de armazenar e processar a enorme quantidade de dados coletados pelas organizações. Esta enorme quantidade de dados apresenta dois desafios importantes: primeiro, é mais difícil encontrar os dados corretos e, segundo, desacelera a velocidade de processamento das ferramentas de mineração de dados.

    Variedade abrange os muitos tipos diferentes de dados coletados e armazenados. As ferramentas de mineração de dados devem ser equipadas para processar simultaneamente uma grande variedade de formatos de dados. Deixar de focar em uma análise em dados estruturados e não estruturados inibe o valor agregado pela mineração de dados.

    A velocidade detalha a velocidade crescente na qual novos dados são criados, coletados e armazenados. Embora o volume se refira ao aumento da exigência de armazenamento e a variedade se refira aos tipos crescentes de dados, a velocidade é o desafio associado à rápida taxa crescente de geração de dados.

    Finalmente, veracidade reconhece que nem todos os dados são igualmente precisos. Os dados podem ser confusos, incompletos, coletados impropriamente e até mesmo tendenciosos. Como com qualquer coisa, quanto mais rápido os dados são coleados, mais erros se manifestarão nos dados. O desafio da veracidade é equilibrar a quantidade dos dados com sua qualidade.

  • Modelos com sobreajuste

    O sobreajuste ocorre quando um modelo explica os erros naturais em uma amostra em vez das tendências subjacentes da população. Os modelos de sobreajuste muitas vezes são excessivamente complexos e utilizam um excesso de variáveis independentes para gerar uma predição. Portanto, o risco do sobreajuste é aumentado pelo aumento no volume e na variedade de dados. Poucas variáveis tornam o modelo irrelevante, enquanto muitas variáveis restringem o modelo aos dados da amostra conhecidos. O desafio é moderar o número de variáveis usados nos modelos de mineração de dados e equilibrar sua capacidade preditiva com precisão.

Data Mining Challenges
  • Custo de escala

    À medida que a velocidade dos dados continua aumentando o volume e a variedade dos dados, as empresas precisam dimensionar esses modelos e aplicá-los em toda a organização. Desbloquear todos os benefícios da mineração de dados com esses modelos exige investimentos significativos em infraestrutura de computação e poder de processamento. Para alcançar escala, as organizações devem comprar e manter computadores, servidores e softwares poderosos projetados para lidar com a grande quantidade e variedade de dados da empresa.

  • Privacidade e segurança

    O aumento do requisito de armazenamento de dados forçou muitas empresas a se voltarem para a computação e armazenamento em nuvem. Embora a nuvem tenha potencializado muitos avanços modernos na mineração de dados, a natureza do serviço cria ameaças significativas à privacidade e segurança. As organizações devem proteger seus dados contra figuras maliciosas para manter a confiança de seus parceiros e clientes.

    Com a privacidade de dados surge a necessidade das organizações de desenvolver regras e limites internos sobre o uso e a implementação de dados de um cliente. A mineração de dados é uma ferramenta poderosa que fornece às empresas insights atraentes para seus consumidores. No entanto, em que ponto esses insights violam a privacidade de um indivíduo? As organizações devem ponderar este relacionamento com seus clientes, desenvolver políticas para beneficiar os clientes e comunicar estas políticas aos consumidores para manter um relacionamento confiável.

Tipos de mineração de dados

A mineração de dados tem dois processos principais: aprendizado supervisionado e não supervisionado.

  • Aprendizado supervisionado

    A meta do aprendizado supervisionado é a predição ou classificação. A maneira mais fácil de conceituar este processo é procurar uma variável de saída única. Um processo é considerado aprendizado supervisionado se o objetivo do modelo é predizer o valor de uma observação. Um exemplo são os filtros de spam, que usam o aprendizado supervisionado para classificar os e-mails recebidos como conteúdo indesejado e remover automaticamente essas mensagens da sua caixa de entrada.

    Modelos analíticos comuns usados em abordagens de mineração de dados supervisionadas são:

    • Regressões lineares

      As regressões lineares estimam o valor de uma variável contínua usando uma ou mais entradas independentes. Corretores de imóveis usam regressões lineares para prever o valor de uma casa com base na metragem quadrada, na proporção entre o número de quartos e banheiros, ano construído e código postal.

    • Regressões logísticas

      As regressões logísticas estimam a probabilidade de uma variável categórica usando uma ou mais entradas independentes. Os bancos usam regressões logísticas para prever a probabilidade de um solicitante de empréstimo ficar inadimplente com base na pontuação de crédito, renda familiar, idade e em outros fatores pessoais.

    • Série temporal

      Modelos de série temporal são ferramentas de previsão que usam o tempo como a variável independente principal. Varejistas, como a Macy’s, implantam modelos de série temporal para prever a demanda de produtos em função do tempo e usam a previsão para preparar e armazenar com precisão as lojas com o nível necessário de estoque.

    • Árvores de classificação ou regressão

      Árvores de classificação são uma técnica de modelagem preditiva que pode ser usada para prever o valor das variáveis de segmentação categórica e contínua. Com base nos dados, o modelo criará conjuntos de regras binárias para dividir e agrupar a proporção mais alta de variáveis de destino semelhantes juntas. Seguindo essas regras, o grupo no qual uma nova observação se enquadra se tornará seu valor previsto.

    • Redes neurais

      Uma rede neural é um modelo analítico inspirado na estrutura do cérebro, seus neurônios e suas conexões. Esses modelos foram originalmente criados em 1940, mas só recentemente ganharam popularidade entre estatísticos e cientistas de dados. As redes neurais usam entradas e, com base em sua magnitude, “disparam” ou “não disparam” seu nó com base em seu requisito de limite. Este sinal, ou a falta dele, é então combinado com os outros sinais “disparados” nas camadas ocultas da rede, onde o processo se repete até que uma saída seja criada. Como um dos benefícios das redes neurais é uma saída quase instantânea, os carros autônomos estão implantando esses modelos para processar com precisão e eficiência os dados para tomar decisões críticas de forma autônoma.

    • K-vizinho mais próximo

      O método K-vizinho mais próximo é usado para categorizar uma nova observação com base em observações passadas. Diferente dos métodos anteriores, o K-vizinho mais próximo é impulsionado pelos dados e não impulsionado por modelos. Este método não faz suposições subjacentes sobre os dados, nem implanta processos complexos para interpretar suas entradas. A ideia básica do modelo K-vizinho mais próximo é que ele classifica novas observações identificando seus vizinhos K mais próximos, atribuindo o valor da maioria. Muitos sistemas de recomendação incluem este método para identificar e classificar conteúdo semelhante que mais tarde será puxado pelo algoritmo maior.

Types of Data Mining
  • Aprendizado não supervisionado

    As tarefas não supervisionadas se concentram em entender e descrever os dados para revelar padrões subjacentes dentro dele. Os sistemas de recomendação empregam o aprendizado não supervisionado para rastrear padrões de usuários e fornecer recomendações personalizadas para melhorar a experiência do cliente.

    Modelos analíticos comuns usados em abordagens de mineração de dados não supervisionadas são:

    • Clustering

      Modelos de clustering agrupam dados semelhantes. São melhor empregados com conjuntos de dados complexos que descrevem uma entidade única. Um exemplo é a modelagem por semelhança, para agrupar similaridades entre segmentos, identificar clusters e mirar novos grupos que se parecem com um grupo existente.

    • Análise de associação

      A análise de associação também é conhecida como análise da cesta de compras e é usada para identificar itens que com frequência ocorrem juntos. Os supermercados normalmente usam esta ferramenta para identificar produtos correlacionados e espalhá-los na loja para incentivar que os clientes passem por mais mercadorias e aumentem suas compras.

    • Análise de componente principal

      A análise de componente principal é usada para ilustrar correlações ocultas entre variáveis de entrada e criar novas variáveis, chamadas de componentes principais, o que captura as mesmas informações contidas nos dados originais, mas com menos variáveis. Ao reduzir o número de variáveis usado para transmitir o mesmo nível de informações, os analistas podem aumentar a utilidade e a precisão dos modelos de mineração de dados supervisionados.

  • Abordagens supervisionadas e não supervisionadas na prática

    Embora seja possível usar cada abordagem de forma independente, é bastante comum usar ambas durante uma análise. Cada abordagem tem vantagens únicas e combinam-se para aumentar a robustez, estabilidade e utilidade geral dos modelos de mineração de dados. Modelos supervisionados podem se beneficiar de variáveis de aninhamento derivadas de métodos não supervisionados. Por exemplo, uma variável de cluster dentro de um modelo de regressão permite que os analistas eliminem variáveis redundantes do modelo e melhorem sua precisão. Como as abordagens não supervisionadas revelam os relacionamentos subjacentes nos dados, os analistas devem usar os insights do aprendizado não supervisionado como ponto de partida para a análise supervisionada.

Ferramentas de mineração de dados

As soluções de mineração de dados se proliferaram, então é importante compreender bem seus objetivos específicos e correlacioná-los com as ferramentas e plataformas certas.

RapidMiner

RapidMiner é um software de código aberto escrito em Java. O RapidMiner é uma das melhores plataformas para realizar análises preditivas e oferece ambientes integrados para aprendizagem profunda, mineração de texto e aprendizado de máquina. A plataforma pode utilizar serviços on-premises ou baseada em nuvem e foi implementada em uma ampla gama de organizações. RapidMiner oferece um ótimo equilíbrio de recursos de codificação personalizados e uma interface amigável, o que permite que a plataforma seja aproveitada com mais eficácia por aqueles com uma base sólida em codificação e mineração de dados.

Orange

Orange é um software com base em componentes de código aberto escrito em Python. O Orange conta com recursos de pré-processamento de dados fáceis e é uma das melhores plataformas para análises de mineração de dados básicas. Orange assume uma abordagem orientada aos usuários para a mineração de dados com uma interface única e intuitiva. Entretanto, uma das principais desvantagens é seu conjunto limitado de conectores externos de dados. O Orange é perfeito para empresas que procuram mineração de dados fácil de usar e que usam armazenamento no local.

Mahout

Desenvolvida pela Apache Foundation, Mahout é uma plataforma de código aberto que foca no processo de aprendizado não supervisionado. O software se sobressai na criação de algoritmos de aprendizado de máquina para clustering, classificação e filtragem colaborativa. Mahout é fornecida para pessoas com conhecimentos mais avançados. O programa permite que matemáticos, estatísticos e cientistas de dados criem, testem e implementem os próprios algoritmos. Embora Mahout inclua vários algoritmos pronto para uso, como um sistema de recomendação, que as organizações podem usar com esforço mínimo, a plataforma maior exige conhecimentos mais especializados para aproveitar suas capacidades completas.

Microstrategy

MicroStrategy é um software de business intelligence de análises de dados que complementa todos os modelos de mineração de dados. Com uma ampla gama de gateways e drivers, a plataforma pode conectar-se a qualquer recurso empresarial e analisar seus dados. MicroStrategy é excelente em transformar dados complexos em visualizações acessíveis para serem distribuídos por uma organização. O software pode monitorar e analisar o desempenho de todos os modelos de mineração de dados em tempo real e exibe claramente esses insights para tomadores de decisão. Combinar o MicroStrategy com uma ferramenta de mineração de dados possibilita aos usuários criarem modelos de mineração de dados avançados, usá-los na organização e tomar decisões a partir de seus insights e desempenho no mercado.

Perguntas frequentes

Qual é a definição de mineração de dados?
Por que realizar a mineração de dados em primeiro lugar?
Quais são alguns exemplos de mineração de dados?
Qual é o processo de mineração de dados?
Quais são as técnicas de mineração de dados?
Quais são as vantagens da mineração de dados?
Quais são os desafios da mineração de dados?
Qual é a diferença entre mineração de dados e data discovery?
Quais são as tendências futuras na mineração de dados?
O que é mineração da Web?
Quais são as ferramentas de mineração de dados importantes?
Como avalio os modelos de mineração de dados?
O que é mineração de dados relacional?