Carvalho Ribeiro Blog
  • Info

Conteúdo

  • O que são padrões em dados
  • Qual o objetivo
  • De onde vem a demanda
  • Como fazer
  • Pra onde vai quem é o cliente
  • Qual o resultado
  • Referência

Como Identificar padrões em dados - gráfico de dispersão

Exploração de dados
Author

Marcelo Carvalho dos Anjos

Published

August 28, 2022

Vídeo tema para este post em Como Identificar padrões em dados - gráfico de dispersão

O que são padrões em dados

  • Padrões são fenômenos que se repetem de forma regular com base em alguma regra ou em condições definidas.

  • Padrões nos permite fazer comparações e com isso deu origem a descobertas e invenções as quais são resultados da habilidade humanda de reconhecer padrões.

  • Reconhecer padrões requer repetição da experiência, e compreender os padrões é um dos fundamentos do pensamento matemático e resolução de problemas.

  • Exemplo de padrões - número, som, imagem, cores, plantas, linguagem.

Tabuleta de barro micenica de 1200 antes de Cristo com informações sobre a distrubição de couro bovino, suíno e veado aos sapateiros - PY Ub 1318

Qual o objetivo

  • Permitir que possamos fazer previsões e ou explicar melhor o fenômeno.

  • Encontrar dados relevantes para que consigamos replicar esses fenomenos para construir coisas que melhorem e simplifiquem nossa vida

De onde vem a demanda

  • Da necessidade de investigar as características com visão ampla sobre diversos pontos de vista PDCA.

  • No exemplo utilizado a)Quem eram as vítimas ? b)Em que período ele as intoxicava ? c)Em qual período de tempo ?

PDCA - Etapa 2

Como fazer

Para reproduzir os códigos abaixo serão necessários os pacotes tidyverse , ggExtra e janitor

O dados podem ser baixados no github de David Spiegelhalter

# packages  --------------------------------------------------------------------

library(tidyverse)
library(ggExtra)
library(janitor)
library(scales)

# data  -------------------------------------------------------------------
data_crime <- 
  read.csv("https://raw.githubusercontent.com/dspiegel29/ArtofStatistics/master/00-1-age-and-year-of-deathofharold-shipmans-victims/00-1-shipman-confirmed-victims-x.csv") %>% 
  janitor::clean_names()

crime_time <- 
  read.csv("https://raw.githubusercontent.com/dspiegel29/ArtofStatistics/master/00-2-shipman-times/00-2-shipman-times-x.csv") %>% 
  janitor::clean_names()

# plot    -------------------------------------------------------------------
#diagrama de dispersao
plot <- 
data_crime %>% 
  ggplot(aes(x = fractional_death_year, y = age, color = gender2))+
  geom_point()+
  labs(title = "vitimas de shipman",
       x = "ano",
       y = "idade")+
  theme(legend.title = element_blank(), legend.position = c(.125,1.15))

ggExtra::ggMarginal(plot, type = "histogram")

#linha
crime_time %>% 
  ggplot(aes(x= hour, y))+
  geom_line(aes(y = shipman, col = "Shipman"))+
  geom_line(aes(y = comparison, col = "Outros"))+
  scale_y_continuous(limits = c(0,15), labels = label_percent(scale=1))

Pra onde vai quem é o cliente

  • A próxima etapa pra quem usa o PDCA é a busca pelas causas fundamentais do problema.

PDCA - Etapa 3

Qual o resultado

  • Aperfeiçoar as técnicas de análise de fenômeno encurtando o tempo para explicação ou solução de algum problema

  • Facilitar a replicação do fenômeno e consequentemente a comunicação.

  • Melhorar as chances de sucesso na solução de problemas ou fazer qualquer coisa bem.

Referência

A arte da estatística: Como aprender a partir de dados por David Spiegelhalter, George Schlesinger