[blockquote]Essa apresentação foi publica primeiro no Blog da Bluesoft[/blockquote]
Tive o imenso prazer de apresentação no evento Papo Reto da Bluesoft a palestra “Pensando como um Data Scientist“.
Na apresentação explico sobre os 10 erros que geralmente cometemos ao analisar dados.
Esses erros foram enumerados por Monica Rogati, Data Scientist no Linked In.
Veja quais são os erros:
- Não normalizar os dados
- Excluir outliers
- Não excluir outliers
- Igorar Sazonalidade
- Ignorar o Tamanho
- Vomitar Dados
- Métricas Pró-ativas demais
- Síndrome do Não Coletado Aqui
- Forcar no Ruído
Confira os slides e o vídeo da Apresentação:
Legal a iniciativa de espalhar sobre o Lean Analytics, ótimo livro!
Algumas pequenas correções/atualizações:
* Monica Rogati não é mais do Linkedin (era na época do livro!)
* Normalizar (para data science) não se trata da formatação dos dados (como em bancos de dados). Normalizar é limitar a faixa de valores de uma característica (remover a média e escalar de acordo com sua variância, transportando-a para a faixa de -1 a +1, por exemplo, sendo 1 o valor máximo e -1 o valor mínimo). Na área de aprendizado de máquina, usa-se o termo Feature Scaling. No exemplo citado no livro, a idéia é que o número de viagens para casamentos em cada cidade deve ser normalizado pelo total de viagens para esta cidade, senão cidades com muito movimento aéreo polarizariam a análise.
Abs,
Dhiana Deva
Muito Obrigado pela correções, Dhiana Deva!