Dados desorganizados estão causando prejuízos a você: quatro soluções para problemas comuns da preparação de dados

Se você já analisou dados, sabe como é difícil se debruçar sobre eles e descobrir que estão mal estruturados, repletos de imprecisões ou simplesmente incompletos. Você fica preso arrumando os dados no Excel ou escrevendo cálculos complexos muito antes de poder responder a uma pergunta simples.

A preparação de dados é o processo de deixar os dados prontos para análise, incluindo tarefas de descoberta de dados, transformação e limpeza, e é uma parte crucial do fluxo de trabalho da análise. Um artigo recente da Harvard Business Review revelou que as pessoas passam 80% do tempo preparando dados, e apenas 20% do tempo realizando análises. E essas estatísticas não se aplicam somente à função dos administradores de dados. Hoje, as tarefas de preparação de dados afetam também o trabalho dos analistas e até mesmo de usuários corporativos não ligados a departamentos técnicos.

Mesmo quem não realiza tarefas de preparação de dados diretamente acaba sentindo o impacto de dados desorganizados. O tempo e a energia necessários para partir de dados desorganizados e chegar a informações acionáveis resultam em análises ad hoc ineficientes, diminuindo a confiabilidade nos dados da organização. Estes processos lentos podem resultar em oportunidades e receitas perdidas. Na realidade, uma pequisa da Gartner indica que o “impacto financeiro médio dos dados de baixa qualidade para as empresas é de US$ 9,7 milhões por ano”.1

Por que os dados ficam desorganizados?

Empresas estão tomando medidas para superar o desafio dos dados desorganizados estabelecendo catálogos de dados e glossários. Mas, até mesmo com essas práticas, possivelmente você ainda precisará lidar com um certo nível de desorganização nos dados em suas tarefas cotidianas. Normalmente, os dados ficam desorganizados devido a:

imagem de erro humano

1. Erro humano

De acordo com a Experian, essa é a causa mais comum para a desorganização de dados. Os erros podem aparecer de diversas maneiras, incluindo diferenças em práticas de entradas de dados e funcionários que inserem dados manualmente em planilhas. Até mesmo um erro simples de digitação pode causar problemas no futuro, quando alguém for analisar os dados.

imagem de sistemas incompatíveis

2. Sistemas incompatíveis

É comum que organizações armazenem dados em diversos sistemas incompatíveis, com estruturas, requisitos e agregações diferentes. Quando chega a hora de integrar esses dados, os analistas encontram campos duplicados ou ausentes, ou rótulos inconsistentes. Os campos ou valores de dados também podem ter o mesmo significado, mas usarem nomes ou valores diferentes entre os sistemas.

imagem de alterações de requisitos de dados

3. Alterações de requisitos

Quando os negócios evoluem, administradores de dados e engenheiros precisam fazer alterações aos dados, seja alterando a granularidade, excluindo campos que não são usados ou introduzindo novos campos. Essas alterações nem sempre são comunicadas amplamente pela empresa, e analistas podem nem mesmo saber dessas mudanças até trazerem os dados a uma ferramenta de BI de autoatendimento ou de preparação de dados.

Quatro problemas comuns da preparação de dados e como resolvê-los

01

Problema: processos rígidos e demorados desalinhados com a demanda

imagem do problema com um relógio e papéis

Os analistas relatam que a maior parte da sua função não é analisar, mas limpar e reformatar dados. Isso pode acontecer com um processo de ETL, em ferramentas de preparação de dados de autoatendimento ou em ferramentas de planilhas, como o Microsoft Excel. Cada vez que um novo dado é recebido, os analistas precisam repetir tarefas manuais de preparação de dados para ajustar a estrutura e limpar os dados para a análise. Isso acaba levando a recursos desperdiçados e a um risco maior de erro humano.

Além da frustração gerada por dados caóticos, analistas e usuários corporativos encontram dificuldades até mesmo para acessar os dados de que precisam. No modelo tradicional, a TI abrigava a preparação de dados, e apenas algumas equipes podiam preparar e incluir novas fontes de dados em um data warehouse centralizado. Quem não tinha permissão para tanto fazia sua própria preparação de dados em programas como o Excel ou esperava até que outra equipe assumisse a tarefa. Cathy Bridges, desenvolvedora do Tableau na SCAN Health Plan, observou que “quando precisamos fazer alterações em um conjunto de dados, o processo pode demorar semanas, no mínimo, podendo chegar a meses”.


Solução: desenvolver processos ágeis com as ferramentas de apoio certas.

Muitas empresas estão adotando soluções de preparação de dados por autoatendimento para explorar e criar protótipos. A preparação de dados por autoatendimento coloca o poder nas mãos das pessoas que melhor conhecem os dados, democratizando o processo de preparação de dados e reduzindo a demanda sobre a TI. “O valor agregado de uma ferramenta de preparação de dados por autoatendimento é que qualquer pessoa pode se tornar mestre dos dados”, afirma Venkatesh Shivanna, gerente de análise de dados sênior e arquiteto de uma grande empresa de jogos. “Os analistas podem realizar as tarefas de limpeza de dados ad hoc sem precisar esperar em uma fila.”

Não é possível democratizar os dados de verdade sem que as pessoas compreendam o processo de preparação de dados do início ao fim.

Cada organização tem necessidades específicas, e não existe solução mágica para a preparação de dados; mas, ao selecionar uma ferramenta de preparação de dados por autoatendimento, as organizações devem avaliar como ela ajudará os processos a evoluírem para uma abordagem ágil e iterativa, em vez de criar novas barreiras. As pessoas ficam mais motivadas a preparar e a entender seus dados quando podem ver o impacto das etapas da preparação de dados. Jason Harmer, consultor da Nationwide Insurance, explicou como a preparação de dados visual permite que todos vejam o processo do início ao fim, encontrando problemas em potencial antecipadamente, como dados com erros ortográficos, espaços a mais ou cláusulas de união incorretas. Segundo ele, isso também aumenta a confiança na análise final.

02

Problema: a preparação de dados exige conhecimentos profundos sobre os dados da organização.

imagem do problema dois de uma lente de aumento em um calendário

Antes de preparar os dados, é fundamental compreender sua localização, estrutura e composição, além de detalhes granulares, como definição de campos. Algumas pessoas se referem a esse processo como “descoberta de dados”, e é um elemento fundamental da preparação de dados. Você não começaria uma longa viagem sem uma compreensão básica do seu destino; a mesma lógica se aplica à preparação de dados.

O surgimento do BI de autoatendimento com o recurso arrastar e soltar facilitou a descoberta de dados para usuários corporativos, proporcionando a eles um conhecimento aprofundado da estrutura e do conteúdo de seus conjuntos de dados. Porém, uma vez que a informação está isolada em silos, esses usuários acabam recebendo uma visão limitada do panorama dos dados de sua empresa, como quais dados existem, onde estão e como estão definidos. A confusão sobre definições de dados pode prejudicar as análises ou, pior ainda, levar a análises imprecisas por toda a empresa. Por exemplo, se alguém quiser analisar dados de clientes, poderá descobrir que uma equipe de marketing tem uma definição diferente para o termo “cliente” do que alguém do financeiro.


Solução: padronizar as definições de dados da empresa

Com a preparação de dados visual por autoatendimento, analistas podem mergulhar mais profundamente nos dados para compreender a estrutura deles e visualizar o relacionamento entre as tabelas. Por compreenderem o perfil dos seus dados, os analistas podem encontrar com facilidade valores inesperados que precisam de limpeza. Embora essa tecnologia ajude a entender melhor os dados, as pessoas ainda precisarão do suporte de outros funcionários da empresa para compreender detalhes, como definições de campos.

Uma maneira de padronizar as definições de dados de uma empresa é criar um dicionário de dados. Um dicionário de dados ajuda os analistas a compreenderem como os termos são usados dentro de cada aplicativo do negócio, exibindo os campos relevantes para análises e marcando aqueles que são estritamente do sistema. Brian Davis, engenheiro de projetos em uma empresa do setor energético, considera dicionários de dados “inestimáveis”.

Estou sempre combinando dados da contabilidade com dados dos técnicos de campo. Definir os dados iniciais junto com campos calculados proporciona análises mais precisas e reduz o tempo gasto determinando quais campos ou tabelas devem ser usados.

Desenvolver um dicionário de dados não é uma tarefa simples. Administradores de dados e especialistas no assunto precisam se comprometer com um processo de iteração constante, verificando sempre se os requisitos mudaram.2 Se um dicionário ficar desatualizado, ele poderá inclusive prejudicar a estratégia de dados da sua empresa. A comunicação e a propriedade devem ser integradas ao processo desde o início, para determinar onde o glossário deve ser armazenado e a frequência de atualização e refinamento do mesmo.

03

Problema: “dados limpos” é uma questão de perspectiva

imagem do problema três de uma pessoa dizendo seis e outra dizendo nove

Equipes diferentes têm requisitos e preferências diferentes sobre o que consideram “dados bem estruturados”. Por exemplo, administradores de bancos de dados e engenheiros de dados priorizam o modo como os dados são armazenados e acessados, e colunas podem ser adicionadas somente para os bancos de dados utilizarem, e não os humanos. Quando um engenheiro constrói um data warehouse especificamente para análises, ele prioriza as métricas principais do negócio, que respondem à maior parte das perguntas. Se as informações que os analistas de dados precisam não estão ainda no conjunto de dados, pode ser necessário ajustar agregações ou trazer fontes externas. Isso pode levar ao isolamento dos dados em silos ou a imprecisões nos dados.

Cathy Bridges, desenvolvedora da Tableau na SCAN Health Plan, explica como analistas precisam sempre voltar e atualizar um conjunto de dados que já foi limpo por outra equipe. “Trazer colunas adicionais pode ser um processo longo e árduo. Por exemplo, se eu necessitar de uma comparação de um resultado total e agrupado, precisarei duplicar a fonte de dados, e isso pode ser trabalhoso.”


Solução: colocar o poder nas mãos dos especialistas nos dados.

Com a preparação de dados por autoatendimento, os analistas podem ajustar os conjuntos de dados da maneira mais adequada para suas análises, proporcionando análises ad hoc mais rápidas e possibilitando que eles respondam imediatamente às perguntas que possam aparecer. Isso também reduz a demanda sobre a TI de reestruturar os dados sempre que uma pergunta inesperada surgir. Além disso, o volume de esforços duplicados diminui, uma vez que outros analistas podem reutilizar esses modelos. Se os conjuntos de dados são valiosos de forma generalizada, você pode combiná-los em um conjunto canônico no futuro.

Uma ferramenta de preparação de dados deve ajudar a responder às perguntas pontuais dos analistas e também possibilitar repetições. Depois que eu desenvolvo a lógica, ela é salva em um arquivo em algum lugar. Na próxima vez, eu posso reabrir o mesmo arquivo, apontar novamente para as mesmas fontes de dados e começar do ponto em que parei naquele fluxo de trabalho.

04

Problema: a realidade oculta dos silos da preparação de dados

grupos de pessoas do problema quatro

Ferramentas avançadas de preparação de dados podem ser complexas, o que significa que esse recurso acaba ficando restrito a um número seleto de usuários avançados. Mas, mesmo que analistas e usuários corporativos não tenham acesso a ferramentas de preparação de dados, isso não significa que eles já não estejam realizando essas tarefas em outros aplicativos. Ferramentas de business intelligence de autoatendimento abriram os recursos de análise de dados para todos os níveis de usuários. Porém, para conseguirem extrair informações de seus dados, esses usuários ainda dependem da TI para terem dados bem estruturados. Em vez de esperar dias ou meses pelos dados, os usuários extraem dados de sistemas, preparando-os em planilhas. O resultado é um conjunto de dados recém-estruturado que serve a uma finalidade única, sendo que vários departamentos muitas vezes duplicam esforços sem saber. Esse processo leva a uma série de silos de dados que não são eficientes, escalonáveis e nem governados.

Até mesmo pessoas que não conhecem o termo “preparação de dados” preparam dados em programas como o Excel. Quanto mais silos nós tivermos, mais interpretações diferentes teremos para os dados, o que corrói a confiança nos dados.


Solução: promover consistência e colaboração no processo da preparação de dados

O combate aos silos começa com a colaboração. Pesquisas do Business Application Research Center (BARC) demonstraram que as empresas mais satisfeitas com seus processos de preparação de dados foram as que “transformaram a preparação de dados em uma tarefa compartilhada entre os departamentos de TI e comercial”.

Para adotar a preparação de dados por autoatendimento em uma empresa, os usuários precisam compreender todos os aspectos técnicos dos dados. Como esse conhecimento sempre foi reservado para funções de TI e engenheiros de dados, é fundamental que os analistas separem um tempo para aprender sobre as nuances dos dados, incluindo a granularidade e quaisquer transformações que possam ter sido realizadas no conjunto de dados. Agendando verificações regulares ou um fluxo de trabalho padrão para as perguntas, os engenheiros poderão compartilhar a maneira mais atualizada de consultar e trabalhar com dados válidos, enquanto os analistas poderão preparar dados com mais agilidade e segurança.



Acabe com o sofrimento da preparação de dados

Avalie o Tableau Prep

1. Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement (Defendendo a melhora na qualidade dos dados corporativos). 9 de janeiro de 2017, https://www.gartner.com/smarterwithgartner/how-to-create-a-business-case....

2. TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing (Cinco elementos fundamentais que podem estar faltando em seu glossário de negócios de governança de dados). 16 de fevereiro de 2016, https://tdwi.org/articles/2016/02/16/data-governance-glossary-missing-el....

Você também pode ter interesse em...