Embora a maioria das pessoas pense em dados sensíveis como sendo algo sobre dados pessoais e sua proteção, esse não é o único tipo de informação corporativa que é sensível.
Por exemplo, as informações financeiras de uma empresa também são compostas por dados sensíveis, especialmente se é uma empresa que está em bolsas de valores. Da mesma forma que os dados pessoais, os detalhes sobre propriedade intelectual precisam ser protegidos, assim como planos de marketing, detalhes de lançamento de novos produtos e assim por diante.
Isso não afeta particularmente a maneira como você deve gerenciar os dados sensíveis. Apesar de darmos ênfase neste artigo a dados pessoais, é preciso ter em mente que dados sensíveis também têm outras conotações.
A maioria das organizações está armazenando dados sensíveis, mas muitas vezes não sabem onde estão ou quais são esses dados. Além disso, algumas empresas estão armazenando dados que eles não percebem serem sensíveis, mas que podem ser direta ou indiretamente sensíveis. No último caso, estamos nos referindo a dados que podem ser usados para reidentificar dados anônimos.
É preciso atentar para o fato de que toda informação que é coletada, manipulada e armazenada por uma organização, deve estar em conformidade com as leis e/ou regulamentações de proteção de dados às quais está sujeita ou estará sujeita no futuro, com destaque para a LGPD brasileira (que trata sobre dados sensíveis nos Artigos 5º, 11º, 12º e 13º) e a GDPR europeia.
As consequências mais óbvias no caso de não conformidade são bem conhecidas, que podem resultar em multas extremamente pesadas, sem contar com os significativos prejuízos para a reputação da empresa associados à não conformidade e, em particular, às violações de dados em que os dados em questão são sensíveis e estão desprotegidos por imperícia, imprudência ou negligência.
Descoberta de Dados Sensíveis (Sensitive Data Discovery)
Como muitos termos usados na TI, a Descoberta de Dados Sensíveis ou Sensitive Data Discovery é usada em mais de um contexto. Alguns fornecedores de soluções de inteligência de negócios afirmam que seus produtos permitem a descoberta de dados, embora seja mais preciso classificar as funcionalidades dessas ofertas como “descoberta de insights”.
O termo também é usado em um sentido mais literal, para se referir à descoberta de quais são os dados sensíveis que sua empresa possui e onde estão localizados, como os dados em diferentes fontes de dados estão relacionados, quais são esses relacionamentos e se existem dependências entre os elementos dos dados, independentemente se esses elementos estão em um único banco de dados ou em várias fontes de dados potencialmente heterogêneas.
Com esse entendimento, as principais tarefas da equipe de TI serão: encontrar os dados sensíveis em seu sistema e selecioná-los para que possam ser classificados e anonimizados. Deve ficar claro que a primeira dessas etapas, a de identificar os dados sensíveis presentes em toda a organização, não é uma tarefa trivial. Além disso, deve ser óbvio que você deve primeiro identificar seus dados sensíveis antes de poder classificar, anonimizar ou fazer qualquer outra coisa com eles. Isso torna a descoberta de dados sensíveis uma etapa inicial extremamente importante.
Diferentes métodos para Descoberta de Dados Sensíveis
Existem vários métodos para identificar dados sensíveis e os tipos de ferramentas necessárias dependerão do tipo de dados em questão, se estruturados ou não. Para bancos de dados, uma categoria comum de produtos é a de ferramentas de criação de perfis de dados. No entanto, essas são ofertas de uso geral, em que a descoberta de dados sensíveis é apenas uma tarefa oferecida entre muitas.
Como alternativa, existem produtos especializados, que têm um foco maior na descoberta de dados sensíveis, sendo eles derivados da segurança do banco de dados, do gerenciamento de dados ou da gestão de privacidade.
Um processo típico para descoberta de dados seria analisar seus dados, atribuir a cada conjunto uma probabilidade de serem sensíveis, com base em critérios predefinidos, reconhecendo e classificando esses dados como potencialmente sensíveis, se essa probabilidade exceder um limite definido, ou classificando-os de outra forma a seu critério.
No entanto, considerando que há exceções, muitas das ferramentas usadas para isso não funcionam bem para planilhas ou arquivos de texto ou, com essa finalidade, para muitos dos bancos de dados NoSQL. Nesses casos, você poderá precisar de recursos especializados, como ferramentas de governança de planilhas.
Em ambientes de banco de dados, os principais diferenciadores entre as ferramentas de descoberta de dados (pelo menos em termos de descoberta de dados como um recurso específico) se referem à forma com que esses dados são identificados. Por exemplo, é muito comum oferecer uma correspondência simplista de “nome da coluna”, que tentará determinar se os dados são sensíveis com base no nome da coluna em que estão armazenados, por exemplo, se o campo contiver a palavra “endereço”.
Qualquer pessoa que já tenha trabalhado com um banco de dados grande perceberá imediatamente o problema: ele depende se seu banco de dados tem nomes de colunas bem pensados, descritivos e precisos, e que o nome de qualquer nova coluna também tenha o mesmo cuidado. Isso não é muito comum, o que faz com que a correspondência por meio de colunas seja algo pouco prático quando usado como um recurso independente.
Felizmente, existem técnicas mais sofisticadas disponíveis, que funcionam como os diferenciadores acima mencionados. Existem produtos, por exemplo, que atuarão adequadamente examinando dados e metadados da coluna ou executando introspecção de código. Observe também que muitas vezes será interessante implantar vários desses métodos ao mesmo tempo (mesmo a técnica de correspondência de nome de colunas), para garantir um alto grau de cobertura. Além disso, o aprendizado de máquina (machine learning ou ML) é muito adequado para esse processo, devido ao fato de ser probabilístico e altamente repetitivo. O uso do ML também pode servir como um diferencial, assim como podem ser úteis a alavancagem de relacionamentos de chave primária/externa ou a análise das consultas de usuários ao banco de dados. Indicadores como quando um código postal aparece próximo ao nome de uma cidade, também são apropriadas e também podem ser usadas com dados não estruturados.
Finalmente, os falsos positivos precisam ser minimizados. Por exemplo, ao verificar os servidores de e-mail, reconhecer que uma mensagem que simplesmente diga “João, obrigado por xyz” não representa dados confidenciais, pois, por si só, não pode ser usada para identificar ninguém.
Não é fácil gerenciar dados sensíveis em toda a organização. É preciso não apenas descobrir, proteger, monitorar e eliminar os dados confidenciais de seus sistemas, mas deve fazê-lo continuamente e perpetuamente.
O gerenciamento de dados sensíveis é um componente vital da sua infraestrutura de TI que você não pode ignorar. A alternativa é ficar exposto à legislação e tentar sobreviver ao lidar com pesadas multas e perdas substanciais de reputação. Lembre-se de que violações de dados não são algo que acontece apenas com outras organizações e que seus dados (sensíveis) estão sempre em risco e devem ser protegidos.
Proteja os dados críticos de sua organização, onde quer que residam, por meio de uma plataforma abrangente de proteção de dados, que permita a análise automática do que está acontecendo no ambiente de dados, ajudando a minimizar riscos, proteger dados confidenciais de ameaças internas e externas e adaptando-se perfeitamente às alterações que afetam a segurança e a conformidade dos dados.
Clique nos links abaixo e conheça nossas soluções para proteção de dados sensíveis, acessos privilegiados e gestão de privacidade:
Comments are closed.
Recent Comments