O aprendizado de máquina (machine learning) é um dos novos recursos mais interessantes usados na tecnologia hoje em dia. No entanto, é sem dúvida controversa também. No momento, essa controvérsia não vem realmente da perspectiva de robôs super inteligentes assumindo dramaticamente a raça humana. A verdadeira razão é porque uma tecnologia poderosa como essa pode ser usada tão negativamente pelos criminosos quanto pode ser usada positivamente por pessoas com boas intenções. Abordaremos aqui o lado mais sombrio: como criminosos usam AI ilegalmente.
Antes que os computadores tivessem a capacidade de resolver problemas heurísticos, muitos sistemas de segurança foram projetados com o princípio de que isso não mudaria. A ideia de que um computador poderia adivinhar uma senha, ler um Captcha gráfico ou saber como o tráfego real se comporta, simplesmente não era considerado. Agora, estamos cercados por uma base de segurança que foi ultrapassada pela Inteligência Artificial.
Captchas e classificação de imagens
Quase sempre um sistema precisará confirmar se um usuário é realmente humano. Isso ocorre porque todas as funcionalidades que um computador oferece a um ser humano também podem ser utilizadas ou simuladas por um programa de computador. Se você tentar fazer login no Facebook mais de três vezes, notará o Facebook pedindo para confirmar que você é um humano e não um programa de computador tentando inserir milhões de senhas por segundo. A maneira como o Facebook e muitos serviços fazem isso é através de um método chamado captcha:
Fonte: Predict
Durante anos, os captcha separaram com sucesso programas de humanos, até que a IA surgiu. Agora, redes neurais convolucionais básicas podem ser usadas, onde um enorme conjunto de dados de imagens captcha é usado. Cada captcha tem um alvo especificado e, ao treinar uma rede neural convolucional, elas podem decifrar captchas propostos no futuro. Este é um exemplo mais trivial, em que somente são necessários os princípios básicos das redes neurais. Agora que os captchas podem ser contornados, os ataques de força bruta (brute force attacks) são muito mais possíveis. Você também pode ter se deparado com o tipo de captcha “selecione todas as imagens que contêm uma árvore”, o que é igualmente fácil para a IA contornar. Todos sabemos como a detecção de objetos pode ser muito útil. O Google, também integrou essa funcionalidade ao seu mecanismo de pesquisa, como um recurso fundamental e bem-sucedido.
Senhas com redes contraditórias generativas
Pouquíssimos de nós têm senhas que se parecem com isso: 5f2#V0”P?oz3. A maioria usa senhas que se semelhantes a essa: RiodeJaneiro2017. E o resto de nós até tem senhas que se parecem com isso: 123456.
Ainda é o caso em que aqueles que seguem o primeiro exemplo não estejam muito seguros de suas senhas serem adivinhadas, por um humano ou um GTX 1080 GPU. Todos são vulneráveis. Então, como essas senhas podem ser adivinhadas? Mais simplesmente, podemos usar um dicionário e aplicar cada palavra a uma entrada de senha. Podemos ter sucesso com uma porcentagem muito pequena de nossas tentativas, por causa das pessoas que seguem o último exemplo.
Agora, vamos olhar para uma abordagem mais moderna e até mesmo sinistra (usando IA, obviamente). Em vez de usar um dicionário, redes neurais são usadas para produzir uma lista enorme de senhas prováveis. É essa lista que é usada para aplicar a um formulário de autenticação. O artigo “PassGAN: A Deep Learning Approach for Password Guessing”, demonstra como essa lista pode ser produzida:
Se você estiver familiarizado com redes neurais, isso ainda pode parecer incomum. Em vez de simplesmente prever um item com base em uma entrada, estamos aprendendo com dados e, em seguida, ensinando um gerador a produzir vários outros exemplos. Isso é conhecido como uma rede contraditória generativa, onde duas redes neurais são usadas, uma para diferenciar entradas corretas e incorretas, e depois uma que aprende com isso, para produzir novos dados corretos através de ruído aleatório.
Em primeiro lugar, usamos um conjunto de dados existente, que contém senhas humanas reais, talvez a partir de um vazamento histórico de senhas que já foi disponibilizado. Esse conjunto irá demonstrar coletivamente como são as senhas humanas (algumas letras maiúsculas, uma data, um número aleatório, um nome, etc).
Em segundo lugar, usamos um gerador de ruído (G) que, no início, gerará dados aleatórios. Essas duas entradas possíveis (senhas falsas e reais) são as entradas para a rede neural (ou Discriminador D). Os alvos são projetados como saídas binárias simples. Isso significa que durante o treinamento, a rede neural é informada se a senha inserida é falsa ou real. Para cada entrada, o valor de saída produzido é então comparado ao valor alvo (a verdade) e, em seguida, propagado de volta para ajustar os valores de peso com base na margem de erro. O gerador também é afetado por isso, pois o seu ruído de entrada aleatória começará a chegar mais perto das saídas de senha.
Quando o Gerador for alterado, qualquer ruído adicional introduzido na rede resultará em sequências de caracteres que se parecem com senhas. Então, se deixarmos isso funcionando por algumas horas, poderíamos compilar uma lista enorme de senhas inteligentemente compiladas.
Phishing
O phishing é uma forma muito comum de hacking. Você já recebeu um e-mail que não parece certo, mas afirma ser seu banco, serviço telefônico ou plataforma de mídia social? Qualquer novato programador, que conheça um pouco de HTML combinado com apenas um toque de código de backend, como o PHP, pode criar um. O ataque envolve o envio de um e-mail projetado visualmente para se parecer, por exemplo, com o Facebook, e usar linguagem semelhante. O e-mail informa que você precisa atualizar, visualizar ou alterar algo e solicita seus detalhes de login para fazer isso. Tudo o que você digitar será enviado ao servidor do criminoso. Agora, como a IA entra nisso?
Machine Learning pode melhorar o ataque de phishing, rastreando qualquer plataforma, aprendendo como eles se parecem e se comunicam e, em seguida, produzindo e-mails falsos para serem enviados automaticamente em larga escala, baseados em determinadas observações. Esse não é o único caminho. Os hackers também podem usar os mesmos princípios descritos anteriormente para adivinhar senhas, para adivinhar endereços de e-mail. Milhões de endereços de e-mail podem ser produzidos, o que aumenta a chance de encontrar pessoas tecnicamente ingênuas.
Muitos serviços de e-mail, como o Gmail, possuem sistemas avançados para detectar e-mails de phishing. No entanto, o aprendizado de máquina pode ser usado para criar e-mails que não são detectados por esses sistemas. O conjunto de treinamento seria uma compilação de e-mails, alguns dos quais falharam em alcançar um usuário devido à detecção de phishing e outros que obtiveram sucesso. Uma rede neural pode aprender como o phishing está sendo detectado, entendendo quais foram capturados e quais não foram. No futuro, os e-mails podem ser gerados com base em regras que não são capturadas pela detecção de phishing.
Conclusão
Esses são apenas três casos. O que preocupa, é que há muito mais em outras áreas, como propaganda fraudulenta, simulando tráfego falso ou a geração de notícias falsas (as famosas fake news) que até podem interferir em processos eleitorais.
Do ponto de vista positivo, podemos também pensar que o uso da IA no mundo jurídico superará em muito o mundo do crime. Ironicamente, a IA está sendo usada para detectar atividades criminosas de muitas maneiras surpreendentes, desde o policiamento nas ruas até a fraude online.
Comments are closed.
Recent Comments