No campo do aprendizado profundo, há casos em que os dados de uma única fonte são insuficientes para treinar um modelo. Isso levou a um crescente interesse entre os proprietários de dados em não apenas utilizar seus próprios dados, mas também incorporar dados de outras fontes. Uma abordagem para facilitar isso é usar um modelo baseado em nuvem que possa aprender com múltiplas fontes de dados. No entanto, uma preocupação fundamental é a proteção de informações sensíveis.
Isso deu origem ao conceito de aprendizado profundo colaborativo, que gira em torno de duas estratégias principais: compartilhamento de dados de treinamento criptografados e compartilhamento de gradientes criptografados. O princípio fundamental aqui é o uso de criptografia totalmente homomórfica para garantir que todos os dados, incluindo aqueles usados para operações na nuvem, permaneçam criptografados durante todo o processo de aprendizado.
Compartilhamento de dados criptografados para garantir a privacidade
Existem abordagens inovadoras para garantir a privacidade durante o aprendizado profundo colaborativo. Um desses métodos envolve tanto os proprietários dos dados quanto um sistema baseado em nuvem. Veja como funciona:
- Os proprietários dos dados criam chaves públicas, chaves secretas e chaves de avaliação. Em seguida, criptografam seus dados (como dados de treinamento e alvos desejados) usando suas chaves públicas e encaminham esses dados criptografados para a nuvem.
- Ao receber esses dados criptografados, a nuvem procede ao treinamento do modelo utilizando as chaves públicas e de avaliação fornecidas pelos proprietários dos dados.
- Assim que o processo de aprendizagem atualiza os pesos criptografados, a nuvem devolve esses pesos criptografados aos respectivos proprietários dos dados.
- Por fim, os proprietários dos dados descriptografam colaborativamente os dados recebidos para obter pesos individuais atualizados. Esse processo de descriptografia utiliza técnicas seguras de computação multipartidária.
Outro método mais complexo foi proposto para eliminar a necessidade de comunicação entre os proprietários dos dados durante o processo de descriptografia. Este método envolve uma entidade adicional, um centro autorizado (CA), e emprega uma combinação de técnicas de criptografia dupla e criptografia homomórfica multichave. Os passos são:
- Os proprietários dos dados criam suas chaves públicas e secretas e criptografam seus dados, que são então enviados para a nuvem. A AU também retém uma cópia das chaves secretas dos proprietários dos dados.
- A nuvem, após receber os dados criptografados, mas sem as chaves de avaliação, introduz ruído nos dados e os encaminha para a AU.
- A AU descriptografa esses dados usando as chaves secretas dos proprietários dos dados e os criptografa novamente com uma única chave pública antes de enviá-los de volta para a nuvem.
- Agora, a nuvem pode calcular pesos criptografados e atualizados usando esses dados criptografados uniformemente. Feito isso, os resultados são enviados à AU para serem recriptografados usando as chaves públicas individuais dos proprietários dos dados.
- Em seguida, cada proprietário dos dados recebe seus respectivos resultados, que podem ser descriptografados usando suas chaves secretas.
Foi demonstrado que este sistema mantém a segurança semântica, desde que o sistema de chave pública em uso também seja semanticamente seguro. Além disso, a privacidade dos parâmetros de aprendizado profundo, como os pesos, permanece intacta contanto que a nuvem e a AU não conspirem.
Em avanços recentes, houve melhorias no método básico com a introdução da criptografia homomórfica multiesquema. Isso permite que os proprietários dos dados empreguem diversos esquemas de criptografia ao participarem de aprendizado profundo colaborativo. Além disso, houve melhorias na precisão de certas funções de ativação e um aumento na precisão e velocidade geral das tarefas de classificação em comparação com os métodos anteriores.
Aprendizado profundo colaborativo com gradientes criptografados
Uma abordagem inovadora no campo da aprendizagem profunda colaborativa envolve o uso de criptografia homomórfica aditiva. Esse método foi desenvolvido como um aprimoramento de técnicas anteriores que utilizavam o método de descida de gradiente estocástico assíncrono (ASGD, na sigla em inglês) como método de aprendizagem. Essa abordagem anterior era denominada "ASGD seletivo por gradientes" porque permitia que cada proprietário dos dados decidisse quais gradientes compartilhar globalmente, garantindo sua privacidade.
Havia também um método adicional que incorporava privacidade diferencial através da introdução de ruído de Laplace nos gradientes. Apesar dessas medidas, demonstrou-se que ainda existia potencial para vazamento de dados sensíveis dos proprietários, mesmo com pequenas modificações nos valores dos gradientes.
No método aprimorado que utiliza ASGD, o processo pode ser descrito da seguinte forma:
- Os proprietários dos dados recuperam o peso criptografado da nuvem, descriptografando-o com sua chave secreta.
- Utilizando o peso global e os dados de treinamento, o proprietário dos dados calcula o gradiente dentro de seu modelo de aprendizado profundo.
- Esse gradiente, após ser multiplicado pela taxa de aprendizado, é criptografado usando a chave secreta do proprietário dos dados e, em seguida, enviado de volta para a nuvem.
- Em seguida, a nuvem atualiza o peso global usando os dados criptografados dos proprietários dos dados, sendo a operação limitada à adição.
- Um dos principais destaques deste método é a sua robustez contra possíveis vazamentos de gradiente. A nuvem, mesmo que opere com intenções maliciosas, não consegue acessar as informações do gradiente. Além disso, quando o proprietário dos dados descriptografa os resultados da nuvem, o resultado está perfeitamente alinhado com o que seria esperado se as operações na nuvem fossem realizadas em um gradiente não criptografado.
Implicações de segurança do aprendizado de máquina em criptografia
A integração da aprendizagem de máquina na criptografia suscitou diversas preocupações de segurança. Nesta seção, apresentamos um breve resumo das principais descobertas relacionadas a este tópico nos últimos tempos.
Segurança em Aprendizado de Máquina: Um estudo de 2006 investigou a questão da segurança real do aprendizado de máquina. Essa pesquisa apresentou uma classificação de vários tipos de ataques a sistemas e técnicas de aprendizado de máquina. Além disso, apresentou defesas contra esses ataques e forneceu um modelo analítico que ilustra os esforços do atacante.
Taxonomia expandida de ataques: Com base em trabalhos anteriores, um estudo subsequente expandiu a classificação de ataques. Esta pesquisa detalhou como diferentes classes de ataques impactam os custos tanto para o atacante quanto para o defensor. Também forneceu uma revisão abrangente de ataques a sistemas de aprendizado de máquina, usando o filtro estatístico de spam SpamBayes como estudo de caso.
Ataques de evasão: Um estudo de 2013 introduziu o conceito de ataques de evasão. Embora apresentem semelhanças com ataques exploratórios de integridade, os ataques de evasão concentram-se na introdução de dados adversários nos dados de treinamento de sistemas baseados em aprendizado de máquina. A pesquisa enfatizou a importância de avaliar minuciosamente a resistência do aprendizado de máquina a dados adversários.
Exploração de Classificadores de Aprendizado de Máquina: Outro estudo de 2013 destacou um método no qual classificadores de aprendizado de máquina poderiam ser manipulados para revelar informações. Essa pesquisa se concentrou na divulgação não intencional ou intencional de informações estatísticas provenientes de classificadores de aprendizado de máquina. Um meta-classificador exclusivo foi desenvolvido e treinado para invadir outros classificadores e extrairtractractractractractractractractraccomerciais, infringindo direitos de propriedade intelectual.
Comportamento Adversário: Os adversários podem potencialmente contornar as abordagens de aprendizado alterando seu comportamento em resposta a esses métodos. A exploração de técnicas de aprendizado capazes de resistir a ataques com robustez garantida ainda é limitada. Um workshop intitulado “Métodos de Aprendizado de Máquina para Segurança da Computação” foi organizado para fomentar discussões entre especialistas em segurança da computação e aprendizado de máquina. O workshop identificoudentprioridades de pesquisa, que vão desde aplicações tradicionais de aprendizado de máquina em segurança até desafios de aprendizado seguro e a criação de novos métodos formais com segurança garantida.
Além da Segurança Computacional Tradicional: O workshop tambémdentdentdentdentdentdentdentdentdentaplicação de direitos autorais, visão computacional (especialmente biometria) e análise de sentimentos.
Segurança e Privacidade em Aprendizado de Máquina: Um estudo de 2016 forneceu uma análise aprofundada das preocupações com segurança e privacidade em aprendizado de máquina. Ele introduziu um modelo de ameaças detalhado para aprendizado de máquina, categorizando ataques e defesas dentro de uma estrutura adversária. Os cenários adversários para treinamento foram divididos em duas categorias principais: aqueles que visam a privacidade e aqueles que visam a integridade. A inferência em cenários adversários também foi categorizada em adversários de caixa branca e de caixa preta. O estudo concluiu discutindo o caminho para alcançar um modelo de aprendizado de máquina robusto, privado e responsável.
Progresso passado da aprendizagem de máquina em criptoanálise
A aprendizagem de máquina tem sido cada vez mais integrada ao campo da criptoanálise, especialmente para aprimorar as capacidades de ataques de canal lateral. Aqui está uma breve visão geral de suas aplicações:
Incorporação inicial de aprendizado de máquina: Uma das primeiras incursões nesse domínio envolveu o uso do algoritmo de aprendizado de máquina de vetores de suporte por mínimos quadrados (LS-SVM). Esse método visava a implementação de software do padrão de criptografia avançada (AES), utilizando o consumo de energia como canal lateral. Os resultados destacaram o papel fundamental dos parâmetros do algoritmo de aprendizado de máquina nos resultados obtidos.
Aprimorando a Precisão: Uma abordagem subsequente defendeu o uso de aprendizado de máquina para aumentar a precisão de ataques de canal lateral. Como esses ataques se baseiam nas métricas físicas das implementações de hardware de criptossistemas, eles frequentemente se apoiam em certas suposições paramétricas. A introdução do aprendizado de máquina oferece uma maneira de atenuar essas suposições, especialmente ao lidar com vetores de características de alta dimensionalidade.
Redes Neurais em Criptoanálise: Outro método inovador empregou uma rede neural para criptoanálise. Essa estratégia treinou a rede neural para decifrar textos cifrados sem a chave de criptografia, levando a uma redução notável no tempo e nos pares texto plano-texto cifrado conhecidos necessários para certos padrões de criptografia.
Expandindo o Trabalho Anterior: Com base na abordagem de rede neural mencionada anteriormente, outro estudo teve como alvo uma cifra leve. O foco mudou para a descoberta da chave em vez do texto plano. A eficiência da rede neural foi testada em versões da cifra com número reduzido e com número completo de rodadas, ajustando as configurações da rede para maximizar a precisão.
Análise de tráfego criptografado: Um estudo diferente aprofundou-se na análise do tráfego de rede criptografado em dispositivos móveis. O objetivo era discernir as ações do usuário a partir de dados criptografados. Monitorando passivamente o tráfego criptografado e aplicando técnicas avançadas de aprendizado de máquina, os pesquisadores conseguiram deduzir as ações do usuário com uma taxa de precisão impressionante.
Aprendizado profundo em ataques de canal lateral: O aprendizado profundo foi explorado para refinar ataques de canal lateral. O objetivo era desenvolver técnicas de perfilamento sofisticadas para minimizar as suposições em ataques baseados em modelos. Ao aplicar o aprendizado profundo, resultados mais precisos foram alcançados em ataques de canal lateral em determinados padrões de criptografia.
Combatendo ataques de aprendizado de máquina: Uma abordagem inovadora foi introduzida para impedir que o aprendizado de máquina seja usado como arma contra Funções Físicas Não Clonáveis (PUFs) em autenticação leve. Este método combina uma autenticação leve baseada em PUFs com uma técnica de bloqueio, garantindo que o aprendizado de máquina não consiga extrair com sucessotracnovo par desafio-resposta.
Conclusão
A integração do aprendizado de máquina à criptografia abriu novos caminhos para aprimorar a segurança e otimizar processos. Embora ofereça soluções promissoras, especialmente em aprendizado profundo colaborativo e criptoanálise, existem preocupações inerentes à segurança que precisam ser abordadas. À medida que o campo evolui, é crucial que pesquisadores e profissionais estejam cientes das vulnerabilidades potenciais e trabalhem para criar sistemas robustos e seguros.

