딥러닝 영역에서는 단일 소스의 데이터가 모델 교육에 충분하지 않은 경우가 있습니다. 이로 인해 데이터 소유자는 자신의 데이터를 활용하는 것뿐만 아니라 다른 소스의 데이터를 통합하려는 관심도 높아졌습니다. 이를 촉진하는 한 가지 접근 방식은 여러 데이터 소스에서 학습할 수 있는 클라우드 기반 모델을 사용하는 것입니다. 그러나 중요한 관심사는 민감한 정보를 보호하는 것입니다.
이로 인해 암호화된 교육 데이터 공유와 암호화된 그라디언트 공유라는 두 가지 주요 전략을 중심으로 하는 협업 딥 러닝 개념이 탄생했습니다. 여기서 가장 중요한 원칙은 완전 동형 암호화를 사용하여 클라우드 작업에 사용되는 데이터를 포함한 모든 데이터가 학습 프로세스 전반에 걸쳐 암호화된 상태로 유지되도록 하는 것입니다.
개인정보 보호를 위해 암호화된 데이터 공유
협업 딥 러닝 중에 개인정보를 보호하기 위한 혁신적인 접근 방식이 있었습니다. 그러한 방법 중 하나는 데이터 소유자와 클라우드 기반 시스템을 모두 포함합니다. 작동 방식은 다음과 같습니다.
- 데이터 소유자는 공개 키, 비밀 키, 평가 키를 생성합니다. 그런 다음 공개 키를 사용하여 데이터(훈련 데이터 및 원하는 대상 등)를 암호화하고 이 암호화된 데이터를 클라우드에 전달합니다.
- 클라우드는 암호화된 데이터를 수신하면 데이터 소유자가 제공한 공개 키와 평가 키를 사용하여 모델 훈련을 진행합니다.
- 학습 프로세스가 암호화된 가중치를 업데이트하면 클라우드는 이러한 암호화된 가중치를 해당 데이터 소유자에게 반환합니다.
- 마지막으로 데이터 소유자는 수신된 데이터를 공동으로 해독하여 업데이트된 개별 가중치를 얻습니다. 이 암호 해독 프로세스는 안전한 다자간 계산 기술을 활용합니다.
암호 해독 프로세스 중에 데이터 소유자가 통신할 필요를 없애기 위해 또 다른 보다 복잡한 방법이 제안되었습니다. 여기에는 추가 엔터티인 공인 센터(AU)가 포함되며 이중 암호화 기술과 다중 키 완전 동형 암호화의 조합을 사용합니다. 단계는 다음과 같습니다.
- 데이터 소유자는 공개 키와 비밀 키를 생성하고 데이터를 암호화한 후 클라우드로 전송합니다. AU는 또한 데이터 소유자의 비밀 키 사본을 보관합니다.
- 클라우드는 암호화된 데이터를 수신했지만 평가 키가 부족한 후 데이터에 노이즈를 도입하여 AU로 전달합니다.
- AU는 데이터 소유자의 비밀 키를 사용하여 이 데이터를 해독하고 클라우드로 다시 보내기 전에 단일 공개 키로 다시 암호화합니다.
- 이제 클라우드는 균일하게 암호화된 데이터를 사용하여 암호화되고 업데이트된 가중치를 계산할 수 있습니다. 완료되면 데이터 소유자의 개별 공개 키를 사용하여 재암호화하기 위해 결과가 AU로 전송됩니다.
- 그런 다음 각 데이터 소유자는 각자의 결과를 수신하며, 비밀 키를 사용하여 이를 해독할 수 있습니다.
이 시스템은 사용 중인 공개 키 시스템이 의미상으로도 안전하다면 의미론적 보안을 유지하는 것으로 나타났습니다. 게다가 가중치와 같은 딥러닝 매개변수의 프라이버시는 클라우드와 AU가 공모하지 않는 한 그대로 유지됩니다.
최근 발전에서는 다중 방식 완전 동형암호를 도입하여 기본 방식이 개선되었습니다. 이를 통해 데이터 소유자는 협업 딥 러닝에 참여할 때 다양한 암호화 체계를 사용할 수 있습니다. 또한 이전 방법에 비해 특정 활성화 함수의 정확도가 향상되고 분류 작업의 전반적인 정확도와 속도가 향상되었습니다.
암호화된 그라디언트를 사용한 협업 딥 러닝
협업 딥 러닝 영역의 혁신적인 접근 방식에는 가산 동형 암호화를 사용하는 것이 포함됩니다. 이 방법은 ASGD(Asynchronous Stochastic Gradient Descent)를 학습 방법으로 활용하는 이전 기술을 개선하여 개발되었습니다. 이 초기 접근 방식은 각 데이터 소유자가 전 세계적으로 공유할 그라데이션을 결정하고 개인정보를 보호할 수 있도록 허용했기 때문에 "그라데이션 선택형 ASGD"라고 불렸습니다.
그라데이션에 라플라스 노이즈를 도입하여 차등 프라이버시를 통합하는 추가 방법도 있었습니다. 이러한 조치에도 불구하고 경사 값이 약간 수정되더라도 소유자로부터 민감한 데이터가 유출될 가능성이 여전히 있음이 입증되었습니다.
ASGD를 사용한 개선된 방법에서 프로세스는 다음과 같이 요약될 수 있습니다.
- 데이터 소유자는 클라우드에서 암호화된 가중치를 검색하고 비밀 키로 이를 해독합니다.
- 데이터 소유자는 전체 가중치와 훈련 데이터를 사용하여 딥러닝 모델 내에서 기울기를 계산합니다.
- 이 기울기에 학습률을 곱한 후 데이터 소유자의 비밀키를 사용해 암호화한 후 클라우드로 다시 전송합니다.
- 그런 다음 클라우드는 데이터 소유자의 암호화된 데이터를 사용하여 전체 가중치를 업데이트하며 작업은 추가로 제한됩니다.
- 이 방법의 중요한 특징은 잠재적인 경사 누출에 대한 견고성입니다. 클라우드는 호기심 많은 의도로 작동하더라도 그래디언트 정보에 접근할 수 없습니다. 또한 데이터 소유자가 클라우드의 결과를 해독할 때 결과는 클라우드 작업이 암호화되지 않은 그라데이션에서 수행되었을 때 예상되는 결과와 완벽하게 일치합니다.
암호화에서 기계 학습의 보안 영향
기계 학습을 암호화에 통합하면 여러 가지 보안 문제가 발생합니다. 이 섹션에서는 최근 이 주제와 관련된 주요 결과를 간략하게 요약합니다.
기계 학습 보안 : 2006년 연구에서는 기계 학습이 실제로 안전할 수 있는지에 대한 질문을 심층적으로 조사했습니다. 본 연구에서는 머신러닝 시스템 및 기술에 대한 다양한 유형의 공격을 분류했습니다. 또한 이러한 공격에 대한 방어책을 제시하고 공격자의 노력을 설명하는 분석 모델을 제공했습니다.
확장된 공격 분류 : 이전 연구를 바탕으로 후속 연구에서는 공격 분류를 확장했습니다. 이 연구에서는 다양한 공격 클래스가 공격자와 방어자 모두의 비용에 어떤 영향을 미치는지 자세히 설명했습니다. 또한 통계 스팸 필터인 SpamBayes를 사례 연구로 사용하여 기계 학습 시스템에 대한 공격에 대한 포괄적인 검토를 제공했습니다.
회피 공격(Evasion Attacks) : 2013년 연구에서는 회피 공격의 개념을 도입했습니다. 탐색적 무결성 공격과 유사하지만 회피 공격은 기계 학습 기반 시스템의 훈련 데이터에 적대적 데이터를 도입하는 데 중점을 둡니다. 이 연구에서는 적대적 데이터에 대한 머신러닝의 저항성을 철저하게 평가하는 것이 중요하다는 점을 강조했습니다.
기계 학습 분류기 활용 : 또 다른 2013년 연구에서는 기계 학습 분류기를 조작하여 정보를 공개할 수 있는 방법을 강조했습니다. 이 연구는 기계 학습 분류기의 통계 정보가 의도하지 않거나 의도적으로 공개되는 것에 중점을 두었습니다. 고유한 메타 분류기가 개발되어 다른 분류기를 해킹하고 훈련 세트에 대한 귀중한 정보를 trac trac 하여 지적 재산권을 침해하는 데 사용될 수 있습니다
적대적 행동 : 공격자는 이러한 방법에 대응하여 행동을 변경함으로써 잠재적으로 학습 접근 방식을 우회할 수 있습니다. 견고성을 보장하면서 공격을 견딜 수 있는 학습 기술에 대한 탐색은 제한적이었습니다. 컴퓨터 보안과 머신러닝 전문가 간의 토론을 촉진하기 위해 "컴퓨터 보안을 위한 머신러닝 방법"이라는 제목의 워크숍이 조직되었습니다. 워크숍에서는 보안 분야의 전통적인 기계 학습 애플리케이션부터 보안 학습 문제, 보안이 보장된 새로운 공식 방법 생성에 이르기까지 여러 가지 연구 우선순위를 확인했습니다 dent
전통적인 컴퓨터 보안을 넘어서 : 워크숍에서는 또한 전통적인 컴퓨터 보안 영역을 넘어서는 잠재적인 응용 프로그램을 dent 데이터 기반 방법과 관련하여 보안 문제가 발생할 수 있는 이러한 응용 프로그램에는 소셜 미디어 스팸, 표절 감지, 저작자 식별, 저작권 집행, 컴퓨터 비전(특히 생체 인식) 및 감정 분석이 포함 dent .
기계 학습의 보안 및 개인 정보 보호 : 2016년 연구에서는 기계 학습의 보안 및 개인 정보 보호 문제에 대한 심층 분석을 제공했습니다. 이는 기계 학습을 위한 상세한 위협 모델을 도입하여 적대적 프레임워크 내에서 공격과 방어를 분류했습니다. 훈련을 위한 적대적 설정은 개인 정보 보호를 목표로 하는 것과 무결성을 목표로 하는 두 가지 주요 범주로 나누어졌습니다. 적대적 설정에서의 추론도 화이트박스 공격과 블랙박스 공격으로 분류되었습니다. 이 연구는 강력하고 비공개적이며 책임 있는 기계 학습 모델을 달성하는 방법을 논의하는 것으로 마무리되었습니다.
암호분석 분야 기계학습의 과거 진행 상황
기계 학습은 특히 부채널 공격의 기능을 향상시키는 데 있어 암호화 분석 영역에 점점 더 통합되고 있습니다. 다음은 해당 응용 프로그램에 대한 간략한 개요입니다.
기계 학습의 초기 통합 : 이 영역에 대한 초기 벤처 중 하나는 LS-SVM(Least Squares Support Vector Machine) 학습 알고리즘을 사용하는 것이었습니다. 이 방법은 전력 소비를 사이드 채널로 사용하는 AES(Advanced Encryption Standard)의 소프트웨어 구현을 목표로 했습니다. 연구 결과는 결과에 대한 기계 학습 알고리즘 매개 변수의 중추적인 역할을 강조했습니다.
정확성 향상 : 부채널 공격의 정확성을 높이기 위해 기계 학습 사용을 옹호하는 후속 접근 방식입니다. 이러한 공격은 암호화 시스템 하드웨어 구현의 물리적 메트릭을 기반으로 하기 때문에 특정 매개변수 가정에 의존하는 경우가 많습니다. 기계 학습의 도입은 특히 고차원 특징 벡터를 처리할 때 이러한 가정을 완화하는 방법을 제공합니다.
암호 분석의 신경망 : 암호 분석을 위한 신경망을 사용하는 또 다른 혁신적인 방법입니다. 이 전략은 암호화 키 없이 암호문을 해독하도록 신경망을 훈련시켜 특정 암호화 표준에 필요한 시간과 알려진 일반 텍스트-암호문 쌍을 눈에 띄게 줄였습니다.
이전 작업 확장 : 앞서 언급한 신경망 접근 방식을 기반으로 하는 또 다른 연구는 경량 암호를 대상으로 했습니다. 일반 텍스트 대신 키를 찾는 데 초점이 옮겨졌습니다. 신경망의 효율성은 암호의 축소 버전과 전체 버전 모두에서 테스트되었으며 정확도를 최대화하기 위해 네트워크 구성을 조정했습니다.
암호화된 트래픽 분석 : 모바일 장치의 암호화된 네트워크 트래픽 분석을 심층적으로 조사한 다른 연구입니다. 목표는 암호화된 데이터에서 사용자 작업을 식별하는 것이었습니다. 암호화된 트래픽을 수동적으로 모니터링하고 고급 기계 학습 기술을 적용함으로써 인상적인 정확도로 사용자 작업을 추론할 수 있었습니다.
사이드 채널 공격의 딥 러닝 : 사이드 채널 공격을 개선하기 위해 딥 러닝이 연구되었습니다. 목표는 템플릿 공격의 가정을 최소화하기 위한 정교한 프로파일링 기술을 개발하는 것이었습니다. 딥러닝을 적용함으로써 특정 암호화 표준에 대한 부채널 공격에서 보다 정확한 결과를 얻을 수 있었습니다.
기계 학습 공격 대응 : 경량 인증에서 기계 학습이 PUF(물리적 복제 방지 기능)에 대해 무기화되는 것을 방지하기 위한 고유한 접근 방식이 도입되었습니다. 이 방법은 경량 PUF 기반 인증과 잠금 기술을 결합하여 기계 학습이 새로운 시도-응답 쌍을 trac
결론
기계 학습을 암호화에 통합하면 보안을 강화하고 프로세스를 최적화할 수 있는 새로운 길이 열렸습니다. 특히 공동 딥 러닝 및 암호 분석 분야에서 유망한 솔루션을 제공하지만 해결해야 할 본질적인 보안 문제가 있습니다. 분야가 발전함에 따라 연구자와 실무자가 잠재적인 취약점을 인식하고 강력하고 안전한 시스템을 만들기 위해 노력하는 것이 중요합니다.