협업 딥러닝: 암호학 분야의 머신러닝 응용

슈마스 후마윤 지음

읽는 데 7분 소요 , 2023년 11월 3일

딥러닝 분야에서는 단일 소스의 데이터만으로는 모델 학습에 불충분한 경우가 있습니다. 이로 인해 데이터 소유자들은 자사 데이터뿐 아니라 다른 소스의 데이터까지 통합하여 활용하고자 하는 관심이 높아지고 있습니다. 이를 위한 한 가지 접근 방식은 여러 데이터 소스로부터 학습할 수 있는 클라우드 기반 모델을 사용하는 것입니다. 그러나 중요한 고려 사항은 민감한 정보의 보호입니다.

이러한 배경에서 협업 딥러닝이라는 개념이 등장했는데, 이는 암호화된 학습 데이터 공유와 암호화된 그래디언트 공유라는 두 가지 주요 전략을 중심으로 합니다. 여기서 핵심 원칙은 완전 동형 암호화를 사용하여 클라우드에서의 연산에 사용되는 데이터를 포함한 모든 데이터가 학습 과정 전반에 걸쳐 암호화된 상태로 유지되도록 하는 것입니다.

개인 정보 보호를 위해 암호화된 데이터를 공유합니다

협업 딥러닝 과정에서 개인정보 보호를 보장하기 위한 혁신적인 접근 방식들이 등장해 왔습니다. 그중 하나는 데이터 소유자와 클라우드 기반 시스템을 모두 활용하는 방법입니다. 작동 방식은 다음과 같습니다

데이터 소유자는 공개 키, 비밀 키 및 평가 키를 생성합니다. 그런 다음 공개 키를 사용하여 데이터(예: 학습 데이터 및 목표 데이터)를 암호화하고 이 암호화된 데이터를 클라우드로 전송합니다.
클라우드는 암호화된 데이터를 수신하면 데이터 소유자가 제공한 공개 키와 평가 키를 사용하여 모델을 학습시킵니다.
학습 과정이 암호화된 가중치를 업데이트하면 클라우드는 이러한 암호화된 가중치를 해당 데이터 소유자에게 반환합니다.
마지막으로, 데이터 소유자들은 협력하여 수신된 데이터를 복호화하고 개별적으로 업데이트된 가중치를 얻습니다. 이 복호화 과정은 안전한 다자간 연산 기술을 활용합니다.

데이터 소유자가 복호화 과정에서 통신할 필요성을 없애기 위해 더욱 복잡한 또 다른 방법이 제안되었습니다. 이 방법은 공인 센터(AU)라는 추가적인 주체를 포함하며, 이중 암호화 기법과 다중 키 완전 동형 암호화 기법을 결합하여 사용합니다. 단계는 다음과 같습니다

데이터 소유자는 공개 키와 비밀 키를 생성하고 데이터를 암호화한 후 클라우드로 전송합니다. AU는 데이터 소유자의 비밀 키 사본도 보관합니다.
클라우드는 암호화된 데이터를 수신했지만 평가 키가 부족하기 때문에 데이터에 노이즈를 추가하고 이를 AU로 전달합니다.
AU는 데이터 소유자의 비밀 키를 사용하여 이 데이터를 복호화한 다음, 단일 공개 키로 다시 암호화하여 클라우드로 전송합니다.
이제 클라우드는 이처럼 균일하게 암호화된 데이터를 사용하여 암호화되고 업데이트된 가중치를 계산할 수 있습니다. 계산이 완료되면 결과는 데이터 소유자의 개별 공개 키를 사용하여 재암호화를 위해 AU로 전송됩니다.
그러면 각 데이터 소유자는 자신의 비밀 키를 사용하여 해독할 수 있는 결과를 받게 됩니다.

이 시스템은 사용 중인 공개 키 시스템 또한 의미론적으로 안전하다는 전제 하에 의미론적 보안을 유지하는 것으로 나타났습니다. 더욱이, 클라우드와 AU가 공모하지 않는 한 가중치와 같은 딥러닝 매개변수의 개인 정보 보호는 온전히 유지됩니다.

최근 연구에서는 다중 암호화 방식(multi-scheme fully homomorphic encryption)을 도입하여 기본 방법을 개선했습니다. 이를 통해 데이터 소유자는 협업 딥러닝에 참여할 때 다양한 암호화 방식을 사용할 수 있게 되었습니다. 또한, 특정 활성화 함수의 정확도가 향상되었고, 이전 방법에 비해 분류 작업의 전반적인 정확도와 속도가 개선되었습니다.

암호화된 그래디언트를 활용한 협업 딥러닝

협업 딥러닝 분야의 혁신적인 접근 방식 중 하나는 가산 동형 암호화를 활용하는 것입니다. 이 방법은 비동기 확률적 경사 하강법(ASGD)을 학습 방법으로 사용하던 기존 기술을 개선한 것입니다. 이전 방식은 각 데이터 소유자가 공유할 경사도를 선택할 수 있도록 하여 개인 정보 보호를 보장했기 때문에 "경사도 선택적 ASGD"라고 불렸습니다.

또한, 기울기에 라플라스 노이즈를 도입하여 차분 프라이버시를 적용하는 추가적인 방법도 있었습니다. 이러한 조치에도 불구하고, 기울기 값이 약간 수정되더라도 소유자의 민감한 데이터가 유출될 가능성이 여전히 존재한다는 것이 입증되었습니다.

ASGD를 사용하는 개선된 방법에서 프로세스는 다음과 같이 요약할 수 있습니다

데이터 소유자는 클라우드에서 암호화된 가중치를 가져와 자신의 비밀 키로 복호화합니다.
데이터 소유자는 전역 가중치와 훈련 데이터를 사용하여 딥러닝 모델 내에서 기울기를 계산합니다.
이 기울기는 학습률을 곱한 후 데이터 소유자의 비밀 키를 사용하여 암호화되어 클라우드로 다시 전송됩니다.
클라우드는 데이터 소유자로부터 암호화된 데이터를 사용하여 전역 가중치를 업데이트하며, 이 작업은 단순히 더하기만으로 제한됩니다.
이 방법의 중요한 장점은 잠재적인 그래디언트 누출에 대한 강력한 내성입니다. 클라우드가 악의적인 의도를 가지고 있더라도 그래디언트 정보에 접근할 수 없습니다. 더욱이, 데이터 소유자가 클라우드에서 결과를 복호화하면, 그 결과는 클라우드 작업이 암호화되지 않은 그래디언트를 기반으로 수행되었을 때 예상되는 결과와 완벽하게 일치합니다.

암호학에서 머신러닝의 보안적 함의

머신러닝을 암호학에 통합하면서 여러 가지 보안 문제가 제기되었습니다. 이 섹션에서는 최근 이 주제와 관련된 주요 연구 결과를 간략하게 요약하여 제시합니다.

머신러닝 보안: 2006년에 발표된 한 연구는 머신러닝이 진정으로 안전할 수 있는지에 대한 질문을 심층적으로 다루었습니다. 이 연구는 머신러닝 시스템 및 기술에 대한 다양한 유형의 공격을 분류하고, 이러한 공격에 대한 방어책을 제시하며, 공격자의 시도를 보여주는 분석 모델을 제공했습니다.

확장된 공격 분류 체계: 이전 연구를 바탕으로 후속 연구에서는 공격 분류를 확장했습니다. 이 연구는 다양한 공격 유형이 공격자와 방어자 모두에게 미치는 비용 영향을 자세히 분석했습니다. 또한 통계적 스팸 필터인 SpamBayes를 사례 연구로 사용하여 머신러닝 시스템에 대한 공격을 종합적으로 검토했습니다.

회피 공격: 2013년 연구에서 회피 공격이라는 개념이 소개되었습니다. 탐색적 무결성 공격과 유사점을 보이지만, 회피 공격은 머신러닝 기반 시스템의 훈련 데이터에 적대적 데이터를 삽입하는 데 초점을 맞춥니다. 이 연구는 머신러닝 시스템의 적대적 데이터에 대한 저항력을 철저히 평가하는 것이 중요하다고 강조했습니다.

머신러닝 분류기 악용: 2013년에 발표된 또 다른 연구에서는 머신러닝 분류기를 조작하여 정보를 빼낼 수 있는 방법을 제시했습니다. 이 연구는 머신러닝 분류기에서 의도적이든 비의도적이든 통계 정보가 유출되는 현상에 초점을 맞췄습니다. 다른 분류기를 해킹하고trac사용될 수 있습니다trac지적 재산권을 침해하는 데

적대적 행동: 적대자는 학습 방법에 대응하여 행동을 변경함으로써 학습 접근 방식을 우회할 가능성이 있습니다. 공격에 대한 견고성이 보장되는 학습 기법에 대한 연구는 아직 미흡한 실정입니다. 컴퓨터 보안 및 머신러닝 전문가 간의 논의를 촉진하기 위해 "컴퓨터 보안을 위한 머신러닝 방법"이라는 워크숍이 개최되었습니다. 이 워크숍에서는dent분야의 전통적인 머신러닝 응용부터 안전한 학습 과제, 그리고 보안이 보장된 새로운 정형 방법 개발에 이르기까지 다양한 연구 우선순위가 도출되었습니다.

머신러닝의 보안 및 개인정보보호: 2016년 연구는 머신러닝의 보안 및 개인정보보호 문제를 심층적으로 분석했습니다. 이 연구는 머신러닝에 대한 상세한 위협 모델을 제시하고, 적대적 프레임워크 내에서 공격과 방어를 분류했습니다. 학습을 위한 적대적 환경은 크게 개인정보를 노리는 환경과 데이터 무결성을 노리는 환경으로 나뉘었습니다. 또한, 적대적 환경에서의 추론은 화이트박스 공격자와 블랙박스 공격자로 구분했습니다. 이 연구는 마지막으로 견고하고 개인정보를 보호하며 책임감 있는 머신러닝 모델을 구현하는 방안을 제시했습니다.

암호해독 분야에서 머신러닝의 과거 발전 과정

머신러닝은 암호해독 분야, 특히 사이드채널 공격의 기능을 강화하는 데 점점 더 많이 활용되고 있습니다. 머신러닝의 응용 사례를 간략하게 살펴보겠습니다

머신 러닝의 초기 도입: 이 분야에 대한 초기 시도 중 하나는 최소 제곱 지원 벡터 머신(LS-SVM) 학습 알고리즘을 사용하는 것이었습니다. 이 방법은 전력 소비를 사이드 채널로 활용하여 고급 암호화 표준(AES)의 소프트웨어 구현을 목표로 했습니다. 연구 결과는 머신 러닝 알고리즘의 매개변수가 결과에 매우 중요한 역할을 한다는 것을 보여주었습니다.

정확도 향상: 후속 연구에서는 머신 러닝을 활용하여 사이드 채널 공격의 정확도를 높이는 방안을 제시했습니다. 이러한 공격은 암호 시스템 하드웨어 구현의 물리적 특성에 기반하기 때문에 특정 매개변수 가정에 의존하는 경우가 많습니다. 머신 러닝을 도입하면 특히 고차원 특징 벡터를 다룰 때 이러한 가정을 완화할 수 있습니다.

암호 해독에 신경망을활용한 또 다른 혁신적인 방법이 개발되었습니다. 이 전략은 암호화 키 없이 암호문을 해독하도록 신경망을 훈련시켜, 특정 암호화 표준에 필요한 평문-암호문 쌍의 수와 해독 시간을 크게 단축시켰습니다.

이전 연구 확장: 앞서 언급한 신경망 접근 방식을 기반으로, 또 다른 연구에서는 경량 암호를 목표로 삼았습니다. 이 연구는 평문 대신 암호를 찾는 데 초점을 맞추었습니다. 신경망의 효율성은 축소 라운드 버전과 전체 라운드 버전 모두에서 테스트되었으며, 정확도를 극대화하기 위해 네트워크 구성을 조정했습니다.

암호화된 트래픽 분석: 다른 연구에서는 모바일 기기의 암호화된 네트워크 트래픽을 분석했습니다. 목표는 암호화된 데이터에서 사용자 행동을 파악하는 것이었습니다. 암호화된 트래픽을 수동적으로 모니터링하고 고급 머신러닝 기술을 적용함으로써, 놀라운 정확도로 사용자 행동을 추론할 수 있었습니다.

사이드채널 공격에서의 딥러닝 활용: 사이드채널 공격을 개선하기 위해 딥러닝을 연구했습니다. 목표는 템플릿 공격에서 가정을 최소화하는 정교한 프로파일링 기법을 개발하는 것이었습니다. 딥러닝을 적용함으로써 특정 암호화 표준에 대한 사이드채널 공격에서 더욱 정확한 결과를 얻을 수 있었습니다.

머신러닝 공격 대응: 경량 인증에서 물리적 복제 불가능 함수(PUF)를 악용하는 머신러닝 공격을 차단하기 위한 독창적인 접근 방식이 도입되었습니다. 이 방법은 경량 PUF 기반 인증과 잠금 기술을 결합하여 머신러닝이trac새로운 챌린지-응답 쌍을

결론

머신러닝과 암호학의 통합은 보안 강화 및 프로세스 최적화를 위한 새로운 가능성을 열어주었습니다. 특히 협업 딥러닝과 암호해독 분야에서 유망한 솔루션을 제공하지만, 해결해야 할 내재적인 보안 문제도 존재합니다. 이 분야가 발전함에 따라 연구자와 실무자는 잠재적 취약점을 인지하고 견고하고 안전한 시스템을 구축하기 위해 노력하는 것이 중요합니다.