본문 바로가기
보도자료

240205_비정형데이터 가명처리 기준

by StoryTeller. 2024. 2. 5.

ㅁ 비정형데이터 가명처리 기술

ㅇ 영상정보

1. 이미지 필터링 기술

  • 블러링
    • 평균: 입력 이미지의 현재 위치에서 격자 범위 주변 픽셀값의 평균을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
    • 가우시안: 입력 이미지의 현재 위치에서 격자 범위의 주변 픽셀값에 가중치를 부여하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
    • 중앙값: 입력 이미지의 현재 위치에서 주변 픽셀값의 중앙값을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
    • 바이레터럴(bilateral): 원본 이미지로부터 최대한 노이즈는 제거하고 에지는 보존하기 위한 것으로 공간과 밀도를 함께 고려하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
  • 픽셀화(=모자이크)
    • 이미지 블러링의 평균 필터와 유사하나 계산한 평균값을 해당 픽셀뿐만 아니라 적용한 주변 모든 픽셀에 대체한다는 점이 다름
  • 마스킹(=블랙박스)

2. 이미지 암호화

  • 이산코사인변환 기반 암호화(DCT, Discrete Cosine Transform): 영상을 주파수 영역으로 바꾸어 특정 부분만 암호화
  • 픽셀 위치 기반 암호화: 픽셀의 위치를 일정한 규칙에 따라 바꾸는 방식으로 구현하는 암호화

3. 얼굴 합성(프라이버시 보존형 데이터 마이닝)

  • K-익명성 프라이버시보호 모델을 확장하여 K명의 얼굴을 합성한 기술로 K-same 모델로도 부름
  • K-same  모델을 보다 개선하여 개인정보 보호와 유용성의 균형(공개 위험과 분류 정확도 간의 균형)을 맞추기 위한 K-same-select 모델 등장
    • K-same 모델의 정확도를 유지하면서 데이터 셋의 민감한 정보를 숨기기 위해 기존 샘플에 무작위 노이즈를 추가하거나 새 샘플을 생성하는 난독화 기능을 추가로 설계

4. 인페인팅(영상 내 개인 식별 영역을 제거한 후 다른 몰체 또는 배경으로 대체하여 신원을 보호하는 기술)

  • 패치 기반 인페인팅: 영상 프레임 내 공백과 가장 비슷한 영역을 찾아 채우는 방식
  • 객체 기반 인페인팅: 영상을 배경과 객체로 구분해 객체를 제거 후 남은 부분은 배경으로 채우는 방식

5. AI 이용 영상정보 가명처리

  • 얼굴 보존형 가명·익명 처리 기술: 원본 얼굴의 요소를 변경하거나 얼굴을 완전히 합성하는 대신, 훈련된 얼굴 속성 전달 모델을 사용하여 동의한 대상의 소수인 기증자의 얼굴에 비 신원 관련 얼굴 속성을 매핑
  • AnonymousNet 프레임워크: 얼굴 보존형 가명·익명처리 기술의 프레임과 비슷해 보이지만 다음의 4단계 절차를 통하여 아이덴티티가 완전히 다른 이미지를 생성
    • (1단계) 얼굴 특징 추출, (2단계) 의미 기반 속성 난독화, (3단계) 익명화된 얼굴 생성, (4단계) 적대적 교란 절차
  • AI 딥러닝 기반의 알고리즘 활용: 얼굴 및 차량 번호판 등을 추출한 후 각종 SW 라이브러리를 활용하여 블러링 처리
    • AI 적대적 생성 신경망 기반 모델: 이미지에서 보존해야할 영역을 수치화하여 연속형 데이터로 처리한 후 해당 개별 데이터에 노이즈를 추가하거나 재현 처리

 

ㅇ 음성정보

1. 음성정보 자체에 대한 가명처리

  • 규칙기반 개인정보 단순 삭제
  • 음성 변형 원리 기반 처리
    • 음성 변형: 원본 정보 소스, 필터, 소스와 필터의 조합 등을 통하여 변형
      • 소스: 시간량, 음조, 음량 변조
      • 필터: 음성 트랙 시스템에 기반하여 음폭 변형
    • 음성 변환: 발화자의 음성을 특정 화자의 음성으로 매핑
      • 텍스트 종속적: AI 학습 단계에서 병렬 말뭉치 필요
      • 텍스트 독립적: 학습 단계에서 병렬 말뭉치가 필요하지 않으며 발화자의 개인정보 보호 차원에서 보다 효과적이고 현실적임
    • GMM(Gaussian Mixture Model) 매핑기반의 음성 변환 방식: 영상정보에서의 K-same 방식과 유사한 텍스트 독립적인 GMM 매핑기반의 음성 변환 기법
    • HMM(Hidden Markov Model) 기반과 TD-PSOLA(diphone Time-Domain Pitch Synchronous Overlap and Add) 기술을 기반으로 한 음성 변형 방식(DROPSY)

2. 음성을 텍스트로 변환(STT, Speech To Text) 후 가명처리

  • 개인식별정보가 포함된 음성을 텍스트로 변환 후 변환한 텍스트에서 개인식별정보를 가명처리하고 다시 음성으로 변환하는 방식

 

ㅇ 텍스트 정보

1. 규칙기반 개인정보 단순 삭제, 또는 마스킹

2. 스크러빙

  • 원 텍스트의 내용과 구조를 보존하면서 즉석에서 파싱을 통하여 혹은 파싱 이후 개인식별(가능)정보만을 제거(마스킹 혹은 대체)하는 것으로 이 경우 다수의 정보 주체와 해당 속성들 사이의 명확한 연관성이 없어질 수도 있음

3. 정규표현식

  • 문자나 문자열의 일정한 패턴을 표현하는 일종의 형식 언어

4. 주석 달기

  • 주어진 텍스트를 논리적으로 분할한 후 분할된 단어(들)에 주석을 첨가하는 기법
  • 규칙 기반: 구문 문법의 규칙에 따라 텍스트를 토큰으로 나누는 것으로 고급 규칙의 경우 정규표현식을 사용하여 정의
  • 사전 기반: 개인식별(가능)정보들을 미리 사전으로 정의한 후 개체명 인식(NER, Named Entity Recognition) 기술을 이용하여 주어진 텍스트와 일치시킴

5. AI 기반 텍스트정보 가명처리

  • 규칙, 정규표현식 등을 통한 개인정보 검출 및 마스킹은 정확도 측면에서 한계, 이를 보완하기 위해 딥러닝 기술 등을 적용한 자연어 처리 언어 모델을 통해 사전에 정의되지 않은 패턴의 개인정보를 검출하고 마스킹
  • 학습방법에 따라 다양한 형태의 인공지능 기반 개인정보 검출 기법 존재(HMM, MEM, CRFs, structural SVM, Deep-Learning)

6. 텍스트를 테이블 형식으로 변환

  • 주어진 텍스트를 구문 문법의 규칙에 따라 파싱한 다음 분할된 각 세그먼트들을 열과 행이 있는 테이블 형태로 정렬한 후 나머지 데이터들은 삭제