240205_비정형데이터 가명처리 기준

ㅇ 영상정보

1. 이미지 필터링 기술

블러링
- 평균: 입력 이미지의 현재 위치에서 격자 범위 주변 픽셀값의 평균을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 가우시안: 입력 이미지의 현재 위치에서 격자 범위의 주변 픽셀값에 가중치를 부여하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 중앙값: 입력 이미지의 현재 위치에서 주변 픽셀값의 중앙값을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 바이레터럴(bilateral): 원본 이미지로부터 최대한 노이즈는 제거하고 에지는 보존하기 위한 것으로 공간과 밀도를 함께 고려하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
픽셀화(=모자이크)
- 이미지 블러링의 평균 필터와 유사하나 계산한 평균값을 해당 픽셀뿐만 아니라 적용한 주변 모든 픽셀에 대체한다는 점이 다름
마스킹(=블랙박스)

2. 이미지 암호화

3. 얼굴 합성(프라이버시 보존형 데이터 마이닝)

K-익명성 프라이버시보호 모델을 확장하여 K명의 얼굴을 합성한 기술로 K-same 모델로도 부름
K-same 모델을 보다 개선하여 개인정보 보호와 유용성의 균형(공개 위험과 분류 정확도 간의 균형)을 맞추기 위한 K-same-select 모델 등장
- K-same 모델의 정확도를 유지하면서 데이터 셋의 민감한 정보를 숨기기 위해 기존 샘플에 무작위 노이즈를 추가하거나 새 샘플을 생성하는 난독화 기능을 추가로 설계

4. 인페인팅(영상 내 개인 식별 영역을 제거한 후 다른 몰체 또는 배경으로 대체하여 신원을 보호하는 기술)

5. AI 이용 영상정보 가명처리

얼굴 보존형 가명·익명 처리 기술: 원본 얼굴의 요소를 변경하거나 얼굴을 완전히 합성하는 대신, 훈련된 얼굴 속성 전달 모델을 사용하여 동의한 대상의 소수인 기증자의 얼굴에 비 신원 관련 얼굴 속성을 매핑
AnonymousNet 프레임워크: 얼굴 보존형 가명·익명처리 기술의 프레임과 비슷해 보이지만 다음의 4단계 절차를 통하여 아이덴티티가 완전히 다른 이미지를 생성
- (1단계) 얼굴 특징 추출, (2단계) 의미 기반 속성 난독화, (3단계) 익명화된 얼굴 생성, (4단계) 적대적 교란 절차
AI 딥러닝 기반의 알고리즘 활용: 얼굴 및 차량 번호판 등을 추출한 후 각종 SW 라이브러리를 활용하여 블러링 처리
- AI 적대적 생성 신경망 기반 모델: 이미지에서 보존해야할 영역을 수치화하여 연속형 데이터로 처리한 후 해당 개별 데이터에 노이즈를 추가하거나 재현 처리

ㅇ 음성정보

1. 음성정보 자체에 대한 가명처리

2. 음성을 텍스트로 변환(STT, Speech To Text) 후 가명처리

ㅇ 텍스트 정보

1. 규칙기반 개인정보 단순 삭제, 또는 마스킹

2. 스크러빙

원 텍스트의 내용과 구조를 보존하면서 즉석에서 파싱을 통하여 혹은 파싱 이후 개인식별(가능)정보만을 제거(마스킹 혹은 대체)하는 것으로 이 경우 다수의 정보 주체와 해당 속성들 사이의 명확한 연관성이 없어질 수도 있음

3. 정규표현식

4. 주석 달기

주어진 텍스트를 논리적으로 분할한 후 분할된 단어(들)에 주석을 첨가하는 기법
규칙 기반: 구문 문법의 규칙에 따라 텍스트를 토큰으로 나누는 것으로 고급 규칙의 경우 정규표현식을 사용하여 정의
사전 기반: 개인식별(가능)정보들을 미리 사전으로 정의한 후 개체명 인식(NER, Named Entity Recognition) 기술을 이용하여 주어진 텍스트와 일치시킴

5. AI 기반 텍스트정보 가명처리

규칙, 정규표현식 등을 통한 개인정보 검출 및 마스킹은 정확도 측면에서 한계, 이를 보완하기 위해 딥러닝 기술 등을 적용한 자연어 처리 언어 모델을 통해 사전에 정의되지 않은 패턴의 개인정보를 검출하고 마스킹
학습방법에 따라 다양한 형태의 인공지능 기반 개인정보 검출 기법 존재(HMM, MEM, CRFs, structural SVM, Deep-Learning)

6. 텍스트를 테이블 형식으로 변환