ㅁ 비정형데이터 가명처리 기술
ㅇ 영상정보
1. 이미지 필터링 기술
- 블러링
- 평균: 입력 이미지의 현재 위치에서 격자 범위 주변 픽셀값의 평균을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 가우시안: 입력 이미지의 현재 위치에서 격자 범위의 주변 픽셀값에 가중치를 부여하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 중앙값: 입력 이미지의 현재 위치에서 주변 픽셀값의 중앙값을 구하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 바이레터럴(bilateral): 원본 이미지로부터 최대한 노이즈는 제거하고 에지는 보존하기 위한 것으로 공간과 밀도를 함께 고려하여 원 픽셀값을 결과 이미지의 픽셀값으로 대체
- 픽셀화(=모자이크)
- 이미지 블러링의 평균 필터와 유사하나 계산한 평균값을 해당 픽셀뿐만 아니라 적용한 주변 모든 픽셀에 대체한다는 점이 다름
- 마스킹(=블랙박스)
2. 이미지 암호화
- 이산코사인변환 기반 암호화(DCT, Discrete Cosine Transform): 영상을 주파수 영역으로 바꾸어 특정 부분만 암호화
- 픽셀 위치 기반 암호화: 픽셀의 위치를 일정한 규칙에 따라 바꾸는 방식으로 구현하는 암호화
3. 얼굴 합성(프라이버시 보존형 데이터 마이닝)
- K-익명성 프라이버시보호 모델을 확장하여 K명의 얼굴을 합성한 기술로 K-same 모델로도 부름
- K-same 모델을 보다 개선하여 개인정보 보호와 유용성의 균형(공개 위험과 분류 정확도 간의 균형)을 맞추기 위한 K-same-select 모델 등장
- K-same 모델의 정확도를 유지하면서 데이터 셋의 민감한 정보를 숨기기 위해 기존 샘플에 무작위 노이즈를 추가하거나 새 샘플을 생성하는 난독화 기능을 추가로 설계
4. 인페인팅(영상 내 개인 식별 영역을 제거한 후 다른 몰체 또는 배경으로 대체하여 신원을 보호하는 기술)
- 패치 기반 인페인팅: 영상 프레임 내 공백과 가장 비슷한 영역을 찾아 채우는 방식
- 객체 기반 인페인팅: 영상을 배경과 객체로 구분해 객체를 제거 후 남은 부분은 배경으로 채우는 방식
5. AI 이용 영상정보 가명처리
- 얼굴 보존형 가명·익명 처리 기술: 원본 얼굴의 요소를 변경하거나 얼굴을 완전히 합성하는 대신, 훈련된 얼굴 속성 전달 모델을 사용하여 동의한 대상의 소수인 기증자의 얼굴에 비 신원 관련 얼굴 속성을 매핑
- AnonymousNet 프레임워크: 얼굴 보존형 가명·익명처리 기술의 프레임과 비슷해 보이지만 다음의 4단계 절차를 통하여 아이덴티티가 완전히 다른 이미지를 생성
- (1단계) 얼굴 특징 추출, (2단계) 의미 기반 속성 난독화, (3단계) 익명화된 얼굴 생성, (4단계) 적대적 교란 절차
- AI 딥러닝 기반의 알고리즘 활용: 얼굴 및 차량 번호판 등을 추출한 후 각종 SW 라이브러리를 활용하여 블러링 처리
- AI 적대적 생성 신경망 기반 모델: 이미지에서 보존해야할 영역을 수치화하여 연속형 데이터로 처리한 후 해당 개별 데이터에 노이즈를 추가하거나 재현 처리
ㅇ 음성정보
1. 음성정보 자체에 대한 가명처리
- 규칙기반 개인정보 단순 삭제
- 음성 변형 원리 기반 처리
- 음성 변형: 원본 정보 소스, 필터, 소스와 필터의 조합 등을 통하여 변형
- 소스: 시간량, 음조, 음량 변조
- 필터: 음성 트랙 시스템에 기반하여 음폭 변형
- 음성 변환: 발화자의 음성을 특정 화자의 음성으로 매핑
- 텍스트 종속적: AI 학습 단계에서 병렬 말뭉치 필요
- 텍스트 독립적: 학습 단계에서 병렬 말뭉치가 필요하지 않으며 발화자의 개인정보 보호 차원에서 보다 효과적이고 현실적임
- GMM(Gaussian Mixture Model) 매핑기반의 음성 변환 방식: 영상정보에서의 K-same 방식과 유사한 텍스트 독립적인 GMM 매핑기반의 음성 변환 기법
- HMM(Hidden Markov Model) 기반과 TD-PSOLA(diphone Time-Domain Pitch Synchronous Overlap and Add) 기술을 기반으로 한 음성 변형 방식(DROPSY)
- 음성 변형: 원본 정보 소스, 필터, 소스와 필터의 조합 등을 통하여 변형
2. 음성을 텍스트로 변환(STT, Speech To Text) 후 가명처리
- 개인식별정보가 포함된 음성을 텍스트로 변환 후 변환한 텍스트에서 개인식별정보를 가명처리하고 다시 음성으로 변환하는 방식
ㅇ 텍스트 정보
1. 규칙기반 개인정보 단순 삭제, 또는 마스킹
2. 스크러빙
- 원 텍스트의 내용과 구조를 보존하면서 즉석에서 파싱을 통하여 혹은 파싱 이후 개인식별(가능)정보만을 제거(마스킹 혹은 대체)하는 것으로 이 경우 다수의 정보 주체와 해당 속성들 사이의 명확한 연관성이 없어질 수도 있음
3. 정규표현식
- 문자나 문자열의 일정한 패턴을 표현하는 일종의 형식 언어
4. 주석 달기
- 주어진 텍스트를 논리적으로 분할한 후 분할된 단어(들)에 주석을 첨가하는 기법
- 규칙 기반: 구문 문법의 규칙에 따라 텍스트를 토큰으로 나누는 것으로 고급 규칙의 경우 정규표현식을 사용하여 정의
- 사전 기반: 개인식별(가능)정보들을 미리 사전으로 정의한 후 개체명 인식(NER, Named Entity Recognition) 기술을 이용하여 주어진 텍스트와 일치시킴
5. AI 기반 텍스트정보 가명처리
- 규칙, 정규표현식 등을 통한 개인정보 검출 및 마스킹은 정확도 측면에서 한계, 이를 보완하기 위해 딥러닝 기술 등을 적용한 자연어 처리 언어 모델을 통해 사전에 정의되지 않은 패턴의 개인정보를 검출하고 마스킹
- 학습방법에 따라 다양한 형태의 인공지능 기반 개인정보 검출 기법 존재(HMM, MEM, CRFs, structural SVM, Deep-Learning)
6. 텍스트를 테이블 형식으로 변환
- 주어진 텍스트를 구문 문법의 규칙에 따라 파싱한 다음 분할된 각 세그먼트들을 열과 행이 있는 테이블 형태로 정렬한 후 나머지 데이터들은 삭제
'보도자료' 카테고리의 다른 글
231206_(표준)인공지능 시스템 신뢰성 제고를 위한 요구사항 (0) | 2024.02.07 |
---|---|
240204_가명정보 처리 가이드라인 개정 (0) | 2024.02.05 |
240116_제4차 지능형로봇 기본계획 (0) | 2024.02.02 |
240201_맞춤형 광고에 활용되는 온라인 행태정보 보호 방안 (0) | 2024.02.01 |
240131_디지털행정서비스 국민신뢰 제고 대책 (0) | 2024.02.01 |