|
그는 “여러 사람의 목소리로 트레이닝한 기본 모델에 짧은 샘플을 입혀 특정인의 목소리와 비슷하게 들리게 할 수 있다”며 “2초 (목소리) 샘플을 가지고도 품질이 괜찮은 딥보이스가 나온다”고 설명했다.
이어 공격자가 타깃을 정해 딥보이스로 범행할 때는 피해를 당하기 쉬운 상황이 만들어진다고 덧붙였다.
또 지난 4월 중국 네이멍구의 한 기업 대표가 지인 번호로 걸려온 딥페이크 영상 피싱으로 430만위안을 송금한 사건에 대해서도 설명했다. 그러면서 “딥페이크 영상은 음성과 영상을 함께 맞추다 보니 조금 이상한 부분이 있었지만 지금은 굉장히 정교해져 사실상 구분이 굉장히 어려운 상황”이라고 밝혔다.
정 교수는 이 같은 딥페이크, 딥보이스 피싱에 노출될 경우 공격자가 미리 만들지 못하는 당사자들만이 알 수 있는 질문을 해야 한다고 당부했다. 그는 화장대에 있는 화장품의 개수, 필통 안의 샤프 수, 가족 구성원들만의 경험을 바탕으로 한 질문 등을 예시로 들었다.
아울러 이 같은 질문을 할 때 “(공격자가) 준비되지 않은 상태에서 답변을 만들며 (딥보이스의) 품질이 떨어질 수 있고 답변을 못 할 수 있다”며 “당황하지 말고 본인 확인을 반드시 해야 한다”고 강조했다.