구글 "지메일, 스팸·피싱 99.9% 걸러낸다" (일문일답)

AI 적용된 지메일 서비스 현지 프로덕트 매니저가 직접 소개

등록 2017-10-18 오전 11:44:42

수정 2017-10-18 오전 11:44:42
가 가

[이데일리 김유성 기자] 구글코리아가 18일 열린 AI포럼 7강에서 더 똑똑해진 지메일을 소개했다. 이날 구글코리아는 폴 램버트 지메일 프로덕트 매니저와 화상 통화로 연결해 지메일에 적용된 인공지능 기술 서비스를 설명했다. 스팸메일과 피싱 메시지를 걸러내고 자동으로 응답하는 서비스 등이다.

램버트 매니저는 이날 포럼에서 “기계학습이 적용돼 지메일이 스팸메일과 피싱메시지를 99.9%의 정확도로 필터링한다”며 “구글의 최신 스마트 스팸 필터링 시스템은 인공신경망 적용과 사용자들의 피드백으로 더욱 개선되고 있다”고 전했다.

이후 질의·응답 시간에서 램버트 매니저는 구글의 개인정보보호 방침 등에 대해 언급했다. 그는 ‘투명성’을 강조하며 구글은 이용자들의 메일 내용을 파악하지 않는다고 했다.

18일 구글코리아 본사에서 열린 AI포럼 모습. 폴 램버트 구글 프로덕트 매니저가 현지 화상 통화로 지메일 서비스 내용을 설명 중이다.

다음은 램버트 매니저와의 일문일답이다. 램버트 매니저는 구글 내에서 지메일용 AI 제품 개발을 이끌고 있다.

-스팸 메일을 걸러내는 게 99.9%라고 했다. 어떻게 이게 가능한지.

△우리에게 유저 피드백 시스템이 있다. 그런 피드백 시스템을 통해 매트릭스를 확보하고 있다. 내부나 외부 메일에 적용하는 테스트 셋을 직접 만들어서 우리 실제 스팸을 필터링하는 것을 통과하는지 통과하지 않는지도 보고 있다.

99.9%라는 것은 영어권 등에 특화해서 얻어낸 성과가 아니다. 전 세계에서 이런 성능을 가지고 있는 것이다.

-한국어 사용자에 대한 지원은 언제 하나?

△스마트 리플라이(자동응답)를 제외하고는 나머지 지역에서 사용되고 있다.

-스팸이나 스마트 답장 기능이 생산성을 높일 수 있다는 점에서 좋다. 다만 개인의 이메일을 샅샅이 훑어 본다는 게 사람에 따라 기분이 나쁠 수도 있다. 구글에서 세계 모든 사람의 정보를 파악한다는 점에서, 사용자들은 어떤 피드백을 보내고 있나.

△구글은 프라이버시를 굉장히 중요하게 여긴다. 구글은 누구의 개인 이메일도 볼 수가 없다. 머신러닝 등 새로운 기능이나 모델을 개발할 때도 익명화된 것으로 한다. 전혀 내용을 알 수 없는 데이터 셋을 갖고 작업한다. 모델을 구축할 때는 수 많은 이메일을 갖고 있다. 공동적으로 나오는 말뭉치를 갖고 한다. 그 누구도 이걸 갖고 식별할 수 없다.

-AI를 활용해 새로운 혁신 등의 변화를 줄 수 있는 기능이 있다면?

△구글의 다음 제품을 말할 수 없겠지만 3가지 영역에서 말하겠다. 효율성, 안정성, 슈퍼파워다. 사람들이 반복적으로 자동화해서 필터링하고 답장을 한다. 이런 반복적인 일을 자동화하고 있다. 더 오랜 시간에 걸쳐서 해야하는 일들이다. 새로운 혁신이 나오지 않을까 싶다.

-메일 내용 안에 누구, 언제, 어디서나 몇 시에 만날 수 있는지 파악한다면 특정인을 지목할 수 있지 않나.

△“9시 커피숍에서 만나자”, “커피숍에서 점심 먹고 보자” 등 수많은 말뭉치를 가져온다. 여기서 공통점은 “커피숍에서 만나자”다. 이런 것들의 공통점을 뽑아내는 것이다. 개인 정보와 관련돼 가져오는 것은 불가능하다.

-스팸 폴더 안에 있는 메일을 되살린 메일이 있다. 이후에도 이 메일이 계속 스팸으로 분류된다. 학습 등에 있어 덜 된 게 아닌가.

△스팸박스에서 캔슬해준 것에 대해 감사히 여긴다. 보통 메일이 스팸으로 분류되는 게 사용자 입장에서 피해가 클 수 있다. 이 부분을 피하려고 트레이닝 하고 있다. 스팸 박스에서 꺼내오면 ‘스트롱 시그널’로 해석된다. 해당 메일이나 발신자에 대한 평가가 높아지는 것이다.

-앞서 나온 질문이랑 상충될 수 있다. 프라이버시 보호에도 한계가 있을 것 같은데 예컨대 테러와 관련된 내용이다. AI가 종국에 이런 것까지 걸러낼 수 있는지. 또 정부에서 이런 정보를 요구할 때는 구글에서는 어떻게 대응하는지?

△워낙 복잡하고 미묘한 질문이다. (본인이) 말할 수 있는 내용은 없다. 그 부분은 모르겠다. 확실히 말할 수 있다면 구글은 투명성을 굉장히 중요하게 여기고 있다는 점이다.

-15GB 용량이 예전에는 엄청 많다고 느꼈다. 그런데 지금은 적다라는 느낌이 강하다. 더 늘릴 계획은 없는지?

△그 부분도 (본인이) 말하기 어렵다.