아침에 일어나 스마트폰을 켜면서부터 아니 잠들어 있는 와중에도 스마트폰은 늘 LTE, 5G로 기지국에 연결되어 위치 정보와 페이스북, 카카오톡 알람, 이메일 등의 메시지들을 기록한다. 마트폰에 잠금해제를 할 때부터 네이버 앱을 실행해 날씨 정보를 확인하고 검색하고, 쿠팡에 들어가 배송 정보를 체크하고, 인스타그램에서 좋아요를 누르고, 이메일을 확인하는 과정에서 데이터가 자동적으로 기록된다. 하루에도 스마트폰을 수십번 보기 때문에 그때마다 쌓이는 정보의 양은 누적되기 시작하면 어마어마할 것이다. 유튜브, 넷플릭스, 멜론 등을 즐긴다면 컴퓨터와 스마트폰에 이들 서비스를 사용하면서 끊김없이 영상이나 음악을 재생해주기 위한 일부 데이터가 저장된다. 웹서핑을 하게 되면 웹브라우저에 우리가 방문한 사이트의 URL과 함께 제대로 보지도 않았던 이미지와 텍스트 등의 HTML 데이터가 저장된다. 심지어 배터리 최적화를 위해 배터리를 가장 많이 소모하는 앱이 무엇이고 언제, 얼만큼, 무슨 앱을 이용했고 그때 배터리는 얼마나 소모되었는지 등의 정보까지도 배터리 효율화라는 목적으로 기록된다. 그렇게 우리가 미쳐 인지하지 못하는 사이에 엄청난 데이터들이 수집되고 있다.
내 스스로 인지하고 저장되는 데이터들도 있다. 카메라로 촬영한 음식사진과 아이들 영상, 멋진 경치와 여행사진, 세미나와 회의 관련해 촬영하는 화이트보드 사진과 각종 제품 사진 등등 이 모든 것이 우리 스마트폰에 저장된다. 클라우드와 연동을 해두면 폰에 저장된 데이터와 똑같은 데이터가 클라우드에 복제되어진다. 팟캐스트를 통해 구독 중인 라디오 방송도 저장되고, 카카오톡으로 주고 받은 사진과 영상 그리고 메시지를 통해서도 데이터가 저장된다. 구글포토, 아이클라우드, 아마존 클라우드, 드랍박스 등 여러 개의 클라우드 앱을 이용한다면 각각의 클라우드별로 그런 데이터가 똑같이 기록되어질 것이다. 회사 업무나 학교 보고서 작성을 위해 다운로드받은 PDF와 작성 중인 파워포인트, 한글 문서도 우리가 사용하는 노트북, 태블릿, 스마트폰에 저장되어진다.
우리 일상, 사회 속에서 저장되는 공용 데이터들도 있다. 길거리에 있는 CCTV와 회사 등에서 설치한 IP카메라는 클라우드에 연결되어 모든 장면을 영상으로 기록하고 있다. 공장에서 각 공정의 기계들이 만들어내는 데이터와 회사에서 경영활동을 하며 쌓이는 데이터들도 있다. 이렇게 우리는 디지털 세상 속에서 엄청난 양의 데이터들을 배출하고 있다. 그렇게 배출된 데이터들은 쓰레기처럼 분리 수거가 되지 않고 우리 로컬 기기와 클라우드에 우선 쌓여간다. 데이터가 미래의 원유이고 중요하다는 미명 아래 우선 모든 데이터는 가급적 삭제하지 않고 그렇게 저장한다. 사실 기계적으로 수집되어 축적되는 데이터 중 꺼내어 사용하지 않고 분석되지 않는 것은 아무짝에도 쓸모없는 디지털 쓰레기일 뿐이다. 데이터 정제가 중요한 것은 불필요한 데이터를 주기적으로 솎아내서 버림으로써 더 소중한 데이터를 더 오래도록 보관할 수 있기 때문이다.
2021년 6월부터 구글은 구글포토라는 사진 클라우드 서비스를 유료화했다. 2015년 5월부터 무료로 서비스하던 구글포토는 전 세계 10억명의 가입자들이 애용하는 사진 클라우드 서비스이다. 하지만, 넘쳐 나는 사진, 동영상 저장을 계속 지원할 수 없다보니 15GB까지는 무료지만 그 이상을 사용하려면 구글원에 가입해 월 2200원에 100GB까지 사용하는 유료화를 단행한 것이다. 구글포토 사용자의 80%는 15GB 이하를 사용하고 있어 당장 돈을 내야 하는 상황은 아니지만 수십 GB를 넘어가는 우리 스마트폰 속 사진과 영상 데이터를 앞으로 계속 클라우드에 자동으로 동기화를 하며 저장하다보면 1~2년내 유료로 사용하든 아니면 불필요한 데이터는 삭제해야 한다.
물론 개인을 넘어 기업, 사회적 차원에서도 ‘데이터 다이어트’를 돌아보고 효율적인 데이터 관리 방안을 진단해볼 때이다. 기술적 측면에서 볼 때 데이터 압축이나 여러 곳에 저장한 동일한 파일은 하나만 남기고 삭제하고, 로컬에 파일을 저장하지 않고 스트리밍으로 필요할 때에만 전송해서 사용하는 방안을 찾아볼 수 있다. 또, 기업에서 수집한 데이터들도 데이터 활용의 목적에 맞지 않은 파일은 즉시 삭제하고 원본 데이터보다 이를 가공해 용량을 최적화한 데이터만 저장하는 등의 방법을 찾아야 한다.