LG CNS 데이터허브 플랫폼 사업담당 황윤희 상무와 노혜진 팀장은 지난 1일 서울 강서구 마곡동 LG CNS 본사에서 진행한 인터뷰에서 최근 완료한 ‘서울시민 라이프스타일 재현데이터’ 생성 사업 성과를 소개하며 이같이 말했다.
|
서울시민 라이프스타일 재현데이터는 보유한 양질의 데이터를 널리 활용할 목적으로 합성데이터에 주목한 사례다. 본래는 가명 처리한 데이터도 개인의 정보이기 때문에 활용에 제한이 많다. 데이터를 다루는 사람과 장소, 활용 목적 등을 사전에 정해 놓고 분석을 진행해야 한다. 서울시는 시민의 라이프 스타일을 반영하고 있지만 가상의 데이터라 개인정보 우려가 없는 합성데이터를 만들어 제한 없이 누구나 활용할 수 있게 했다.
이번 사업에서 LG CNS는 대형 데이터를 높은 정확도로 합성하면서 데이터 전문성을 입증했다. 노 팀장은 “합성 데이터는 컬럼(데이터테이블의 열)이 많아질수록 재현 성능이 떨어지는데, 서울시 데이터는 시민 수가 800만 명에 이르고 컬럼도 500개가 넘는 대형 데이터라 매우 도전적인 작업이었다”며 “경험 많은 분석가들이 원본 데이터의 특성이 계속 유지될 수 있도록 파라미터를 세팅하는 등의 여러 기법을 적용한 결과 실제 가명정보 분석 결과와 합성데이터 분석 결과가 90%이상 유사하게 나왔다”고 말했다. 황 상무도 “국내에서 작은 규모의 학습용 합성데이터를 납품하는 곳은 있지만 LG CNS처럼 대형 데이터를 다룬 사례는 거의 없다”고 밝혔다.
LG CNS는 데이터 활용 시장이 초기 단계인 만큼 데이터에 대한 전문성을 무기로 시장을 선점하겠다는 포부다. 황 상무는 “LG CNS는 기업 고객이 내부 데이터와 외부 데이터를 모으고, 안전하게 결합한 뒤 인사이트를 뽑아 데이터에 기반한 의사결정을 할 수 있게 돕는 것이 목표”라며 “국내에선 아직 초기 시장인 만큼 시장을 만들어 나가고싶다”고 포부를 밝혔다.