[똑똑!빅데이터]통신요금 데이터로 신용도를 어떻게 알죠?

[이데일리 이유미 기자] 사람들은 매일 페이스북에 사진을 올리고 스마트폰으로 기사를 읽고 신용카드로 결제를 합니다. 큰 의미없는 일상생활인 것 같지만 행동 하나하나가 모두 데이터로 쌓이고 있습니다. 이른바 ‘빅데이터’ 시대입니다. 요즘 뜨고 있는 인공지능(AI)도 빅데이터 덕분에 더욱 발전하고 있는거죠. 빅데이터가 왜 중요한 걸까요. 사례를 통해 데이터 이야기를 해보겠습니다.

인터넷전문은행과 P2P금융업체들이 등장하면서 신용평가 방식에도 다양한 기법이 적용되고 있습니다. 심리테스트를 이용하거나 소셜네트워크서비스(SNS) 상에서의 활동을 활용하는 등 각 업체마다 방식들이 다릅니다.

이는 과거 데이터를 통해 미래의 리스크를 예측하는 통계적 방법론 덕분에 가능합니다. 과거의 어떤 데이터를 이용해서 어떠한 알고리즘을 통해 예측을 할지는 각 업체들의 알고리즘에 달린 것이죠.

가장 널리 알려진 방법은 로지스틱 회귀분석(Logistic Regression)입니다. SNS 활용 방식이나 카드 사용 빈도 등 여러 독립변수를 통해 종속변수(대출을 잘 상환하는 좋은 고객인지, 그렇지 않은 나쁜 고객인지)를 예측하는 것입니다. 보다 쉽게 사례를 통해 설명해보겠습니다.

성공 확률이 실패 확률에 비해 몇 배 더 높은가를 나타내는 식. x가 독립변수, y가 종속변수, p는 확률. 신용평가의 경우, 한 대출 신청자에 대해 좋은 고객일 확률이 나쁜 고객일 확률에 비해 몇 배 높은가를 예측할 수 있다.

예를 들어 대출 신청자들의 온라인쇼핑 행태 데이터를 통해 신용평가를 예측해보는 방식을 설명해보겠습니다. 대출 금융사에서는 가장 궁금한 것이 대출 신청자에 대한 향후 상환 여부입니다.

우선 과거 사람들의 온라인쇼핑 행태와 대출 발생시 잘 갚았는지 여부를 분석해볼 수 있습니다. A라는 금융회사가 이용자들의 1년간 온라인쇼핑 횟수를 독립변수로 두고, 몇 번 온라인쇼핑을 한 사람이 대출 상환을 잘했는지를 살펴봅니다.

가령 1년동안 온라인 쇼핑을 10~20번 한 사람들 모두 대출을 연체하지 않고 성실하게 갚아나갔다는 결과가 나왔다고 가정해보겠습니다. 그러면 A사는 1년간 온라인쇼핑을 10~20번 한 사람들은 대출 상환 의지와 능력이 충분하다고 보고 향후에도 이와 같은 조건의 대출 신청자들에게는 좋은 조건에 대출을 제공할 것입니다.

또 과거 데이터를 통해 1년간 온라인쇼핑을 5~10번 한 사람들 중 대출을 연체한 비율이 20%라고 결과가 나왔다면, 향후 대출 신청자 중 1년간 온라인쇼핑을 5~10번 한 사람은 10~20번한 사람보다 리스크가 약간 높기 때문에 더 높은 금리를 받는 것입니다.

케이뱅크의 경우에도 통신비 납부 데이터를 활용한다는 방식은 이와 유사할 것으로 예측됩니다. 과거 이용자들이 통신비 납부 행태와 대출 상환에 대한 상관관계를 분석하고 이를 향후 대출 신청자들에게 적용하는 것이죠. 실제로 케이뱅크는 자체 신용평가모델을 시뮬레이션 해본 결과 통신요금을 연체없이 2년 이상 납부한 경우 신용도가 높게 나타난다는 사실을 발견했다고 합니다.

위의 사례는 ‘1년간 온라인쇼핑 횟수’라는 독립변수를 하나만 사용했기 때문에 간단해보일 수가 있지만 실제로는 훨씬더 많은 변수들을 사용하게 됩니다.

하버드국제센터에서 시작된 EFL은 인성평가를 통해 신용평가를 진행한다.

이러한 방식을 기본으로 해서 핀테크업체들은 점차 신용평가 알고리즘을 고도화하고 있습니다. P2P금융업체인 펀디드는 개인회생이나 연체 등 특이한 조건(이상치)이 있을 경우 일반적으로 사용되던 로지스틱 회귀분석을 통한 예측이 맞지 않을 경우가 많다는 점을 착안했습니다. 이상치가 있는 변수에 대해서는 종속변수에 미치는 영향을 최소화해서 알고리즘을 돌릴 경우 보다 정확한 예측이 가능해집니다.

펀디드는 이를 통해 지난달 스페인에서 개최된 모바일월드콩그레스(MWC)에서 4YFN에 참가해 자사의 신용평가모델을 소개하기도 했습니다.

대출 금융기관 입장에서는 신용평가 모델이 중요합니다. 신용평가 모델에 따라 실제로는 좋은 고객인데 나쁜 고객이라고 판단하게 되면 고객을 잃게 되는 것이고, 나쁜 고객인데 좋은 고객이라고 판단하게 되면 대출금을 다시 받지 못하게 되기 때문이죠. 은행이나 카드사 등이 빅데이터 분석에 투자하고, 핀테크업체들이 알고리즘을 계속 고도화하는 이유입니다.