국내 AI 업계는 이를 두고 산업 발전을 저해하는 규제로 작용할 수 있다는 우려의 목소리를 내고 있다. AI 학습에 쓰이는 데이터는 종류와 관계없이 사용 가능토록 하는 일종의 포지티브 규제를 마련해야 한다는 주장도 나온다.
|
공개 데이터는 커먼크롤(인터넷상의 데이터를 자동 수집해 누구나 접근하고 분석할 수 있도록 저장·유지·관리하는 공개 저장소)·위키백과·소셜미디어·블로그·웹사이트 등의 온라인 공간에서 끌어모은 정보를 말한다. 생성형 AI 모델을 고도화하는 데 쓰이는 필수 학습 데이터로 꼽힌다.
안내서에 따르면 개인정보보호법 제15조의 ‘정당한 이익’ 관련 조항에 따라 공개 데이터는 AI 학습과 서비스 개발에 활용될 수 있다. 또 개발 실무 단계에서 적용 가능한 기술 안전조치에는 △학습 데이터 수집 출처 검증 △개인정보 유·노출 방지 △미세조정을 통한 안전장치 추가 △프롬프트 및 출력 필터링 적용 등의 내용이 포함됐다. 정보주체의 권리보장을 위해서는 AI 생성 결과에 개인정보가 포함되는 경우 신속한 필터링, 미세조정 등 조치를 취하는 체계를 마련하거나 재학습 시 학습 데이터를 배제하는 등 시간·비용·기술적 측면에서 합리적으로 실현 가능한 범위 내 권리를 보장해야 한다.
다만 자율규제인 만큼 기업들은 이 가운데 취사선택해 필요한 조치만 이행하면 된다. 태현수 개인정보위 데이터안전정책과장 겸 AI프라이버시팀장은 지난 15일 사전 브리핑에서 “AI 학습 관점에서 공개 데이터 활용의 목적을 명확히하고 정보주체의 이익을 균형 있게 반영할 수 있는 통로를 마련했다”고 의미를 뒀다. 그는 “안내서가 제시하는 조치를 모두 이행할 필요는 없다”면서 “기업 특성에 맞게 스스로 자율적으로 결정해 최적의 조합을 찾아 도입, 시행하면 된다”고 덧붙였다.
그러나 AI 스타트업 업계는 이번 안내서 내용에 우려를 표하고 있다. 안내서의 4페이지에 대상 사업자 범위가 ‘개인정보 처리자의 지위를 갖는 AI 개발자 및 서비스 제공자’로 명시돼있는데, 관련 세부기준에는 ‘개인정보 처리자 해당 여부는 업무를 목적으로 개인정보 파일을 운용하기 위한 개인정보 처리인지 여부로 판단한다’고 적혀있다. 즉 AI 모델을 사용해 내·외부 서비스를 하는 일반 기업들까지 모두 대상이 될 수 있다는 점이 우려된다는 것이다.
이와 관련 개인정보위 관계자는 “1차적으로는 오픈AI와 메타, 구글 등의 LLM 개발사가 가이드라인에 적용 대상”이라면서 “만약 이 모델을 도입해 공개 데이터를 추가로 학습시키는 업체들이 있다면, 그들 역시 안내서 참고 대상인 것은 맞다. 다만 AI를 도입하는 양상이 다양해서 단정적으로 말하긴 어렵다”고 설명했다.
한편 자체 언어모델을 확보하고 있는 한 스타트업 대표는 AI 사전학습시 데이터 지위에 대한 가이드라인을 마련했다는 부분에 큰 의미를 뒀다. 다만 그는 “안내서가 아직 모호한 부분이 있어 앞으로 기술 발전에 따라 업데이트가 필요하다”면서 “한국 보호법 등 규정이 유럽연합(EU)의 개인정보 보호규정(GDPR) 보다 요구하는 것이 더 많다. 궁극적으로는 글로벌 표준에 부합하도록 법이 개정돼야 한다”고 지적했다.