韓 초거대AI 모델, 응원합니다 [김현아의 IT세상읽기]

지난해 11월 챗GPT 출시후 국내 이용자 220만명
압도적 컴퓨팅 파워와 막강한 자본력으로 빅테크들 속도전
과기정통부, '초거대AI 경쟁력 강화 방안' 마련
자체 모델 지원, 데이터 눈알 붙이기에서 벗어난 정책
고성능·저전력 클라우드 육성 담아 기대감

등록 2023-04-15 오후 3:00:24

수정 2023-04-16 오후 5:40:08
가 가

[이데일리 김현아 기자]

[이데일리 이미나 기자]

인터넷 검색에 이어 초거대 인공지능(AI) 시대에도 우리나라가 데이터 주권을 지킬 수 있을까요?

한국은 글로벌 인터넷 검색 시장에서 중국, 러시아와 함께 자국 검색 엔진이 점유율 1위를 차지하는 몇 안 되는 나라죠. 네이버와 카카오(다음) 덕분입니다. 세종대왕님 덕분이기도 하고요.

그런데, 챗GPT 돌풍을 계기로 정보의 바다에서 답을 찾는 방식이 바뀌고 있습니다.

키워드 중심의 인터넷 검색이 채팅봇과의 자연스러운 대화로 바뀌고 있죠. 오픈AI에 지분 투자한 마이크로소프트(MS)는 사무용 소프트웨어(SW)에 코파일럿(생성형AI 기능)을 장착한다니, 수개월 내에 학원에 다니지 않아도 엑셀을 더 편하게 쓸 수 있게 될 것 같습니다.

여기에 언어를 이해하고 대답하는 특성이 로봇에 적용되면, 영화 아이언맨의 AI비서 자비스를 우리 집에서 만날 날도 멀지 않은 것 같습니다.

그래서 걱정이 컸습니다. 지난해 11월 챗GPT가 출시된 뒤, 5개월 동안 구글과 메타 등 글로벌 빅테크들이 앞다퉈 초거대 AI 모델을 내놓는데, 우리나라는 어떡하나 하는 것이었죠.

초거대 AI는 웹이나 PC보다 근원적인 혁명이라는 빌게이츠의 말처럼, AI 대중화를 이끌 전략적인 무기이기 때문입니다. 모든 산업의 지형을 바꿀 트리거이기 때문입니다. 벌써 챗GPT 국내 이용자만 220만명이라고 합니다.

그런데, 어제(14일) 과학기술정보통신부가 발표한 ‘초거대AI 경쟁력 강화방안’을 보고, 다소 안심할 수 있었습니다.

①대한민국 자체의 파운데이션 모델을 버리지 않고 기업들의 자체 모델 개발을 지원하기로 한 점 ②기존 AI 때와 다른 데이터 구축 방법을 쓴 점(데이터 라벨링 중심→텍스트 데이터(비라벨링)중심으로의 변화)에서 공감했습니다.

또, ③편향적 필터링 등 초거대AI의 한계를 벗어나기 위한 차세대 기술 개발 추진이나 ④엄청난 컴퓨팅 수요를 해결하기 위해 국산 AI반도체 기반의 고성능·저전력 K-클라우드를 키우기로 한 점도 믿음직했습니다.

사실, 우리나라는 지금도 미국, 중국, 이스라엘과 함께 자체 초거대AI 모델을 개발 중인 몇 안 되는 나라죠.

하지만, 글로벌 빅테크들이 압도적인 컴퓨팅 파워와 막대한 자본력을 무기로 삼는 데 반해, 국내 기업들의 현실은 녹록지 않았죠.

네이버, 카카오, KT, SK텔레콤(코난테크놀로지), LG전자 등이 자체 파운데이션 모델을 개발 중이나, 오픈AI나 구글, 메타 등과 경쟁하긴 벅찬 상황입니다.

특히 지난 정부 시절 데이터 눈알(값)붙이기로 불렸던 데이터 라벨링 중심에서 벗어나, 초거대 AI 학습용 데이터의 특성에 맞게 데이터 구축 모델을 바꾼 것은 정말 잘한 일이라고 할 수 있습니다.

[이데일리 이미나 기자]

어제 ‘초거대AI 경쟁력 강화 방안’을 발표한 이종호 과학기술정보통신부 장관(왼쪽). 이날 고진 디지털플랫폼정부위원회 위원장과 고학수 개인정보보호위원회 위원장은 각각 초거대AI시대 ‘디지털플랫폼정부 실현계획’과 ‘데이터 혁신을 위한 국민 신뢰 확보방안’을 발표했다. 사진=연합뉴스

정부는 카카오, LG, 엔씨소프트 등의 ‘양질의 한국어 텍스트 300억 개 토큰(1문장=10토큰)이상이 필요하다’는 요구를 받아들여 초거대 AI 학습용 텍스트 데이터 200종(200억개 토큰, 약 100억개 기구축)구축하기로 했다고 합니다.

200억개 토큰은 약 15만 권에 해당하는 분량(책 1권당 13.3만 토큰 가정)으로, 올해엔 한국어(22종), 문화관광(2종), 교육·법률·금융(각 1종) 등 총 34종 구축(476억원)에 들어간다고 하네요.

산업분야별 특화 학습용 데이터(텍스트+파인튜닝 데이터)를 구축하고, 비영어권 시장공략을 위해 필요한 동남아·중동 등 언어데이터도 단계적으로 확대한다고 하죠.

이를 통해 생선찌개를 끓이려 마트에 갔는데, 횟감 생선밖에 없었다던, AI 개발 업체들의 우려를 없앨 것으로 기대합니다.

편향적 필터링 같은 현행 초거대AI의 한계를 극복할 차세대 기술 개발에 나선 점도 기대됩니다.

오픈AI의 천재 직원들조차 인간의 힘을 빌려 해결했던 ‘휴먼피드백강화학습(RLHF·Reinforcement Learning with Human Feedback)’ 문제를 해결할 수 있을지 주목됩니다.

과학기술정보통신부가 내놓은 ‘초거대AI 경쟁력 강화 방안’이 흔들림 없이 추진됐으면 합니다.

이를 통해 우리나라가 독자적 초거대AI 플랫폼을 기반으로 IT 산업은 물론, 유통, 제조, 의료, 문화·예술 등 기존 산업 분야에서도 차별화된 경쟁력을 확보할 수 있기를 기대합니다. 대한민국의 데이터 주권 지키기를 응원합니다.