최신 퀄컴 AI 허브에서부터 획기적인 연구 결과와 AI 기반 상용 단말기 전시까지, 퀄컴은 스냅드래곤 및 퀄컴 플랫폼으로 구동되는 다양한 기기를 통해 개발자의 역량을 극대화하고 사용자 경험을 혁신하고 있다.
두르가 말라디(Durga Malladi), 퀄컴 수석 부사장 겸 기술 기획·엣지 솔루션 부문 본부장은 ”퀄컴은 스마트폰용 스냅드래곤 8 3세대(Snapdragon 8 Gen3)와 PC용 스냅드래곤 X 엘리트(Snapdragon X Elite)를 기반으로 온디바이스 AI의 대대적인 상용화를 촉발했다“고 말했다.
실제로 이번 MWC에서 공개된 아너의 AI폰 ‘아너 매직6 프로’와 샤오미의 AI폰 ‘샤오미 14’에는 모두 스냅드래곤 8 3세대가 장착됐다.
말라디 부사장은 “앞으로 개발자들은 퀄컴 AI 허브를 통해 첨단 기술의 잠재력을 온전히 활용하고 AI 기반의 매력적인 응용 프로그램을 만들 수 있게 될 것“이라며 ”퀄컴 AI 허브는 개발자들로 하여금 사전에 최적화된 AI 모델을 응용 프로그램에 빠르고 쉽게 통합할 수 있도록 종합적인 AI 모델 라이브러리를 제공한다. 이는 더욱 신속하고 신뢰도 높은 개인적인 사용자 경험으로 이어질 것“이라고 강조했다.
|
|
개발자 게이트웨이 ‘퀄컴 AI 허브’
새로운 퀄컴 AI 허브는 스냅드래곤 및 퀄컴 플랫폼을 사용하는 모든 제품에 적용 가능한 사전에 최적화된 AI 모델 라이브러리를 지원한다.
이 라이브러리는 개발자에게 위스퍼(Whisper), 컨트롤넷(ControlNet), 스테이블 디퓨전(Stable Diffusion), 바이추안 7B(Baichuan 7B) 등 75여 가지의 인기 있는 AI 및 생성형 AI 모델을 제공한다.
아울러 각 모델은NPU, CPU 및 GPU등 퀄컴 AI 엔진의 모든 코어에서 하드웨어 가속화를 최대한 활용할 수 있도록 최적화되어4배 가량 빠른 추론 속도가 가능하다.
AI 모델 라이브러리는 또한 소스 프레임워크에서 인기 있는 런타임 환경으로 모델을 자동 변환하며, 퀄컴 AI 엔진 다이렉트 소프트웨어개발도구(SDK)와 직접 연동되어 하드웨어를 고려한 최적화를 실행한다.
개발자는 이러한 모델을 응용 프로그램에 끊김없이 원활히 통합해 상품 개발 기간을 단축하고, 즉각성, 신뢰성, 개인 정보 보호, 개인화, 비용 절감과 같은 온디바이스 AI의 장점을 누릴 수 있다.
최적화된 모델은 현재 퀄컴 AI 허브, 깃허브(GitHub) 및 허깅 페이스(Hugging Face)에서 이용할 수 있다.
앞으로도 신규 모델들이 퀄컴 AI 허브에 지속적으로 추가될 예정이며, 새로운 플랫폼과 운영 체제도 곧 지원된다.
AI 브레인 퀄컴 AI 리서치
퀄컴 AI 리서치는 안드로이드 스마트폰 및 윈도우 PC상에서 동작하는 대형 멀티모달 모델과 맞춤형 대형 비전 모델을 공개했다.
우선 안드로이드 스마트폰에서 최초로 대형 언어 및 비전 비서(LLaVA)를 실현한다. 이 모델은 70억 개 이상의 매개 변수를 보유한 대형 멀티모달 모델(LMM)로 텍스트와 이미지 등 여러 유형의 데이터 입력이 가능하고, AI 비서와 이미지에 대한 멀티턴 대화를 생성할 수 있다.
또한 기기 자체에서 LMM이 반응형 토큰 속도로 실행되므로 개인 정보 보호 및 개인화 기능, 신뢰성이 강화되고, 비용은 절감된다. 언어 및 시각적 이해 능력을 갖춘 LMM은 복잡한 시각적 패턴과 물체, 장면을 식별 및 논의하는 등 다양한 사용 사례를 구현할 수 있다.
아울러 퀄컴 AI 리서치는 안드로이드 스마트폰에서 처음으로 LoRA(Low Rank Adaptation) 기술을 선보인다.
사용자는 LoRA 기반으로 실행되는 스테이블 디퓨전을 통해 개인 또는 예술적 취향에 따라 고품질의 맞춤 이미지를 생성할 수 있다.
퀄컴은 “LoRA는 AI 모델이 학습하는 매개 변수의 숫자를 줄여 온디바이스 생성형 AI 사용 사례의 효율성과 확장성, 맞춤화 정도를 향상시킨다”면서 “LoRA는 각기 다른 예술적 양식에 따라 언어 비전 모델들을(LVMs) 미세 조정할 뿐만 아니라, 대형 언어 모델(LLM)과 같이 상황에 맞추어 AI 모델에 폭넓게 적용돼 맞춤형 개인 비서 기능과 향상된 언어 번역을 제공한다”고 설명한다.
퀄컴 AI 리서치는 텍스트 및 오디오(음악, 교통 소음 등)로 데이터 입력이 가능하며, 해당 오디오에 대한 멀티턴 대화를 생성할 수 있는 매개 변수 70억 개 이상의 LMM을 세계 최초로 윈도우 PC상에서 온디바이스로 구현한다.