[닥터몰라의 IT이야기]CPU 멀티칩 흐름 가속화하는 인텔과 AMD

[닥터몰라의 IT이야기] 다음주 개막하는 수퍼컴퓨팅(Supercomputing) 2018 학회를 겨냥해 인텔은 이틀 전인 11월 5일 ‘캐스케이드 레이크(Cascade Lake)-AP’ 차세대 서버 프로세서의 개요를 발표했다. 내용은 자못 충격적이었다.

Cascade Lake-AP가 현 스카이레이크(Skylake)-SP의 두 배에 가까운 48코어를 집적한다는 사실 때문이 아니다. 2006년의 요크필드(Yorkfield)를 마지막으로 한동안 인텔 로드맵에서 찾아볼 수 없었던, 2개의 다이(칩)를 이어붙인 멀티칩모듈 (MCM) 구조가 정식으로 부활했음을 알리는 신호탄이었기 때문이다.

인텔이 2008년 Nehalem 아키텍처에서 야심차게 (재)도입한 동시 다중스레드 처리기술인 ‘하이퍼스레딩(Hyper-threading; HT)’ 은 최근 1년 사이 불거진 각종 보안 취약점의 온상으로 지목받으며 9세대 코어 프로세서를 기점으로는 사실상 극히 일부 SKU를 제외하고는 배제수순을 밟고 있다. 거꾸로, 2008년 Nehalem이 네이티브 4코어 설계를 채택하며 폐기되었던 MCM 구조는 만 10년만의 컴백을 알리며 극적인 대비를 이뤘다.

Cascade Lake-AP를 구성하는 최소단위는 Skylake-SP와 크게 다르지 않을 것으로 예상된다. Skylake-SP의 최상위 버전 다이는 풀 스펙을 가정했을 때 28코어, 6채널 DDR4 메모리 인터페이스를 갖춘다. 이를 그대로 두 배 늘리면 56코어, 12채널 메모리 인터페이스가 되어야겠지만 Cascade Lake-AP는 48코어, 12채널 메모리를 각각 지원할 것으로 소개되었다. 코어 일부를 비활성화한 채 투입할 것으로 예상되는 대목이다.

인텔이 Cascade Lake-AP를 소개한 시점 역시 의미심장하다. 이로부터 단 하루 뒤인 11월 6일, AMD는 넥스트 호라이즌(Next Horizon) 행사를 열어 자사의 차세대 아키텍처인 젠(Zen) 2 및 그에 기반한 ‘롬(Rome)’ 프로세서의 개요를 공개했기 때문이다. AMD의 신규 발표에 쏠릴 이목의 분산을 꾀했다는 심증을 거두기 어려운 가운데 이런 패턴이 불과 수개월 전 답습되었다는 것 또한 흥미롭다. 지난 6월 컴퓨텍스 2018에서 인텔은 AMD가 12nm Zen+ 기반 2세대 라이젠 스레드리퍼(Ryzen Threadripper)를 발표하기 단 하루 전, 28코어 프로세서의 프로토타입을 전격적으로 시연했다. 이 제품은 지난달 제온(Xeon) W-3175X라는 이름으로 출시가 확정되었다.

인텔이 28코어 프로세서의 신규 투입을 알린 이튿날 AMD는 최대 32코어의 2세대 Ryzen Threadripper를 발표하며 인텔에게로 급격히 쏠리던 무게추를 급반전시킨 바 있다. 이러한 예후마저 재현될 조짐이 보인다. 48코어 Cascade Lake-AP가 예고된 지 이틀째인 6일 이날 AMD는 Next Horizon 행사에서 2세대 EPYC ‘Rome’ 프로세서가 최대 64코어 구성을 취할 것을 공식화했기 때문이다. 더불어 오랜 x86 CPU 경쟁의 역사에서 처음으로 비-인텔 제조사가 인텔의 동 세대 프로세서보다 앞선 제조공정을 채택하는 신기록을 세웠다.

TSMC의 7nm 핀펫(FinFET) 공정으로 제조되는 Rome은 Zen 2 아키텍처 기반의 x86 코어 8개씩을 집적한 ‘칩렛’(chiplet, chip의 소형형 명사) 을 최소단위로 한다. 종전의 Zen / Zen+ 기반 프로세서 설계에서 코어 4개씩을 묶어 ‘코어 컴플렉스’ (CCX) 라는 최소단위로 삼던 것에 비하면 최소단위가 2배로 확장된 것이다. 게다가 변화는 단순히 숫자의 증가시키는 데 그치지 않았다.

과거 Zen / Zen+ 기반 프로세서는 이러한 CCX 2개와 (4x2=8코어) 2채널 메모리 컨트롤러, 32라인 PCIe 3.0 컨트롤러 등 I/O 인터페이스를 모두 집적해 하나의 칩을 구성했고, 다시 이러한 칩을 1, 2, 4개로 MCM화해 데스크탑용 Ryzen으로부터 하이엔드 데스크탑용 Ryzen Threadripper, 서버용 EPYC까지 파생시키는 전략을 취하고 있었다.

이 전략은 설계의 복잡도를 크게 늘리지 않으면서 손쉽게 8코어부터 32코어 프로세서까지를 만들어낼 수 있는 장점을 제공했지만, 동시에 I/O 인터페이스가 각각의 칩에 전속되며 MCM 구성시 ‘다른 칩에 속한’ I/O 자원을 액세스하는 데 불필요한 레이턴시가 발생하는 등 약점도 공존했다. AMD는 Zen 2를 도입하며 바로 이 부분에서 큰 변화를 꾀했다. 바로 I/O 인터페이스를 ‘코어’ 부분과 독립시킨 것이다.

2세대 EPYC ‘Rome’은 최대 8개의 8코어 칩렛과 더불어 1개의 ‘I/O(입·출력) 다이’ 를 포함하고 있다. 즉 산술적으로는 8+1=9칩 구성이 된다. I/O 다이는 8채널 DDR4 메모리컨트롤러를 내장하는데, 1세대 EPYC이 ‘4개의 칩에 걸쳐’ ‘각 칩마다 2채널씩 보유한’ 메모리 인터페이스를 합산해 8채널을 구현한 것과 근본적인 차이가 있다. 1세대 EPYC은 4개의 2채널 메모리 도메인으로 구성된 NUMA 구조였다면 2세대 EPYC ‘Rome’은 단일한 8채널 도메인의 UMA 구조인 것이다.

다시 말해, 1세대 EPYC은 워크로드가 1개 칩분의 자원을 초과하여 점유할 때마다 칩 사이를 넘나들어야 해 오프-칩 레이턴시가 발생했지만 2세대 EPYC ‘Rome’은 모든 부하의 워크로드에 대하여 레이턴시를 균일하게 통제할 수 있게 된다. 이는 비단 서버용 프로세서뿐 아니라, MCM 구조를 채택하고 있던 하이엔드 데스크탑용 프로세서 Ryzen Threadripper에 대해서도 마찬가지의 개선을 가져올 것으로 관측된다.

I/O 다이를 분리한 것에는 물론 핸디캡 또한 존재한다. 2003년 K8 아키텍처에서 프로세서와 메모리 컨트롤러를 통합한 이래 만 15년만에, 둘을 다시 물리적으로 분리하는 ‘역사적 번복’이 그것이다.

그러나 개별 코어와 메모리 컨트롤러를 분리하는 작은 핸디캡을 대가로 프로세서 전체 레벨에서 UMA로 메모리 도메인을 통합, 레이턴시를 절약하는 것이 훨씬 큰 성능상 이득을 가져온다는 것이 AMD의 판단이다. 이러한 개선에 힘입어, 이론상 2세대 EPYC ‘Rome’은 현행 수준의 인터커넥트만 확보하더라도 최대 8소켓까지 확장할 수 있게 된다. 이는 인텔 Xeon SP와 동등하고, 현행 1세대 EPYC보다 4배 증가한 것이다.

또한, 그러고도 I/O 다이가 물리적으로 분리됨으로써 발생하는 핸디캡은 칩렛과 I/O 다이를 잇는 내부 소통망인 ‘인피니티 패브릭(Infinity Fabric; IF)’을 2세대로 업데이트해 최소화하는 등 만반의 대비책을 세웠다. 2세대 IF의 대역폭은 아직 구체적으로 알려지지 않았으나 Zen 2부터 PCIe 4.0을 지원한다는 것이 알려졌으므로 IF 역시 그에 연동되어 대역폭 향상이 있을 것으로 짐작된다. 즉 Zen 2의 핵심은, 과거의 프로세서-노스브릿지(메모리 컨트롤러) 체제로 회귀하되 둘 사이의 인터커넥트를 과거와 비교할 수 없이 고속화해 그 차이를 은폐하는 데 있다.

Zen 2는 ‘거시적인’ 칩 디자인의 변화만을 의미하지 않는다. 아키텍처 레벨에서의 ‘미시적’ 변화가 가해진 것은 2016년 공개된 오리지널 Zen 이후 처음 시도되는 것이다. Zen 2의 변화는 주로 프론트엔드에 집중되었다. 그 중에서도 명령어 프리페치 유닛과 분기예측 유닛을 개선하고, L1 명령어 캐시와 (사실상의 L0 캐시인) OP-캐시를 증설한 것이 가장 큰 변화이다.

상대적으로 Zen 2의 백엔드는 덜 언급되었는데, 그럼에도 주목할만한 변화는 (길게는 K10 시절부터 128비트에 고정되었던) 부동소수점 파이프라인의 벡터 넓이가 마침내 256비트로 확장된 것이다. 앞서 K10 / 불도저의 부동소수점 스루풋은 인텔 Nehalem 아키텍처의 그것과 같았으며 Sandy Bridge의 절반 수준이었고, Zen / Zen+는 Sandy Bridge와 동급이 되었으나 Haswell / Skylake에 비교하면 여전히 절반 수준에 머물러 있었다. 이로써 Zen 2의 스루풋은 Haswell / Skylake와 동등해졌다.

사상 첫 7nm x86 CPU로서 제조공정의 특성을 짚고 넘어가지 않을 수 없다. “7” 이란 숫자에는 다분히 마케팅적 분칠이 덧입혀졌단 사실을 부인할 수 없으나 어쨌든 전 x86 역사를 통틀어 처음으로 인텔의 14nm FinFET 제조공정보다 더 미세한 단계에 돌입했다는 것 역시 사실이다. AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리(Globalfoundries)의 14/12nm FinFET 대비 2배의 밀도 향상을 이뤘다고 밝혔으며 이는 포괄적으로 보아 인텔의 10nm 공정과 유사한 것이다.

그 밖에도 AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리 14nm FinFET 대비 같은 동작속도에서 50%의 소비전력 절감 또는 같은 소비전력에서 25%의 동작속도 향상을 달성할 수 있다고 밝혔다. 아주 러프하게 보아, 현행 1세대 EPYC의 플래그십 SKU인 EPYC 7601를 기준삼았을 때 최대 3.2GHz인 동작속도는 2세대 ‘Rome’ 에서 4.0GHz까지 상향될 수 있으며(3200×1.25=4000), 나아가 3.6-4.0GHz의 동작속도를 갖던 1세대 Summit Ridge 대비 Zen 2 기반 데스크탑 SKU는 4.5-5.0GHz에 달할 가능성이 있다.

인텔과 AMD 모두 노선을 대폭 틀어 MCM으로의 이행이 공식화된 이상, 양사의 경쟁은 이제까지와는 전혀 다른 양상으로 전개될 것이다. 가히 ‘제2라운드’의 개막이라고 보아도 좋을 것이다.

▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.

필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.