Cascade Lake-AP가 현 스카이레이크(Skylake)-SP의 두 배에 가까운 48코어를 집적한다는 사실 때문이 아니다. 2006년의 요크필드(Yorkfield)를 마지막으로 한동안 인텔 로드맵에서 찾아볼 수 없었던, 2개의 다이(칩)를 이어붙인 멀티칩모듈 (MCM) 구조가 정식으로 부활했음을 알리는 신호탄이었기 때문이다.
인텔이 2008년 Nehalem 아키텍처에서 야심차게 (재)도입한 동시 다중스레드 처리기술인 ‘하이퍼스레딩(Hyper-threading; HT)’ 은 최근 1년 사이 불거진 각종 보안 취약점의 온상으로 지목받으며 9세대 코어 프로세서를 기점으로는 사실상 극히 일부 SKU를 제외하고는 배제수순을 밟고 있다. 거꾸로, 2008년 Nehalem이 네이티브 4코어 설계를 채택하며 폐기되었던 MCM 구조는 만 10년만의 컴백을 알리며 극적인 대비를 이뤘다.
Cascade Lake-AP를 구성하는 최소단위는 Skylake-SP와 크게 다르지 않을 것으로 예상된다. Skylake-SP의 최상위 버전 다이는 풀 스펙을 가정했을 때 28코어, 6채널 DDR4 메모리 인터페이스를 갖춘다. 이를 그대로 두 배 늘리면 56코어, 12채널 메모리 인터페이스가 되어야겠지만 Cascade Lake-AP는 48코어, 12채널 메모리를 각각 지원할 것으로 소개되었다. 코어 일부를 비활성화한 채 투입할 것으로 예상되는 대목이다.
인텔이 28코어 프로세서의 신규 투입을 알린 이튿날 AMD는 최대 32코어의 2세대 Ryzen Threadripper를 발표하며 인텔에게로 급격히 쏠리던 무게추를 급반전시킨 바 있다. 이러한 예후마저 재현될 조짐이 보인다. 48코어 Cascade Lake-AP가 예고된 지 이틀째인 6일 이날 AMD는 Next Horizon 행사에서 2세대 EPYC ‘Rome’ 프로세서가 최대 64코어 구성을 취할 것을 공식화했기 때문이다. 더불어 오랜 x86 CPU 경쟁의 역사에서 처음으로 비-인텔 제조사가 인텔의 동 세대 프로세서보다 앞선 제조공정을 채택하는 신기록을 세웠다.
TSMC의 7nm 핀펫(FinFET) 공정으로 제조되는 Rome은 Zen 2 아키텍처 기반의 x86 코어 8개씩을 집적한 ‘칩렛’(chiplet, chip의 소형형 명사) 을 최소단위로 한다. 종전의 Zen / Zen+ 기반 프로세서 설계에서 코어 4개씩을 묶어 ‘코어 컴플렉스’ (CCX) 라는 최소단위로 삼던 것에 비하면 최소단위가 2배로 확장된 것이다. 게다가 변화는 단순히 숫자의 증가시키는 데 그치지 않았다.
과거 Zen / Zen+ 기반 프로세서는 이러한 CCX 2개와 (4x2=8코어) 2채널 메모리 컨트롤러, 32라인 PCIe 3.0 컨트롤러 등 I/O 인터페이스를 모두 집적해 하나의 칩을 구성했고, 다시 이러한 칩을 1, 2, 4개로 MCM화해 데스크탑용 Ryzen으로부터 하이엔드 데스크탑용 Ryzen Threadripper, 서버용 EPYC까지 파생시키는 전략을 취하고 있었다.
다시 말해, 1세대 EPYC은 워크로드가 1개 칩분의 자원을 초과하여 점유할 때마다 칩 사이를 넘나들어야 해 오프-칩 레이턴시가 발생했지만 2세대 EPYC ‘Rome’은 모든 부하의 워크로드에 대하여 레이턴시를 균일하게 통제할 수 있게 된다. 이는 비단 서버용 프로세서뿐 아니라, MCM 구조를 채택하고 있던 하이엔드 데스크탑용 프로세서 Ryzen Threadripper에 대해서도 마찬가지의 개선을 가져올 것으로 관측된다.
I/O 다이를 분리한 것에는 물론 핸디캡 또한 존재한다. 2003년 K8 아키텍처에서 프로세서와 메모리 컨트롤러를 통합한 이래 만 15년만에, 둘을 다시 물리적으로 분리하는 ‘역사적 번복’이 그것이다.
그러나 개별 코어와 메모리 컨트롤러를 분리하는 작은 핸디캡을 대가로 프로세서 전체 레벨에서 UMA로 메모리 도메인을 통합, 레이턴시를 절약하는 것이 훨씬 큰 성능상 이득을 가져온다는 것이 AMD의 판단이다. 이러한 개선에 힘입어, 이론상 2세대 EPYC ‘Rome’은 현행 수준의 인터커넥트만 확보하더라도 최대 8소켓까지 확장할 수 있게 된다. 이는 인텔 Xeon SP와 동등하고, 현행 1세대 EPYC보다 4배 증가한 것이다.
또한, 그러고도 I/O 다이가 물리적으로 분리됨으로써 발생하는 핸디캡은 칩렛과 I/O 다이를 잇는 내부 소통망인 ‘인피니티 패브릭(Infinity Fabric; IF)’을 2세대로 업데이트해 최소화하는 등 만반의 대비책을 세웠다. 2세대 IF의 대역폭은 아직 구체적으로 알려지지 않았으나 Zen 2부터 PCIe 4.0을 지원한다는 것이 알려졌으므로 IF 역시 그에 연동되어 대역폭 향상이 있을 것으로 짐작된다. 즉 Zen 2의 핵심은, 과거의 프로세서-노스브릿지(메모리 컨트롤러) 체제로 회귀하되 둘 사이의 인터커넥트를 과거와 비교할 수 없이 고속화해 그 차이를 은폐하는 데 있다.
상대적으로 Zen 2의 백엔드는 덜 언급되었는데, 그럼에도 주목할만한 변화는 (길게는 K10 시절부터 128비트에 고정되었던) 부동소수점 파이프라인의 벡터 넓이가 마침내 256비트로 확장된 것이다. 앞서 K10 / 불도저의 부동소수점 스루풋은 인텔 Nehalem 아키텍처의 그것과 같았으며 Sandy Bridge의 절반 수준이었고, Zen / Zen+는 Sandy Bridge와 동급이 되었으나 Haswell / Skylake에 비교하면 여전히 절반 수준에 머물러 있었다. 이로써 Zen 2의 스루풋은 Haswell / Skylake와 동등해졌다.
사상 첫 7nm x86 CPU로서 제조공정의 특성을 짚고 넘어가지 않을 수 없다. “7” 이란 숫자에는 다분히 마케팅적 분칠이 덧입혀졌단 사실을 부인할 수 없으나 어쨌든 전 x86 역사를 통틀어 처음으로 인텔의 14nm FinFET 제조공정보다 더 미세한 단계에 돌입했다는 것 역시 사실이다. AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리(Globalfoundries)의 14/12nm FinFET 대비 2배의 밀도 향상을 이뤘다고 밝혔으며 이는 포괄적으로 보아 인텔의 10nm 공정과 유사한 것이다.
그 밖에도 AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리 14nm FinFET 대비 같은 동작속도에서 50%의 소비전력 절감 또는 같은 소비전력에서 25%의 동작속도 향상을 달성할 수 있다고 밝혔다. 아주 러프하게 보아, 현행 1세대 EPYC의 플래그십 SKU인 EPYC 7601를 기준삼았을 때 최대 3.2GHz인 동작속도는 2세대 ‘Rome’ 에서 4.0GHz까지 상향될 수 있으며(3200×1.25=4000), 나아가 3.6-4.0GHz의 동작속도를 갖던 1세대 Summit Ridge 대비 Zen 2 기반 데스크탑 SKU는 4.5-5.0GHz에 달할 가능성이 있다.
인텔과 AMD 모두 노선을 대폭 틀어 MCM으로의 이행이 공식화된 이상, 양사의 경쟁은 이제까지와는 전혀 다른 양상으로 전개될 것이다. 가히 ‘제2라운드’의 개막이라고 보아도 좋을 것이다.
▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.
필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.