28나노 공정으로 진화되고있는 모바일 SoC

●32나노/28나노 공정에 돌입하고 있는 모바일 SoC

　스마트폰이나 타블렛전용의 모바일 SOC(System on a Chip)의 급격한 진화가 멈추지 않는다.
현재는, 제조 기술이 32/28nm프로세스 세대로 이행하고 있고, 프로세스 미세화에 의한 칩의 소형화와 코어의 강화의 페이즈에 들어갔다.

　모바일 SoC는, 2010년에 45/40nm 프로세스로 이행한 이래, 다이(반도체 본체)를 비대화 시켜 기능을 강화해 왔다. 애플의 iPhone/iPad 전용의 「Apple Ax」시리즈를 보면, Samsung의 45nm 프로세스 공정을 1년 마다 A4(53평방 mm)→A5(122.2평방 mm)→A5X(163평방 mm)로 다이를 대형화했다. 45nm판의 A5X는, Intel의 4 코어판의 Ivy Bridge(아이비 브릿지)와 거의 동등의 die size가 되고 있다. 마침내 PC를 위한 CPU의 die size를 따라 잡았다. 아래의 그림은, 최신의 모바일 SoC의 die size(반도체 본체의 면적)의 차트다.비교용으로 현재의 Intel CPU의 다이를 늘어놓았다.

　금년(2012년) 4월에 개최된 프로세서 컨퍼런스 「Linley Tech Mobile Conference 2012」에서도, 주최의 The Linley Group의 주석 어널리스트의 Linley Gwennap씨(Principal Analyst, The Linley Group)는 「Mobile Market Overview」의 키노트 스피치로 아래와 같은 그림을 나타냈다.모바일 CPU의 다이의 대형화와 거기에 따른 제조 비용의 급증은 업계의 공통 인식이다.

　모바일 SoC가 대형화한 이유의 하나는, 말할 필요도 없이, 스마트 폰&타블렛 경쟁의 결과, 보다 많은 기능을 실을 필요가 나왔기 때문이다.그러나, 본래라면 2012년 상반기에 이행 할 수 있을 것이었던 32/28nm프로세스의 첫 시작이기 때문에 어차피 소형화가 불가능 하기때문에 성능을 위해 대형화를 할 수 없었다고 하는 배경도 크다고 한다.

　애플는 32nm프로세스판의 A5도 내기 시작하고 있어 업계 전체로 금년 후반에는 32/28nm에의 이행이 진행될 전망이다.32/28nm프로세스가 되는 것으로, 같은 기능의 다이가 소형화한다.그러나, 한편, 28nm세대로는, 보다 강력한 구성의 SoC로도 향하고 있어 향후, 한층 더 모바일 SoC의 기능 경쟁은 격화하는 것을 의미하고 있다.Linley Tech Mobile Conference 2012에서는 아래의 퍼포먼스 예상 도화 나타났다.1년 마다 퍼포먼스가 배증한다고 하는, 모바일 SoC의 크레이지인 페이스가 아직 계속 된다.

●소프트 매크로와 하드 매크로의 중간해의 솔루션도 제공

　모바일 SoC의 급격한 진화의 배경에는 대부분의 모바일 SoC의 핵심이되고있는 ARM의 라이센스 전략이있다.

　ARM은 CPU의 명령어 세트 아키텍처 (ISA)를 정의하면 ISA를 구현 한 CPU 코어를 개발한다. ARM 많은 IP 벤더와 마찬가지로 CPU 코어를 RTL (Register Transfer Level) 소프트 매크로로 제공하고있다. 각 칩 벤더는 RTL에서 합성하여 SoC를 설계한다. RTL 기반이라면, 칩 벤더 측에 사용자의 자유도가있다. Cortex-A9의 RTL에서 마이크로 아키텍처의 구현 옵션은 캐시 크기, TLB 크기, NEON SIMD 엔진의 유무, 오류 감지 여부 프리로드 엔진의 유무, CPU 코어 수 등 다방면에 걸쳐있다. 또한 회로 구현 단계에서 전력 절감 및 고주파 화 등의 연구의 여지가있다. 예를 들어, Samsung은 32nm의 Cortex-A9 코어는 트랜지스터의 몸 영역에 걸리는 전압을 동적으로 제어하는 Body Bias (바디 바이어스)에서 누설 전류의 억제와 성능의 향상을 실현하고있다.

　그렇다고는해도, RTL에서 단순히 합성 한 경우, 일반적으로 작동 주파수 및 지역 면적, 소비 전력 등으로 불리해진다. Samsung과 같은 회로 설계 및 공정 기술에 대한 최적화는 노하우 및 엔지니어링 노력이 필요하다. 따라서 ARM은 2 가지 방법으로이 문제를 해결하고있다. 주요 파운드리 주요 프로세스 라이브러리로 튜닝 한 하드 매크로 제공. 다른 하나는, "POP (Processor Optimized Packages)"과 ARM이 부르는 파운드리 프로세스마다 최적화 패키지의 제공이다.

　하드 매크로는 프로세스 기술에 최적화 된 물리적 디자인 된 매크로에서 일반적으로 고속 버전과 저전력 버전 2 가지를 디자인한다. 아래의 슬라이드는 Cortex-A9 하드 매크로 "Osprey (오스 프리)"의 두 가지 유형의 매크로 예다. 칩 벤더에게 하드 매크로는 고속 또는 저전력 코어를 적은 엔지니어링 노력으로 사용할 수있는 간편한 솔루션이다.

Osprey의 매크로예

　그러나, 하드 매크로는 형식적인 일 설계이며 배치를 할 수 없다.거기서, ARM은, 최적화의 노하우를 POP(Processor Optimized Packages)으로서 제공하는 것으로, 최적인 PPA(Power, Performance and Area)의 밸런스를 얻으면서 커스터마이즈도 가능하게 한다.같은 ARM의 마이크로 아키텍쳐의 CPU 코어를 사용하는 경우에서도, 퍼포먼스와 자유도와 개발 노력의 선택사항이 있다. 같은 마이크로 아키텍처의 ARM 코어에서도 작동 주파수 및 전력 넓은 변화가있는 것은 그 때문이다. ARM이 제공하는 아래의 예는 TSMC의 40nm 공정에서 Cortex-A9도 RTL에서 그대로 합성하면 0.95GHz 정지 같은 것이 하드 매크로는 최고 2GHz, POP를 결합 1.7GHz이다 있다.

최단기간의 제품화 ARM Cortex 프로세서의 최적화 설계를 실현하는 POP

●독자적인 아키텍쳐와 개량된 아키텍쳐

또한 칩 벤더 측은 ARM에서 전체 아키텍처를 라이센스를받는 것으로, ARM과 명령 세트 호환 CPU 코어를 개발 할 수도있다. 모바일에서는 Qualcomm이 방법으로 자신의 마이크로 아키텍처의 CPU 코어를 개발하고있다. Qualcomm은 S3까지 "Snapdragon"의 CPU 코어 인 "Scorpion"의 개발에 있어서는 자신이 원하는 성능의 코어를 재빨리 입수 위해 마이크로 아키텍처에서 개발하는 길을 선택했다고 설명하고있다.

　또한, 라이선스 업체 제조 업체는 ARM이 개발 한 마이크로 아키텍처를 아키텍처 수준에서 확장하는 라이센스를받을 수도있다. Qualcomm처럼 완벽하게 자신의 마이크로 아키텍처를 처음부터 개발하는 것이 아니라, ARM 코어도 허가, 그것을 기반으로 기능을 확장한다. 예를 들어, Cortex-A9, 차세대 ARM 코어 Cortex-A15 (Eagle : 독수리)와 동등의 명령어 세트를 구현하는 움직임이있다. NVIDIA도 "Project Denver"등으로 GPU에 통합하는 ARM 코어에 대해 ARM 설계의 코어를 기반으로 확장한다고 설명하고, 이러한 사용권 설계를 가지고 있다고 추측된다.

　이렇게 보면, ARM의 다양한 라이센스 및 IP 제공 형태가 마이크로 아키텍처와 구현의 다양성을 낳고있는 것을 알 수. 물론 이만큼의 수고를 ARM이 걸릴 수있다는 ARM 기반 SoC의 시장이 그만큼 확산되고 있기 때문이다. 더 정확히 말하면, 모바일 시장의 급성장과 함께 ARM의 POP와 같은 솔루션이 급진전되어왔다.

ARM의 라이센스

또한 ARM 코어 IP는 멀티 파운드리에서 프로세스 기술 자체의 변화도있다. SoC 수준은 다른 GPU 코어 나 다른 IP가 결합되기 때문에 더 바리에이션이 증가. GPU 코어만으로도 ARM Mali 계, PowerVR 계, NVIDIA Tegra 계, Qualcomm Adreno 계 등 다양한있다. 다른 IP는 Texas Instruments는 자신의 강력한 미디어 프로세싱 엔진을 탑재하고있다. ARM이 노력하지도, 주위의 라이센스 사용자가 ARM 기반 SoC를 지원하는 구조로되어있다.

●Cortex-A9보다 동일클럭대비 40% 성능향상된 Cortex-A15

　다음 단계는 ARM 계열 CPU 코어는 새로운 세대에 돌진. 현재 모바일 ARM 계열 CPU 코어는 Cortex-A8, Cortex-A9, Snapdragon Scorpion의 모두 최대 2 명령 디코드의 프론트 엔드이지만 다음 세대는 Cortex-A15와 Snapdragon S4 Krait의 모두 3 명령 디코딩 프런트 엔드된다. 또한 백엔드 실행 파이프 라인은 기존보다 명령 포트 유닛마다 분리 된 명령 포트가 많은 구조로 바뀐다. 28nm 이하의 공정을 전제로보다 다양한 구성의 마이크로 아키텍처로 발전, 싱글 스레드 성능을 높인다.

　Cortex-A15는 Cortex-A9의 발전이 아니라, 완전히 새로운 마이크로 아키텍처에서 계속 정교한 설계로되어있다. 명령 이슈 포트는 실행 유닛마다 분리되어 Cortex-A9는 64-bit 폭이었다 SIMD 엔진도 128-bit 폭이된다. 지금의 PC 용 CPU에 매우 유사한 구조가된다.

　
ARM이 밝히고있는 Cortex-A15의 성능 목표는 3.5DMIPS/MHz에서 2.5GHz시 8,750 DMIPS의 최고 성능을 목표로한다. 덧붙여서, 2.0GHz 이상의 성능을위한 공정 기술을 사용했을 때의 대상이다. Cortex-A9의 원래 목표는 2.5 DMIPS / MHz이기 때문에 대상대로라면 Cortex-A15는 동 클럭에서 Cortex-A9의 1.4 배의 성능을 달성하게된다.

　Cortex-A15는, 금년 후반의 Texas Instruments의 「OMAP5」에 듀얼 코어(최고 2 GHz)로 채용된다.또, ARM은 Cortex-A15에서도 하드 매크로 「Seahawk」를 제공한다.Seahawk의 개요는, 금년 4월에 요코하마에서 개최된 프로세서 컨퍼런스 「CoolChips」로 일부가 밝혀지고 있다.

Cortex-A15

　하지만 실제로는 Cortex-A15을 피하고, Cortex-A9에 Cortex-A15 호환 명령 세트를 구현하려는 움직임도있다. 명령어 세트에서는 Cortex-A15 호환이지만, 코어 자체는 더 작고 저전력 Cortex-A9 기반이라는 CPU 코어된다. 그러한 해석도 있기 때문에 Cortex-A15는 모바일에서는 Cortex-A9만큼 빠르게 확산되지 않을 가능성이있다.

●L0캐쉬를 가지는 스냅드래곤 S4계의 Krait 코어

　Qualcomm는, 벌써 「Snapdragon S4」패밀리로부터 CPU 코어 「Krait(크레이트)」를 싣고 있다.Snapdragon S4계는 최신의 Android 스마트 폰에 일제히 탑재되고 있어 Scorpion때와 같게 독자적으로 마이크로 아키텍쳐를 개발한 것으로, 동클래스의 Cortex-A15에 출시를 앞설 수 있었다.확실한 어드밴티지가 되고 있다.

　Krait 코어에 대해서는, 4월에 개최된 게임 개발자를 위한 컨퍼런스 「GDC(Game Developers Conference)」등에서 일부의 특별의 설명이 행해졌다.타겟은 Cortex-A15라든지 되어 닮아 있어 목표로 하는 성능 레인지는 3 DMIPS/MHz 이상.풀로 아웃 오브 오더 실행화 된 파이프라인을 가진다.

Cortex-A15와 스냅드래곤 S4 아키텍쳐의 비교

　Krait 코어의 큰 특징의 하나는 소용량의 L0 캐시 (명령 4KB + 데이터 4KB)를 CPU 코어에있는 것이다. 캐시 계층은 L0-L1-공유 L2의 3 계층이다. GDC 때로는 세션시 전시에서 설명 원이 L0 캐시를 끼운 것은 전력 절감 때문이라고 설명했다. 더 작은 공간에서 더 가벼운 (구조가 단순) L0 캐시를 CPU 코어에 내장함으로써, 상대적으로 대용량 무거운 (복잡한 구조) L1 캐시에 대한 액세스를 줄인다. 거기에 따라 캐쉬의 소비 전력을 줄이는 방법이다. Krait의 L0 단순한 직접 맵 구조를 가지고 있다고되지만 단순한 캐시 구조에 의한 전력 절약이 목적이라고 추측된다. 이전 세대의 Scorpion는 Qualcomm은 32KB의 명령 L1 및 32KB 데이터 L1을 구현했다. Krait는 L0를 끼우는 한편, L1 캐시는 각 16KB 씩 줄이고 있다고 말한다.

스냅드래곤 S3 L0의 캐쉬

●GPU 코어는 타일링과 이미디에트의 양모드를 변환

　덧붙여서, Snapdragon S4계에서는, GPU 아키텍쳐도 바뀌었다. 현재의 Snapdragon S4 MSM8960계의 GPU 코어는 기존 아키텍쳐의 확장판인 Adreno 225이지만, 같은 Snapdragon S4에서도 쿼드코어의 「Snapdragon APQ8064」에서는 GPU 코어도 차세대코어인 「Adreno 320」이 된다.

　Adreno 320의 최대의 특징은, 타일베이스의 「비닝모드(Binning Mode)」라고, 타일을 사용하지 않는 「다이렉트(Direct) 모드」의 양쪽 모두를 갖추는 것.비닝모드는, 외부 메모리 대역을 절약할 수 있기 위해 모바일 GPU에서는 일반적이고, 타일링 모드라고도 부른다.화면을 타일에 분할해 렌더링 하는 것으로, 데프스밧파나 칼라 버퍼등을 내장 메모리(GMEM)로 조달한다.다이렉트 모드는, PC를 위한 GPU로 일반적인 외부 메모리에 직접적으로 그려 넣는 방식으로, 이미디에트모드(Immediate Mode)라고 부르는 것이 일반적일지도 모르다.

GPU 아키텍쳐의 차이

　Adreno 320은 두 모드를 전환하여 렌더링하는 그래픽으로 최적화한다. Qualcomm은이 기술을 "FlexRender"라고 부르고있다. 모드의 전환은 동일한 응용 프로그램 내에서 수행, 최적의 성능 / 전력을 실현할 수있게한다.

　좋은 모습을 가지고 접근하지만, 실제로는 모바일 GPU의 다이 면적을 가지고 타일 메모리를 내장 한 채 이미 디 트 모드를 지원하기 위해 다이 오버 헤드가있다. 28nm 공정이라 할 수있는 구현이다.

　큰 흐름을 보면, 28nm 세대 모바일 SoC 더욱 빠르게 발전하는 것을 알 수있다. 또한 향후에는 다크 실리콘을 채우기 위해, CPU 코어를 늘리는 것이 아니라, GPU 코어 등 다른 기능을 충실하게 해가는 방향도 강해질 것이다.

저작자표시 비영리 변경금지 (새창열림)

'IT/Hardware > CPU/MB' 카테고리의 다른 글

[IDF 2012] 인텔 하즈웰 3세대 울트라북을 공개 (0)	2012.09.12
[IDF 2012] 인텔 하즈웰(Haswell) 공개 시연을 하다. (0)	2012.09.12
인텔 아톰 SoC의 메드필드(Medfield)를 발표 (0)	2012.09.09
HP AMD 트리니티(A10-5700) 벤치마크 테스트 (5)	2012.09.03
아수스 메인보드 캐패시터 논란의 변천사 (0)	2012.08.30
[ADFS 12] ARM과 PowerVR를 참여시킨 HSA 구상 (0)	2012.06.29
[ADFS 12] 2012년 로드맵을 갱신한 AMD (1)	2012.06.29
[ADFS 12] 인텔 울트라북에 대항하는 AMD의 전략 (0)	2012.06.29
[ADFS 12] AMD, 타회사의 IP를 APU에 도입하는 로드맵 공개 (0)	2012.06.29
[ADFS 12] 헤테로지니어스컴퓨팅을 위해 HSA재단 설립 (0)	2012.06.29

소소한 일상의 공간 v2.0

28나노 공정으로 진화되고있는 모바일 SoC

'IT/Hardware > CPU/MB' 카테고리의 다른 글

댓글

티스토리툴바

28나노 공정으로 진화되고있는 모바일 SoC

'IT/Hardware > CPU/MB' 카테고리의 다른 글

관련글

댓글

티스토리툴바