본문 바로가기
Moblie/Etc

퀄컴의 차세대 모바일 프로세서 스냅드래곤 S4 아키텍쳐 분석

by 에비뉴엘 2012. 4. 14.
반응형

이 글의 주인공인 퀄컴 스냅드래곤 S4 MSM8960을 소개하기 전에, 먼저 기존의 스마트폰/타블렛용 ARM 아키텍처 SoC가 무엇이 있는지를 보도록 합시다. 이들 프로세서는 전부 40나노 공정으로, 글로벌 파운드리, 삼성, TSMC, UMC 등에서 생산합니다. 내년에 여러 제조사들은 공정을 28나노로 발전시키면서 성능과 배터리 사용을 개선할 것입니다. 28나노 공정으로 진입하기 전에 현재 시장에 어떤 메인스트림 SoC가 있는지 한번 보지요.
 

2011/2012년의 주요 SoC 비교
SoC 이름
제조 공정
CPU
GPU
메모리 버스
발표 시기
애플 A5
45nm
2*Cortex-A9@1GHz
PowerVR SGX 543MP2
2*32bit LPDDR2
발표했음
NVIDIA Tegra 2
40nm
2*Cortex-A9(NEON 포함 안함)@1GHz
GeForce ULP
1*32bit LPDDR2
발표했음
NVIDIA Kal-El
40nm
4*Cortex-A9@约1.3GHz
GeForce++
1*32bit LPDDR2
2011년 4분기
삼성 Exynos 4210
45nm
2*Cortex-A9@1.2GHz
ARM Mali-400 MP4
2*32bit LPDDR2
발표했음
삼성 Exynos 4212
32nm
2*Cortex-A9@1.5GHz
ARM Mali-400 MP4
2*32bit LPDDR2
2012년
TI OMAP 4430
45nm
2*Cortex-A9@1.2GHz
PowerVR SGX 540
2*32bit LPDDR2
발표했음
TI OMAP 4460
45nm
2*Cortex-A9@1.5GHz
PowerVR SGX 540
2*32bit LPDDR2
2011년 4분기~ 2012년 상반기
TI OMAP 4470
45nm
2*Cortex-A9@1.8GHz
PowerVR SGX 544
2*32bit LPDDR2
2012년 상반기
TI OMAP 5
28nm
2*Cortex-A15@2GHz
PowerVR SGX 544MPx
2*32bit LPDDR2
2012년 상반기
퀄컴 MSM8x60
45nm
2*Scorpion@1.5GHz
Adreno 220
2*32bit LPDDR2
발표했음
퀄컴 MSM8960
28nm
2*Krait@1.5GHz
Adreno 225
2*32bit LPDDR2
2012년 상반기

 



 
Krait 아키텍처
 
Krait 프로세서는 퀄컴의 2세대 스냅드래곤의 심장으로, 모든 스냅드래곤 S4 SoC의 코어이며, 스콜피온을 기초로 하여 상당한 개선이 이루어졌습니다.
 
아키텍처의 프론트 버스를 보면 Krait는 매우 '넓은' 버스를 사용합니다. 1개의 클럭 사이클에 3번의 fetch와 decode 조작을 실행할 수 있습니다. 각각의 디코더는 ARM11의 싱글 이슈 모듈에 해당되며, 이는 이전의 스콜피온의 2-wide와 비교하여 50% 개선된 것입니다.
 
백 엔드 실행 유닛은 간단하게 확장되었습니다. 스콜피온의 3개에서 7개로 늘어났으며 4개의 명령을 병렬 실핼할 수 있습니다. 명령 실행 단계에서 krait는 Cortex-A9에 진입, 아웃 오브 오더 실행이 가능해집니다.
 
 

 

코어 아키텍처의 비교
ARM11
ARM Cortex-A8
ARM Cortex-A9
퀄컴 Scorpion
퀄컴 Krait
Decode 능력
Single-issue
2-wide
2-wide
2-wide
3-wide
파이프라인 길이
8 스테이지
13 스테이지
8 스테이지
10 스테이지
11 스테이지
아웃 오브 오더
아님
아님
맞음
일부
맞음
FPU
VFP11
(파이프라인화)
VFPv3
(파이프라인 아님)
VFPv3-D16 옵션
(파이프라인화)
VFPv3
(파이프라인화)
VFPv3
(파이프라인화)
NEON 동영상
디코딩 모듈
없음
있음(64bit)
MPE 옵션
(64bit)
있음(128bit)
있음(128bit)
제조 공정
90nm
65nm/45nm
40nm
45nm
28nm
평균 클럭
412MHz
600MHz/1GHz
1.2GHz
1GHz
1.5GHz

 


파이프라인의 경우 Krait의 정수 파이프라인은 스콜피온의 10 스테이지에서 11 스테이지로 늘었습니다. Cortex-A15의 15 스테이지와 비교하여 퀄컴의 설계는 더 많은 로직 모듈을 포함하고 있으며, 프로세서의 클럭을 더 쉽게 향상시킬 수 있게 합니다.
 
그 밖에 Krait는 스콜피온과 비교하여 A15에서 추가된 새 가상화 명령어 셋트와 40비트 메모리 어드레스를 지원합니다. 듀얼코어 모델의 L2 캐시도 512KB에서 1MB로 늘었습니다. 적당한 비유를 들어 보자면, ARM Cortex-A 시대의 설계가 P54C 펜티엄에 해당된다면 Krait는 100% 아웃 오브 오더의 P6 펜티엄 프로가 되는 것입니다. 전체적인 설계는 SoC를 펜티엄 II 시대로 도입한 것과 마찬가지입니다.
 
벡 엔드의 아웃 오브 오더 실행 엔진이 추가되면서 Krait 아키텍처의 예측 성능은 인텔 45나노 아톰보다 높아졌습니다. 2012년에 출시되는 일보 스마트폰은 바니아스 코어의 펜티엄 M 프로세서를 장착한 초기 센트리노 스마트폰보다 더 높을 수 있습니다.
 
일반적으로 ARM 코어의 성능은 오래된 DMIPS(Dhrystone Millions of Instructions per Second)를 사용하여 측정합니다. 이 오래된 정수 성능 테스트는 지금 데스크탑 시장에서 오래 전에 폐기된 것입니다. 하지만 아키텍처가 동일한 ARM 아키텍처 코어를 테스트하는데는 의미가 있습니다.


ARM 싱글코어 DMIPS의 1MHz당 성능 비교
ARM11
ARM Cortex-A8
ARM Cortex-A9
퀄컴 Scorpion
퀄컴 Krait
DMIPS/MHz
1.25
2.0
2.5
2.1
3.3

 


 
Krait의 DMIPS/MHz 성능은 3.3으로, 동일 클럭의 Cortex A9보다 30% 빠릅니다. Krait이 발표됐을때 시장에 존재하는 A9 아키텍처의 CPU보다 20~25% 더 앞설 것으로 예상하고 있습니다. 퀄컴이 다양한 클럭으로 출시하기 때문에, 똑같은 A9라고 해도 성능이 30~50%가 차이나는건 그리 이상하지 않습니다. 현재 ARM은 Cortex-A15의 성능 데이터를 공식 발표하지 않았지만 업계에서는 3.5DMIPS/MHz 정도로 보고 있습니다.
 


 
 
새로운 VeNum 동영상 디코딩 유닛
 
ARM 아키텍처의 SoC에서 모든 NEON 명령어 셋트는 전용 유닛을 통해 처리됩니다. Krait도 예외는 아니며, 퀄컴은 이 NEON 전용 모듈을 NeMum이라고 부릅니다. 출력량은 스콜피온보다 5% 더 높으며 동시에 3개의 NEON 명령을 처리할 수 있습니다. 퀄컴 프로세서의 NEON 데이터 대역폭은 128비트로서 이것은 퀄컴 SoC 스마트 디바이스의 스트리밍 성능이 강력한 원인이기도 합니다.
 
 
캐시와 메모리 레벨 구조
 
퀄컴 Krait 코어는 3개 레벨의 캐시 구조를 사용하는데, 첫번째와 두번재 캐시는 각각의 코어가 독립되어 있고, 마지막 캐시는 모든 캐시가 공유합니다. 퀄컴은 각각의 캐시 레벨을  L0, L1, L2라 부르고 있습니다.
 
모든 Krait 코어는 8KB L0 캐시(4KB 명령어+4KB 데이터)를 가지고 있습니다. L0 캐시는 1 사이클에 직접 캐시에 액세스할 수 있으며, 퀄컴은 L0 캐시의 히트 레이트가 85%로, CPU가 L1 캐시를 자주 엑세스할 필요가 없다고 설명합니다. 퀄컴의 캐시 레벨 구조는 독자적인 설계로서, L0 캐시의 데이터는 L1에 복사본을 남겨두지 않습니다. 
 
모든 코어는 32KB L1 캐시(16KB 명령어+16KB 데이터)가 4웨이로 구성되어 있으며, 역시 1 사이클 안에 액세스가 가능합니다.
 
L2 캐시는 모든 코어가 공유하며, 듀얼코어 Krait의 L2 용량은 1MB로, 스콜피온의 512KB보다 늘어난 것입니다. 또한 쿼드코어 Krait의 용량은2 MB로 늘어나게 됩니다. Krait의 L2 캐시는 8웨이로 서로 연결되어 있습니다.
 

Krait의 캐시 구조
용량
아키텍처
클럭
L0
4KB+4KB
직접 연결
코어와 같음
L1
16KB+16KB
4웨이
코어와 같음
L2
1MB(듀얼코어)/
2MB(쿼드코어)
8웨이
최대 1.3GHz

 


 
L0과 L1 캐시 클럭은 코어와 같으며 전압도 같습니다. L2 캐시는 소비 전력 절감을 위해 독립된 설계 방식을 사용하여 다른 클럭으로 작동되는데, 작업량에 따라 클럭이 최대 1.3GHz까지 실시간으로 자동 조절됩니다.
 
메모리 컨트롤러의 경우, 이전 세대의 스콜피온에 내장한 듀얼코어 LPDDR2 메모리 컨트롤러는, 일반적인 상황에서 1개 채널만 사용합니다. 완전한 2개의 32비트 채널을 사용하려면 반드시 기판에 2개의 32비트 DRAM 패키징을 장착해야 합니다. 퀄컴은 싱글 채널 컨트롤러의 효율이 좋은 편이라서 여러 OEM 제조사에서도 싱글채널 메모리를 사용하고 있습니다.
 
Krait는 이 제한을 해결하였습니다. 현재 OEM에서는 간단하게 2개의 32비트 DRAM을 적층하여 1개의 패키징으로 만들어 2개의 32비트 메모리 컨트롤러를 사용하고 있습니다. 이로서 그 성능은 스콜피온보다 상당히 오를 것으로 보입니다.
 
 
제조 공정, 클럭, 소비 전력 조절
 
Krait는 세계 최초로 28나노 공정을 사용한 스마트폰/타블렛용 CPU입니다. 퀄컴은 현재 TSMC와 글로벌 파운드리를 제조 파트너로 삼았으며, TSMC가 Krait 칩을 만드는 곳이며 제조의 주력이기도 합니다. 퀄컴은 TSMC의 비 HKMG 공정이 위험 부담이 더 적을 것으로 판단하여 Krait는 우선 TSMC의 표준 28나노 LP 공정으로 제조됩니다. 퀄컴의 백서에서는 Krait 코어 MSM8960을 NVIDIA의 40나노 LPG 혼합 공정의 칼-엘 테그라 3와 비교하고 있습니다. 퀄컴은 제조 공정에 대해 40나노 G 실리콘은 오직 고클럭에서만 그 의미가 있으며, 다른 상황에서는 순수 LP 공정이 더 우수하다고 보고 있습니다.
 


 
스콜피온과 마찬가지로 Krait의 모든 코어는 독립된 클럭/전압 컨트롤 매커니즘을 가지고 있습니다. 퀄컴의 이런 설계는 다양한 상황에 맞춰 소비 전력을 적절하게 조절할 수 있다는 장점이 있습니다.
 
Krait 코어를 처음으로 사용한 퀄컴 SoC는 듀얼코어 1.5Ghz의 MSM8960입니다. 내년에 이 CPU는 제조 공정을 개선한 버전이 나올 것인데, 클럭은 1.7~2GHz까지 상승합니다. 퀄컴 Krait와 스코리온 코어의 전압은 1.05V로 동일하지만, Krait는 최고 1.7GHz까지 클럭을 높일 수 있는데 비해, 스콜피온은 1.55GHz까지만 가능합니다. 또한 특정 동일 작업을 실행했을때의 소비 전력도 Krait는 265mW, 스콜피온은 432mW입니다. 비록 풀로드에서 krait는 스콜피온보다 더 많은 전력을 소비할 수 있지만, 전체적으로 보면 Krait의 실행 효율이 높기 때문에 대기 상태로 들어가서 소비 전력을 더 빨리 낮출 수 있고, 전체적으로 보면 전원 관리 능력에서 이전 세대의 스콜피온보다 더 개선되었다고 할 수 있습니다. 이렇게 계산하면 스마트폰과 타블렛의 실제 배터리 사용 성능이 개선되지 않았다고 하더라도, 최악의 경우에는 스콜피온과 똑같은 수준의 전력을 소비하게 됩니다.
 
L0과 L1 캐시는 코어와 똑같은 클럭으로 작동하며 전압도 같습니다. L2의 절전 모드는 독립된 설계 방식을 사용하며 자신만의 클럭으로 작동하고 태스크에 따라 실시간 조정됩니다. 클럭 최대치는 1.3GHz 입니다.
 
메모리 컨트롤러 부분은 이전 세대인 스콜피온에서 듀얼채널 LPDDR2 메모리 컨트롤러를 내장했습니다. 하지만 일반적인 상황에서는 그 중 1개 채널만 사용합니다. 완전한 2개의 32비트 채널을 사용하려면 반드시 기판에 2개의 32비트 DRAM  패키징이 되어 있어야 합니다. 퀄컴의 싱글 채널 컨트롤러 효율은 괜찮은 편이라서 여러 OEM 제조사들이 나머지 1개 채널은 사용하지 않습니다.
 
Krait에서는 이 한계를 해결하였습니다. 현재 OEM 제조사들은 2개의 32비트 DRAM을 중첩하여 패키징함으로서 2개의 32비트 메모리 컨트롤러를 모두 사용할 수 있는데, 스콜피온보다 메모리 성능이 상당히 개선될 것으로 보입니다.
 
 
새로운 Adreno 225 GPU
 
퀄컴은 지금까지 SoC의 GPU에 대한 상세 정보를 발표하지 않았지만, MSM8960부터는 상황이 바뀌었습니다. SoC에서 사용하는 Adreno 225 GPU는 내년 krait 개선 버전에서 새로운 아키텍처인 Adreno 3xx가 나오기 전에 마지막으로 사용되는 구형 아키텍처 제품입니다.
 
 


 
ALU의 수는 Adreno 225가 Adreno 205의 2배 정도입니다. 모든 Adreno 2xx 시리즈 그래픽은 다이렉트 X 9.0 수준이며, Adreno 225와 다른 메인스트림 SoC의 그래픽 스펙 비교는 다음과 같습니다.
 

SoC 칩의 GPU 비교
Adreno 225
PowerVR SGX540
PowerVR SGX543
PowerVR SGX543MP2
Mali-400 MP4
GeForce ULP
GeForce++ (Kal-El)
SIMD 이름
-
USSE
USSE2
USSE2
Core
Core
Core
SIMD 대응 데이터 스트림의 양
8
4
4
8
4+1
8
12
각 SIMD의 MAD 수
4
2
4
4
4/2
1
?
총 MAD
32
8
16
32
18
8
?
연산 성능(GFLOPS)@200MHz
12.8
3.2
6.4
12.8
7.2
3.2
?
연산 성능(GFLOPS)@300MHz
19.2
4.8
9.6
19.2
10.8
4.8
?

 


위 표를 보면 Adreno 225의 이론적인 연산 성능은 애플 A5 SoC의 PowerVR SGX543MP2와 같은 수준임을 알 수 있습니다. 그 밖에 MSM8660의 266MHz Adreno 220과 비교하면 Adreno 225는 28나노 공정에 힘입어 클럭이 400MHz로 올랐습니다. 또한 퀄컴은 Adreno 225의 드라이버 층에 현저한 개선을 하였습니다. 이들 특성의 결합으로 Adreno 225는 Adreno 220보다 50% 빨라졌습니다.
 

 

 
퀄컴은 MSM8960이 GL벤치마크 2.x qHD (960x54) 해상도 테스트에서 아이패드 2의 애플 A5보다 높은 성능이 나온다고 주장하지만, 그 말이 맞는지는 실제 MSM8960을 장착한 디바이스가 나와야만 증명할 수 있을 것입니다. 아이패드 2와 하드웨어 성능을 견줄 수 있는 디바이스가 많아지는 것은 좋은 일이지요. 제조 공정의 개선으로 퀄컴 SoC 발열과 크기는 A5보다 많이 개선된 것은 사실입니다.
 
그 밖에, 현재 Adreno 225는 다이렉트 3D 피처 레벨 9.4까지만 지원합니다. 퀄컴은 정당한 시기에 다이렉트 X 11 (D3D11)을 지원하는 GPU를 발표할 것이라고 말한 적이 있습니다. 하지만 퀄컴이 말하는 이 '적당한 시기'가 언제인지는 아무도 모르지요.
 
 
 
MSM8960의 네트워크
 
지금까지 4G LTE 네트워크를 지원하는 모든 스마트폰은 2개의 베이스밴드를 필요로 합니다. 1개는 4G LTE와 연결하며, 다른 한쪽은 전통적인 2G/3G 연결입니다. 미국 최대 통신사인 버라이즌의 4G LTE 스마트폰의 경우 MSM8655 (내장 베이스밴드 칩과 음성 전송) 와 MDM9600 (CDMA 2000 1x EVDO와 LTE 베이스밴드)의 조합을 많이 사용하며, 이들 칩은 모두 45나노 공정입니다.
 


 

 
28나노 공정을 사용한 MSM8960은 세게의 거의 모든 SoC를 지원하며, 내장된 베이스밴드는 퀄컴의 2세대 (3GPP rel.9) LTE MODEM으로, MDM9x15와 거의 같습니다. 이것은 애플이 LTE 버전의 아이폰을 출시하지 않는 원인이기도 합니다. (퀄컴의 28나노 베이스밴드 칩을 기다리는 중). 아래는 스냅드래곤 S4 MSM8960이 지원하는 네트워크 모드입니다.
 
- FDD-LTE  (100Mbps 다운/50Mbps 업)
- TDD-LTE (68Mbps 다운/17Mbps 업)
- UMTS/HSPA+  (42Mbps 다운/11Mbps 업)
- CDMA2000 1x Advanced,EVDO Rev.B  (14.7Mbps 다운/5.4Mbps 업)
- TD-SCDMA (4.2Mbps 다운/2.2Mbps 업)
- GSM/GPRS/EDGE
 
그 밖에 MSM8960의 베이스밴드 부분은 퀄컴의 현존 LTE MODEM인 MDM9600과 비교하여 VoLTE를 완전 지원하며, LTE 네트워크를 통한 음성 전송이 가능합니다. 또한 802.11 b/g/n WiFi, 블루투스, GPS 기능 등도 새 SoC의 지원 범위에 속하는 수준입니다.
 
MSM8960의 모바일 플랫홈 테스트기를 사용하여 버라이즌 4G LTE 네트워크를 테스트한 결과, 유튜브 1080p 동영상을 재생하는데 아무런 문제가 없었습니다. 스피드테스트.넷의 실시간 속도 측정 결과 다운은 6Mbps, 업은 8Mbps가 나왔습니다.
 
 
결론
 
퀄컴의 MSM8960 샘플은 3~4개월 전에 나왔으니 2012년 상반기에 정식 발표될 것으로 예측됩니다. 종합적인 방면에서 여러가지로 테스트한 데이터를 보면 스냅드래곤 S4의 실력은 소비자들을 만족시키기에 충분할 것입니다. 성능은 대폭 향상되고 전원 관리는 개선되었으며 완전한 LTE 베이스밴드를 통합하였습니다.
 
다양한 신형 SoC가 나오면서 2012년의 스마트폰과 타블렛은 새로운 성능으로 발전하게 될 것입니다. 동시에 퀄컴 LTE 베이스밴드 칩의 개선은 더 많은 사람들에게 LTE 네트워크를 선택할 수 있게 해줄 것입니다.

반응형

댓글