본문 바로가기
Moblie/Etc

ARM Cortex-A7 아키텍쳐와 존재의 의미

by 에비뉴엘 2012. 7. 14.
반응형


● ARM에서 스마트폰의 새로운 CPU 코어가 등장
 
ARM이 새로운 CPU "Cortex-A7 (Kingfisher :  킹피셔)"의 개요를 미국 산타 클라라에서 개최된 ARM 기술 컨퍼런스 "ARM Techcon 2011"에서 발표했다. Cortex-A7은 ARMv7 명령어 세트의 CPU 패밀리 "Cortex-A"계열의 다섯 번째 CPU 코어이다. 28nm 프로세스의 첫 번째 구현 목표로하고 있으며 2013 년경에 시장에 등장할 전망이다.

 Cortex-A7의 특징은 괜찮은 성능을 극단적으로 작은 핵심 전력으로 실현할 수있다. 2 명령 디코드 & 이슈의 인 오더 파이프라인 최고 1.2GHz로 동작하고 멀티 코어도 지원한다. 명령어 세트 및 기능의 점에서, Cortex-A7은 ARM의 최신 코어 Cortex-A15와 동등하다.

 ARM은 Cortex-A7을 사용하여 100 달러 이하의 저가형 스마트폰 시장을 시작하는 것을 목표로하고있다. Cortex-A7 듀얼 코어로 현재 스마트폰과 동급의 성능을 100 달러 이하의 범위 원인 계획이다.

 또한, ARM은 Cortex-A7 코어를 고성능 Cortex-A15 코어와 함께 "헤테로지니어스 (Heterogeneous : 이종 혼합) 멀티 코어"의 구성도 제안하고있다. 이 구성에서는 고부하시에는 Cortex-A15, 낮은 부하시 Cortex-A7을 사용하여 하이엔드 스마트폰과 태블릿의 배터리 구동 시간을 늘리는 것이 가능하게된다.
"big.LITTLE Processing"라고 부르는이 개념에서 ARM OS가 완벽하게 코어 사이를 전환 가능한 시스템도 갖춘다.

 


● 2011 년 하이엔드 스마트폰의 성능을 2년 후 100 달러에


ARM Cortex-A 로드맵



 ARM의 CPU 제품군에서 스마트폰 등 비교적 고성능의 휴대 기기를 타겟팅하는 Cortex-A 제품군은
첫 번째 코어인 Cortex-A8,
고성능 & 멀티코어 Cortex-A9
저비용 & 초저전력 Cortex-A5의 3가지 계통이있다.

내년 2012년에는 하이엔드 Cortex-A15가 출시될 전망이다.

iPhone으로 설명하면, iPhone 3GS/4 가 Cortex-A8 싱글 코어
iPhone 4S가 Cortex-A9 듀얼코어이다.

그 전 iPhone은 ARM11 계열이었다.

다섯 번째 코어인 Cortex-A7의 컨셉은 Cortex-A8급 성능을 Cortex-A5 클래스의 전력과 비용으로한다. "오늘의 메인스트림 스마트폰에 사용되는 40nm의 Cortex-A8과 비교하면, 28nm의 Cortex-A7은 20% 성능이 높다. 많은 벤치 마크에서 Cortex-A8을 능가하는 결과가 나오고있다. 하지만 전력은 60 % 나 낮다 "고 ARM Techcon에서 Cortex-A7에 대한 설명을했다 Brian Jeff 씨 (Product Manager, ARM)는 말한다.

Cortex-A7의 효율성과 ARM 코어의 소비 전력 비교


 거칠게 말하면, iPhone 3GS / 4 수준의 성능을 저가형 휴대폰 CPU의 소비 전력과 비용으로 실현할 수있게된다. 또한, Cortex-A7의 비용이 매우 저렴하기 때문
100 달러 이하의 로우엔드 스마트폰에서도 듀얼코어화가 가능하다. 하이엔드 스마트폰에 필적하는 성능 범위를, 2013 년에는 100 달러로 낮출 수있게된다.

 Jeff 씨는 "Cortex-A7이 모든 기능을 가지면서 저렴한 스마트폰 시장을 개방 2015 년에는 3억 4,000 만대의 저렴한 스마트폰이 출시된다는 예측도있다"고 지적한다. 스마트폰이 연간 수억 대씩 나오고, 휴대전화를 모두 대체 시작 시대를위한 CPU가 Cortex-A7이라고하는 위치 설정이다.

 

저가 스마트폰에서 듀얼 코어를 실현 벤치 마크의 비교






● 불과 0.45 평방 mm의 CPU 코어 크기


Cortex-A7 다이사이즈

 Cortex-A7이 저가형이다 작은 다이사이즈 때문이다. Cortex-A7 단일 CPU 코어의 크기는 28nm에서 단 0.45 평방 mm. Cortex-A7이 얼마나 작은지 현재 다른 ​​모바일 CPU 코어와 비교하면 알 수있다. 아래 그림은 동일한 ARM의 Cortex-A9 코어, 그것 AMD의 Bobcat (밥캣) 코어, Intel의 Atom (Bonnell) 코어를 비교한 것이다.

ARM Cortex-A9/A7 / 인텔 아톰 / AMD 밥캣 사이즈비교

 Cortex-A9와 AMD Bobcat은 40nm 공정, Intel의 ATOM Bonnell는 45nm, 프로세스 또한, Cortex-A9 프로세서는 듀얼코어 구성으로, 다른 코어는 싱글이다.
AMD Bobcat과 INTEL Bonnell는 L2 캐시를 포함한다. 이것을 좀 더 알기 쉽게 한 것이 아래 그림이다.

CPU 코어만을 크기 비교


 동일한 프로세스 기술에 가지런히면 AMD Bobcat과 Cortex-A9 코어의 크기는 반으로 줄고 INTEL Bonnell 크기가 절반보다 더 작아진다. 그런데도 Cortex-A7의 크기는 한참 뒤떨어져 알 수있다. Cortex-A9을 28nm로 전환한다해도도 Cortex-A7보다 2.5 ~ 3배 크기가 될 것으로 추정된다. x86 계 CPU 코어는 현재 크기가 따라올 수가 없다.

 이것을 탑재 장치와 비교해보면 하단 INTEL Bonnell 지금까지 넷북, 위에서 두 번째 Cortex-A9 프로세서는 현재 하이엔드 스마트폰, Cortex-A7은 2013 년 로우 엔드 스마트폰된다. 현재 스마트폰 칩 성능을 높이기 위해 대형화하고 비용이 증가하는 경향에 있지만, Cortex-A7는 그것을 원래대로 가격이 내려간다.




● 효율을 추구하는 Cortex-A7의 파이프라인

 Cortex-A7이 작은 다이 비교적 높은 성능을 제공 이유를 ARM은 효율적인 마이크로 아키텍처를 개발한 것이라고하고있다.

 Cortex-A 제품군은 저가형 Cortex-A5 한 명령 디코딩 인 오더 실행 현재 미드 레인지 Cortex-A8은 2 명령어 디코딩 인 오더 실행 현재의 하이 엔드 Cortex-A9 프로세서는 2 명령어 디코딩 아웃 오브 오더 실행, 내년 (2012 년)의 하이 엔드 Cortex-A15은 3 명령 디코딩 아웃 오브 오더 실행되고있다. 인 오더 실행 더 아웃 오브 오더 실행 더 성능이 높아지지만 전력 효율은 떨어진다. 디코딩 명령 수가 많을수록 클럭 당 성능은 높아지지만, 역시 전력 효율은 떨어진다.

 Cortex-A7은 제한된 2 명령어 디코딩 인 오더 실행 파이프라인을 가지고 간다. 2 명령어 디코딩 인 오더는 점은 Cortex-A8과 같지만, Cortex-A7은 제한된 2 명령어 디코딩이다. 기본 아키텍처의 복잡으로 저가형 Cortex-A5보다 복잡하지만, Cortex-A8 더 간단 해지고있다.

Cortex-A15 Cortex-A7 제품군 아키텍처

 그러나 내부 파이프라인을 보면 실제로는 Cortex-A7과 Cortex-A8는 크게 다르다는 것을 알 수있다. 아래가 Cortex-A7 파이프라인의 슬라이드와 거기에서 그림 낸 것이다. 정수 연산의 스테이지 수는 8 스테이지. 실행 유닛은 정수 ALU와 곱셈 유닛 부동 소수점 (FP) / NEON SIMD (Single Instruction, Multiple Data) 연산 유닛로드 / 스토어 유닛, 듀얼 이슈 (2 명령 발행)시 실행 유닛이되고있다. "듀얼 이슈 파이프라인은 일반 단순 명령 밖에 실행할 수 없다. 실제로는 듀얼 이슈 때만 사용되는단위가 아닌 일반 파이프 라인에서 사용하는 기능도 포함된다"고 Peter Greenhalgh 씨 (Cortex-A7 & big. LITTLE Technical Lead, ARM)는 설명한다.


 

Cortex-A7 블록 다이어그램 

Cortex-A7 시리즈의 파이프라인
 


ARM은 Cortex-A7 듀얼 이슈의 사상에 대해 다음과 같이 설명한다.

 "Cortex-A5에서 크게 향상된 점은 듀얼 이슈이다. Cortex-A7 듀얼 이슈는 복잡한 패널티 검사기구를 가지지 않도록 설계했다. 듀얼 이슈가 전력 소비를 늘려 버리는 것은 검사 계획을 위해 때문이다. 따라서 Cortex-A7 듀얼 이슈는 Cortex-A8과 같은 완전한 이중 이슈가 아니다. 제한된 것으로되어있다 "(Jeff 씨)"모두 듀얼 이슈 할 수있는 것은 없다. 두 번째 디코더는 데이터 프로세싱 분기 등 밖에 디코딩할 수 없다 "(Greenhalgh 씨)

 듀얼 이슈를 제한함으로써, 명령 유닛 방향을 간소화하고 전력 효율성을 올리고 있다고한다. 하지만, Cortex-A8과 비교하면 크게 확장되고있는 부분도있다. 아래는 Cortex-A8의 파이프라인이다.

Cortex-A8 블록 다이어그램

 Cortex-A7을 Cortex-A8과 비교하면 먼저 눈에 띄는 것은 SIMD 연산 NEON 파이프라인이 옵션 취급이 아닌 파이프라인에 완전히 가져온 것이다. 그러나 NEON 장치는 64-bit SIMD로, 명령 세트의 SIMD 폭의 절반으로 억제된 상태이다. 이것은 실장 면적의 트레이드 오프이다.

 분기 예측도 상대적으로 강화되고있다. 분기 예측을 강화하여 예측 오류가 줄어들기 때문에 결과적으로 전력 절감에 도움이 ARM의 설명이다. 또한, 명령 디코더와 명령 이슈의 사이에 명령 대기열이 설치되어 디코딩까지 프런트 엔드 파이프라인이 실행 파이프라인과 분리되어있다.

 로드 / 스토어 데이터 경로는 64-bit에서 NEON 장치와 맞는 너비로 확장되고있다. 또한 L1 데이터 캐시는 x86 CPU에서 볼 수있는 프리 디코더가 추가되었다. 한편, L2 캐시 컨트롤러를 간소화하는 등 다이를 작게 유지하기 위해 궁리도 더해지고있다. 메모리 주위에서는 물리 메모리 주소를 캐시하는 "Translation Lookaside Buffer (TLB) '가 강화되었다. TLB는 상위 있어야 Cortex-A9가 128 항목인데, Cortex-A7은 256 항목 배증되고있다. "TLB 강화는 Web 브라우징과 같은 실제 워크로드의 성능을 올린다. 드라이 스톤 등 벤치 마크에서이 차이는 나오지 않지만, 실제 응용 프로그램에서는 효과를 발휘한다"고 Jeff 씨는 설명한다.

 

내장 L2 캐시와 TLB 강화 등

 L1 데이터 캐시의 개선



● 하이엔드스마트폰의 배터리 구동 시간을 연장시킨다

 Cortex-A7은 명령어 세트에서는 최상위의 Cortex-A15와 호환이다. 가상화 지원 및 40-bit 메모리 어드레싱 같은 저가형 필요가없는 기능도 구현되어있다. 또한, 시스템 버스는 최근 "AMBA4"에 대응하고, 일관성 유지를위한 스눕 제어 장치도 갖추고있다. 이러한 기능은 Cortex-A15와 Cortex-A7 결합 big.LITTLE 처리를위한 것이다.

 big.LITTLE에 대해서는 재차보고하지만, 고성능이기 때문에 전력 효율이 떨어진다 Cortex-A15을 보완하기위한 장치이다. 스마트폰의 가동 시간의 대부분을 차지하는 낮은 부하시 실행되는 CPU 코어 Cortex-A15에서 Cortex-A7로 전환하여 배터리 수명을 연장하는 것을 목표로한다.

 기본 컨셉은 아래 슬라이드와 같이 심플하다. 부하가 높은 작업은 Cortex-A15 코어를 사용하여 부하 감소에 따라 전압과 클럭을감소 간다. 그리고 일정 수준까지 성능을 떨어뜨리면, 그 단계에서보다 전력이 적은 Cortex-A7로 전환합니다.

 


big.LITTLE 구조


Cortex-A7 A15 성능/소비 전력 비교
 

현재 고성능 스마트폰의 가장 큰 고민은 배터리 구동 시간이다. 진화 때마다, 배터리 구동 시간이 짧아지는 경향이있다. Cortex-A7은이 문제에 해결책을 제시 할 수있는 것처럼 ARM은 설명한다. 스마트폰 SoC는 Cortex-A15 외에도 Cortex-A7도 올릴 필요가 있지만, Cortex-A7 코어 크기가 매우 작기 때문에 현실적인 아이디어가된다.

반응형

댓글