본문 바로가기
IT/Hardware/CPU/MB

[IDF 2012] 인텔 하즈웰 아키텍쳐를 확실하게 공개

by 에비뉴엘 2012. 9. 12.
반응형




●인텔의 강력한 새로운 마이크로 아키텍쳐 



 Intel은 차세대의 CPU 마이크로 아키텍쳐 「Haswell(하즈웰)」의 개요를, 마침내 분명히 했다.현재, 샌프란시스코에서 개최되고 있는 동사의 기술 컨퍼런스 「Intel Developer Forum(IDF)」로, 「4th Generation Intel Core Processor」라고 이름이 붙여진 해즈웰에 대한 설명 세션이 행해지고 있다.


 Haswell은 22nm프로세스로 제조되는 CPU다. 32nm의 샌디브릿지를 22nm에 이식한수준밖에 안된 아이비브릿지와 달리, 새로운 마이크로 아키텍쳐가 되고 있다.

칩 전체로의 확장점은 마이크로 아키텍쳐를 포함해 매우 많아서, 지금까지의 Intel의 PC용 CPU로부터 큰 변화가 적용되고 있다. (콘로이후 엄청난 변화가 예상)



<인텔의 틱톡전략 하즈웰은 톡, 

동일한 22nm 공정이지만 아키텍쳐가 바뀌는 새로운 설계가 적용되어있다>



하즈웰은, Intel 독자적인 개발 모델인 「틱 톡(Tick Tock)」모델의 Tock에 해당하는 프로세서다.틱 톡은, 2년쯤에 반도체 프로세스 기술을 혁신(Tick), 그 중간의 2년 두어에 CPU 마이크로 아키텍쳐를 쇄신(Tock) 하는 개발 전략이다. 22nm프로세스를 시작하는 Tick이 Ivy Bridge(아이비 브릿지)로, 22nm상에서의 신마이크로 아키텍쳐가 하즈웰이다.


 Haswell의 최대의 포인트는, 대폭적인 퍼포먼스 업과 소비전력억제 두 마리 토끼를 다 잡은 전략이다. 퍼포먼스와 전력은 모순되는 것 같지만, Intel은 다양한 트릭을 사용하고, 상반되는 요소를 양립시키고 있다. 또, 전력을 내리는 것은, 코어수가 많은 서버와 모바일의 양쪽 모두로 유리하다고 되기 위해, 서버로부터 타블렛까지 폭넓은 라인 업을 커버할 수 있다.


 퍼포먼스에서는, 새로운 명령어를 확장하여 「AVX2(Advanced Vector Extensions)」로, 주산 명령 FMA를 서포트해 부동 소수점 연산 퍼포먼스를 2배로 했다.또, 명령 발행을 확장하고, 최대 8 내부 명령(uOPs)을 동시 발행, 4정수 연산을 병렬 실행할 수 있도록 했다(현재는 6 uOPs/3정수 연산).게다가 연산 성능이 오른 프로세서 코어에, 데이터를 피드 하는 메모리 계층을 큰폭으로 강화했다. 더하고, 메모리병목을 자동적으로 해결할 수 있는 Transactional Memory를 하드웨어로 실장했다.


 전력으로는, Haswell은 복귀 지연시간이 짧은 시스템아이들스테이트 「SOix」모드를 마련하는 것으로 아이돌시의 전력을 종래 샌디브릿지대비 20분의 1로 억제했다.CPU내의 각 유닛의 전압 제어를 분리하고, 작은 입도로 전압과 주파수를 제어할 수 있도록 했다.또, 플랫폼 레벨로의 끼어들어 제어로, 아이돌 상태에 들어가는 시간을 큰폭으로 늘리는 것을 가능하게 했다.


 게다가 Haswell은, TDP(Thermal Design Power:열설계 소비 전력) 를 제품범위를 넓혀 10W이하의 제품군까지 커버한다. 이러한 발상은 AMD와 닮아있지만, 크게 다른 것은 「우리는, 새로운 세대마다 반드시 코어당의 퍼포먼스를 늘리지 않으면 안 된다고 생각하고 있다」(Haswell의 아키텍트인 Ronak Singhal씨, Sr. Principal Engineer, Intel) 말이다.




인텔 하즈웰 포트폴리오



● 듀얼코어와 쿼드코어로 구성되고  3가지의 GPU코어와 패키지 옵션이 제공된다.

 

 하즈웰은 4코어 또는 2코어 2가지, GPU 코어프로세서 수가 다른 3가지 버전이있다. 즉 CPU 코어는 듀얼코어이거나 쿼드코어이고, 그리고 GPU 코어는 GT1/GT2/GT3 3가지버전이 함께 제공된다. 




또한, 쿼드코어와 GT3 조합의 하이엔드 버전은 메모리 대역폭이 부족하므로 온 패키지에서 DRAM 칩을 올린 버전도 투입되는 것으로 알려져있다.


그러나 이번 IDF에서는 전혀 그러한 버전에 대해서는 언급하지 않아 확실하진 않다. 또한 Haswell CPU에 PCH (Platform Controller Hub) 칩 Lynx Point를 Multi-Chip Package (MCP)에서 원 패키지화 한 제품도 울트라 모바일 전용으로 제공된다. Intel은이 버전을 SoC (System on a Chip) 버전으로 부르고있다.




하즈웰 구조도


 Haswell의 전체 구조는 Sandy Bridge 계와 비슷하다. 링 버스가 CPU 코어, LLC (라스트 레벨 캐시) 쌍으로배치, GPU 코어, 시스템 로직을 연결하고있다. Intel이 구조를 채용하는 것은 모듈화 된 장치를 노드의 증감이 쉬운 링 버스로 연결하는 것으로, 파생칩을 다수 낳을 수 있기 때문이다. 링은 유니다이 렉셔널 (1 방향)에서 각 코어마다 상행과 하행 두 스톱이있다.


●프론트엔드의 확장은 제한적으로...



하즈웰 데모시연 



 Haswell은, 전체의 유닛의 접속의 위상기하학이 Sandy Bridge계인 채로, 각 코어의 파이프라인도 전단만 보면, 큰 변화로 보이지 않는다.왜냐하면, 프론트엔드의 명령어 인출/디코드 스테이지군에 대해서는, 종래의 Sandy Bridge/Ivy Bridge와 잘 비슷하기 때문이다.그러나, 명령 발행으로부터 아래의 연구 최종 단계와 캐쉬 주위는, 크게 다르다.이 부분은 공격적으로 확장되었다.


 Haswell 코어는, 한마디로 말하면, 연구 최종 단계에 포커스 한 개량을 더한 마이크로 아키텍쳐로, 명령 발행/실행 파이프라인을 보는 한은, 과거수세대(Nehalem-Sandy Bridge)보다 훨씬 큰 점프가 되고 있다.구체적으로는, Merom(멜론)로부터 Ivy Bridge까지는, 6 명령 발행을 계승하고 있었지만, 이번이 첫 확장으로 8 내부 명령(uOPs) 발행 4정수 연산이 된다.


 아키텍트의 Ronak Singhal씨(Sr. Principal Engineer, Intel)은 다음과 같이 말한다.「프론트엔드는 다소의 확장은 있지만, 거의 종래 아키텍쳐를 답습하고 있다.명령 대역 등은 이전인 채.현재, 그 쪽에는 큰 병목현상이 없었기 때문이다.물론, Haswell으로 분기 예측을 일신 해, 캐쉬실패시의 지연시간도 큰폭으로 줄여, 그것은 퍼포먼스에 크게 기여하고 있다.그러나, 프론트엔드는 그 이상은 아니다.Haswell의 포커스는 연구 최종 단계에 있다」.


 프론트엔드도, 연구 최종 단계와 비교하면 소소하지만, 그런데도 몇개인가, 공격적인 확장이 더해지고 있다.Singhal씨가 언급한 캐쉬 미스에 대해서는, 투기적으로 캐쉬 미스 핸들을 행해, 미스시의 지연시간을 줄여간다.분기 예측에 대해서는, 이번도 자세한 것은 명확함 않지만 고쳐다고 한다.uOPs 캐쉬도 퍼포먼스에 기여하고 있다.덧붙여서, uOPs 캐쉬는 Pentium 4의 트레이스 캐쉬와는 달라, uOPs 캐슈의 태그가, L1명령 캐쉬의 태그와 끈 붙여 되고 있다.



하즈웰 프론트엔드의 분기 예측의 개선



●명령 발행포트는 메롬/콘로 아키텍쳐이후 큰 확장이다.

 

 Intel의 현재의 아키텍쳐의 명령 발행 포토는, 약간 변칙적이고, 정수 연산과 부동 소수점/SIMD 연산이 같은 명령 발행 포토에 할당할 수 있고 있다. 정수 연산 ALU는 합계로 3유닛으로, 로드/스토어 파이프는 2였다.그러나, Haswell에서는 명령 발행 포토는 2포트 증가해 8이 되어, 정수 연산 유닛과 스토어 파이프가 1개씩 증가했다.그 때문에, Haswell에서는, 4정수 연산의 병렬 실행과 2 로드와 1 스토어의 동시 실행이 가능해지고 있다.정수 연산 유닛의 포토에는, “2번째의”분기 유닛도 배치되어 있다.




강화된 하즈웰 아키텍쳐




하즈웰의 실행 유닛


 또, 포토 0으로 포토 1에 각각 접속되고 있는 AVX(Advanced Vector Extensions)의 256-bit폭SIMD 연산 유닛도 확장되었다.종래는 포토 0이 AVX의 256-bit SIMD 곱셈(MUL)으로, 포토 1이 AVX의 가산(ADD)이었다.그러나, Haswell에서는 포토 0이 256-bit SIMD의 주산(FMA)과 곱셈, 포토 1이 256-bit SIMD의 주산(FMA)과 곱셈 또는 가산이 되고 있다.


 이것으로, 벡터 유닛으로의 피크 연산 성능은, 종래의 2배로 올랐다.또, 곱셈 중심의 경우도 2 유닛으로 병렬할 수 있다.즉, CPU 코어수가 같아도, FMA 명령을 사용하는 경우는, Haswell은 Sandy Bridge에 대해서, CPU 코어측의 부동 소수점 연산 SIMD 연산 성능은 2배가 된다.AMD의 불도저 아키텍쳐에 대해서도 2배다.또, AVX2 명령에서는, 정수의 256-bit폭명령도 더해져, 이 2 포토와 포토 5로 실행된다.






재미있는 것은, AMD는 어느 쪽 일까하고 말하면, 부동 소수점 연산이 헤비 워크로드는 GPU 코어 측에 흔들려하고 있지만, Intel은 CPU 코어 측의 부동 소수점 SIMD 성능도 급격히 늘리고있는 점이다. CPU와 GPU의 균형, CPU 측에 흔들고있는 것이 Intel, GPU 측에 흔들고있는 것이 AMD이다. 또한 256-bit 폭의 SIMD 주산 유닛을 2 개 갖추고 있기 때문에 Haswell 이후 아키텍처는 Larrabee / Knights 계의 512-bit 폭의 SIMD 명령을 물리적으로 지원이 용이 해졌다. Ronak Singhal 씨는 "그것은 장기적인 비전이다"라고하지만, Intel이 그러한 가능성을 버리지 않는 것이 보인다.


 포트 6 정수 장치. Intel은 Merom 이후 최대 4 명령 디코드의 프런트 엔드를 통해왔다. 그러나, 실행 파이프 라인은 최대 3 정수 연산이었다. 이번 Haswell에서 명령 디코드 및 실행 파이프 정수 연산의 피크 대역폭이 일치했다. 또한 정수 연산 유닛은 포트 0과 포트 1에 벡터 명령이 발행 된 때 정수 연산을 실행할 수있다. 명령이 혼재하는 경우, 정수 측의 지연을 막을 수있다. 포트 7 상점 주소 생성 전용 포트에서 포트 2와 포트 3을로드 주소 생성에 사용할 수있게된다.


 Haswell은 다양한 버퍼와 항목의 크기도 확장되었다. 아웃 오브 오더 윈도우는 Sandy Bridge의 168에서 192로 증가했다. 로드 및 저장소 인 비행 제어 수도 증가 스케줄러 항목 수가 늘었다. AVX의 SIMD 물리 레지스터는 144에서 168으로 확장되어 정수 레지스터도 160에서 168로 약간 증가했다. 또한 할당 큐는 지금까지 스레드에 분리되어 있던 것이 통합되었다.



버퍼사이즈가 모두 증가했다.


●내부 메모리 대역을 큰폭으로 확장 

 Haswell으로 눈에 띄지 않으면서 중요한 확장은, 메모리 계층의 액세스의 대폭적인 확장이다. 실행 코어의 퍼포먼스를 큰폭으로 늘렸기 때문에, 거기에 데이터를 피드 하는 메모리 계층 패스가 강화되었다.우선, L1로부터의 로드는, 매사이클에 32-byte(256-bit) 로드가 2에, 32-byte(256-bit) 스토어가 1으로 큰폭으로 강화되었다.L2로부터 L1에의 대역도, 종래의 32-byte(256-bit)로부터 64-byte(512-bit)로 확장되었다.게다가 L2 Translation Lookaside Buffer (TLB)도, 큰폭으로 확장된, 대규모 작업의 부담량의 퍼포먼스가 오른다.





캐시성능이 강화되었다.


  Transactional Memory 도 Haswell의 핵심중의 하나다.이것은, 소프트웨어 개발자에게 있어서, multi-thread 어플리케이션을 쓰기 쉽게 하는 키 테크놀러지다.Intel의 실장은, 모두를 Transactional Memory로 하는 것이 아니라, 명령으로 명시한 코드 부분 등에 한정하는 방식이 되고 있다.또, Haswell에서는, 소프트웨어 측에서의 요구가 강했던 버추얼 머신의 변환의 고속화등도 행했다고 한다.









●하즈웰의 또다른 강력한특징 전력소비 절약 기능 


 Haswell는 절전 기능이 대폭 강화됐다. 먼저 S0 액티브 모드시의 전력과 S3 / 4 절전 전류 모두 낮춘. 또한, 절전에 가까울수록 전력 소모가 적은데, 복귀 지연 시간은 S0 수준으로 빠른 새로운 시스템 스테이트 "SOix"이 설치되었다. 이것은 Intel의 모바일 SoC (System on a Chip)의 "Medfield (메드필드)"와 비슷하다.


 Medfield의 ​​"S0i"수준의 스테이트는 CPU 코어 C6과 전체 오프 다른 기능 단위의 대부분은 전력 커팅 된 상태로되어 있었다. 그러나 Haswell의 경우, CPU 코어와 GPU 코어가 대부분을 차지하기 때문에 Medfield는 접근이 크게 다르다. Haswell의 경우, 칩 전체의 전압과 전력 제어를 기존보다 섬세한 단위로 분리하여 그들을 빠르게 전환하여 절전 상태를 늘린다. 그리고, CPU 코어 이외의 부분을 파워 게이트함으로써 유휴 전력을 감소시키고있다. 또한 거기에 맞추어, CPU의 절전 스테이트도 C6 (파워 게이트)보다 더 아래 스테이트 "C7/C8/C9/C10"이 설치되었다. 예를 들어, C7은 CPU 코어가 꺼져 있고 디스플레이가 켜진 모드로되어있다.







하즈웰 전력 관리의 혁신



Haswell의 절전 방법에는 몇 가지 열쇠가있다. 하나는 PC가 절전 할 수없는 원흉의 하나의 인터럽트 제어, Haswell는 "Power Optimizer"또는 "CPPM"라는 플랫폼 전력 관리 프레임 워크가 도입된다. 이것은 Haswell가 전원 상태에있을 때, 가능한 오랫동안 절전 모드 상태에 둘 수 있도록하는 기술이다. 주변 장치와 소프트웨어 인터럽트와 DMA 액세스를 정리하고 동기화 할보다 긴 유휴 기간을 만들어 낸다.




SOix 스테이트



또 다른 열쇠는 전압 레귤레이터의 통합이다. 전압을 세밀하게 지역에서 신속하게 전환 할, Haswell 절전의 열쇠라면, CPU에 매우 가까운 곳에 고효율 전압 조정기가 구비되어 있다고 생각하는 것이 자연 스럽다. 문제는 이것이 온다이 (On-Die) 인지.. 온 패키지인지..... 이 부분은 이번 기술 세션도 애매하게되어 명료은되지 않았다. Intel은 "현재는 다이 안에 세밀한 컨트롤이 행해지고있다"라고 밖에 말할 수 없다고하고있다.


 전압조정기가 Haswell에서 통합하면, 이것은 매우 큰 변화 다. 어쩌면, Intel이 Haswell은 다이 사진을 공개하고 싶어하지 않는 것과 관련 있는지도 모른다. 대개의 경우 이런 발표회에선 신제품CPU의 다이사진을 밝혔지만, 하즈웰은 공식적으로 밝히진 않았다.


 이 밖에 하즈웰에서는 안습인 인텔 내장그래픽 코어갯수도 크게 확장되었다. 


하즈웰은 2013년 2분기에 공식 출시됩니다.


반응형

댓글