본문 바로가기
IT/Hardware/CPU/MB

마침내 베일벗은 인텔 샌디브릿지(Sandy Bridge)

by 에비뉴엘 2010. 9. 16.
반응형




●Intel의 견실한 노선에 따른 Sandy Bridge 


 Intel 가, 마침내 차세대 CPU 아키텍쳐「Sandy Bridge(샌디브릿지)」에 대한 정보를 단번에 공개하기 시작했다. Sandy Bridge는, Intel가 내년(2011년)의 초부터 투입하는 차세대 CPU 아키텍쳐. 32nm프로세스로 제조되어 데스크탑으로부터 서버, 노트 PC까지 단번에 내년(2011년) 전반기에 투입된다.

 Sandy Bridge를 한마디로 나타내면, SIMD(Single Instruction, Multiple Data) 연산의 퍼포먼스를 배가시켜, GPU 코어와 CPU 코어를 원칩 넣어버린 x86계 CPU다.그러나,  CPU 코어의 싱글스레드의 정수 연산 퍼포먼스의 향상에도, 힘을 쓰고 있다. 게다가 GPU 코어에도, 범용 컴퓨팅적인 사용법을 하기 쉽게 하는 확장을 더하고 있다.

  즉, Sandy Bridge에서는, 싱글스레드 성능의 향상을 계속시키면서, 데이터 병렬이나 multi-thread 성능을 확장한다고 한다, 지금까지의 Intel의 사상을 견제하던 AMD「Bulldozer(bulldozer)」로 multi-thread를 보면 인텔의 방향을 알 수 있다.
 그러나, 그 한편, GPU 코어의 전략은 전환, GPU 코어 측에도 범용 컴퓨팅 처리를 분산한다고 할 방침으로 변한 것처럼 보인다. 이것은, 지금까지의, x86 명령 세트의 SIMD 확장으로 그래픽스까지 커버한다고 하는 Larrabee(라라비) 노선에서의 탈각이라고도 말할 수 있다.

 Intel 는, 이러한 Sandy Bridge의 개요를 미 샌프란시스코에서 개최하고 있는 기술 컨퍼런스「Intel Developer Forum(IDF) 2010」로 발표했다.IDF 첫날은, 오전중의 키노트 스피치로 Sandy Bridge의 데모를 공개.오후의 기술 세션에서는, 반나절에 걸쳐 아키텍쳐의 해설을 행했다.이번 IDF에서는, Sandy Bridge의 제품의 구체적인 이야기는 얇고, 특징과 아키텍쳐의 설명으로 시종 하고 있다.




●AVX와 GPU 코어 이외에도 아키텍쳐를 크게 확장 
 
Sandy Bridge 아키텍쳐의 기본은, 현행의 Nehalem(네할렘) 아키텍쳐와 같고, Core Microarchitecture(Core MA)로부터의 확장.

, P6(Pentium Pro/II/III)→Pentium M(Merom)→Core MA의 연장에 있는 마이크로 아키텍쳐다.
P6에서는 멀게 떨어졌다고는 해도, 파이프라인의 기본은, 지금도 P6을 기초로 하고있다.

  그러나, Sandy Bridge에서는, 종래 아키텍쳐로부터 크게 확장된 부분이 있다.눈에 띄는 것은 256-bit폭의 SIMD 명령 확장「AVX(Advanced Vector Extensions)」의 실장과 GPU 코어의 내장.눈에 띄지 않지만 중요한 것은, 내부 파이프라인의 개량에 의한 싱글스레드 퍼포먼스의 향상, GPU 코어의 재설계에의한 기능의 대폭적인 확장, 다양한 트리거로 주파수를 부스트 할 수 있는 터보 부스트의 확장, 그리고 코어와 각 블록간을 묶는 링버스의 채용이다.

  실제로는, Sandy Bridge의 진가를 알 수 있는 것은 후자의 부분에서, CPU 코어의 프론트엔드에서는 실행 트레이스를 베이스로 한 uOPs 캐쉬 등, 지극히 중요한 개량이 포함되어 있다.레지스타리네이밍에서는 물리 레지스터 파일에 맵 하는 방식에의 변경 등, AMD의 Bulldozer와 공통되는 부분도 있다.GPU 코어에 이르러서는, GPU 벤더가 갖추는 GPU 컴퓨팅 전용의 확장 기능을 갖추고, 완전히 별개라고 말해도 좋을 정도 확장되고 있다.

 Intel 는, IDF의 기조 강연에서는, 눈에 띄는 AVX와 내장 GPU 코어의 퍼포먼스의 소개에 포커스. 
그 후의 기술 세션에서는, 눈에 띄지 않지만 중요한 기능의 소개에 집중했다.키노트 스피치에서는, 알기 쉬운 부분만큼을 전면에 내세워, 기술 세션에서는, 이해하기 어렵지만 중요한 점을 낸다고 하는 전략이다.전반이 마케팅 메세지, 후반이 실질의 테크니컬 정보라고 하는 거주지 분리다.그 때문에, IDF의 어느 부분을 볼까에 의해서, Sandy Bridge의 인상은 크게 다르다.


●알기 쉬운 AVX로의 퍼포먼스 업 
 
Sandy Bridge로부터 실장되는 AVX는, 종래의 SSE에서는 128-bit폭(이었)였던 SIMD 연산을 256-bit에 확장한다.단정도 32-bit 부동 소수점 연산이라면 8-way를 병렬에 처리할 수 있다.SIMD 연산으로, 물리적인 연산 유닛의 연산폭이 2배가 되면, 병렬화할 수 있는 처리의 이론상의 퍼포먼스는 단번에 2배가 된다(그 밖에 보틀넥이 없으면)."Sandy Bridge의 퍼포먼스가 좋은"이라고 해지는 최대의 이유는 여기에 있다.

 IDF의 키노트 스피치에서도, 화상이나 동영상의 처리나 내츄럴 유저 인터페이스의 인식 처리로의 AVX에 의한 고속 처리가 소개되었다.

  무엇보다, 소개된 처리의 대부분은, 데이터 병렬화가 용이하고, AVX로 간단하게 적용할 수 있는 것(뿐)만.SIMD로의 병렬화가 용이한 처리라면, SIMD의 연산폭이 2배가 되면 피크 퍼포먼스가 2배가 되는 것은 당연한이야기다.사실은 AVX로 병렬화하기 어려운 처리가 많지만, 물론, 그러한 점에는 접할 수 없다.그렇다고는 해도, 화상이나 동영상과 같이, 부하가 무거운 처리로 퍼포먼스가 단번에 올라가기 위해, AVX의 효용은 크다.

  데이터 병렬로 고속화한다고 하는 점에서는, AVX는 GPU상에서의 범용 컴퓨팅과 경합 한다.Intel는, GPU라는 비교는 명확하게는 하지 않았지만, 메세지는 명확하다.CPU와 분리된 GPU에 처리를 분산하는 것보다도, AVX로 싱글 명령 스트림 중(안)에서 벡터 연산을 행하는 것이 프로그램 하기 쉽다는, Intel가 나타내 보이고 있는 포인트다.

 다만, Intel는 Sandy Bridge로 GPU 코어에도 범용성을 높이는 기능을 넣었다.그 때문에, AVX와 GPU 코어의 2개의 거주지 분리를 어떻게 판단해 가는지가 주목받는다.

  무엇보다, AVX에도 미묘한 점이 있다.벡터계의 약점인 컨트롤 플로우의 제어의 부분과 벡터장이다.AVX는 컨트롤 플로우의 제어가 SSE보다 큰폭으로 확장되고 있지만, 최근의 트랜드에서는 한 걸음 늦는다.최신의 GPU나 사라진 Larrabee가 갖추는「프레디케이션(Predication)」이라고 비교하면, AVX의 마스크 로드/스토어 기능에는 약한 부분이 있다.일반적으로 벡터 연산의 폭이 넓어지는 것에 따라, 반드시 같은 연산을 행하는 데이터세트를 가지런히 하는 것이 어려워진다.범용성을 펼치기 위해서는, 각 데이터 요소에 대해서의 분기를 제어할 필요가 나온다.거기에 따르고, 「SOA(structure of array)」형태의 데이터 배열의 처리를 용이하게 한다.AVX는, 이 부분은, 아직 확장의 여지가 있다.

  또, 최근의 데이터 병렬화의 물결의 트랜드는, 벡터의 제어의 단위인 논리 벡터장을 512-bit(단정도 16-way)로부터 1,024-bit(단정도 32-way)로 하는 것이지만, AVX는 256-bit(단정도 8-way)와 얌전하다.Intel는 이전부터 AVX의 512-bit 확장의 가능성을 시사하고 있지만, IDF의 첫날의 세션에서는, 구체적인 도로지도는 나타나지 않았다.



●퍼포먼스를 끌어올린 내장 그래픽스 



 Intel 는 2007년에, 32nm의 Sandy Bridge의 GPU 코어의 퍼포먼스가 2006년의 130nm판의 Intel 통합 GPU 코어의 10배의 퍼포먼스가 된다고 예언했다.이번 IDF에서는, 실제로는 25배의 퍼포먼스에 이르렀다고 발표되었다.

 GPU 의 경우, 무엇을 가지고 퍼포먼스라고 부를지가 어렵지만, 이 퍼포먼스 향상의 배경은 명료하다.1개는 프로세스 기술.원래 칩 세트는 프로세스 기술이 CPU보다 뒤지고 있던 것이, CPU에 GPU 코어를 구슬리는 것으로 프로세스 기술이 줄서, 그것이 GPU 코어의 성능 업의 큰 요인이 되고 있다.
무엇보다, 프로세스가 4세대(130 nm→90 nm→65 nm→45 nm→32nm)라면 트랜지스터의 집적도는 16배이므로, Intel의 선언 대로라면 무어의 법칙 이상의 퍼포먼스 향상을 완수한 것이 된다.

  이제(벌써) 1개의 요인은 GPU 코어의 동작 주파수.공식으로는 발표되어 있지 않지만 Sandy Bridge의 GPU 코어는 데스크탑으로 850~1,350 MHz(터보시), 노트 PC에서는 650~1,300 MHz(터보시)로 동작한다.Intel는, GPU 코어의 설계를 스탠다드 매크로로부터 커스텀 설계로 바꾼 가능성도 있다.NVIDIA는 G80 이후는, 프로세서 코어의 부분을 커스텀 설계로 해 고클락화하고 있다.

 Sandy Bridge의 GPU 코어는, 피크의 동작 주파수가 오른 것으로 퍼포먼스는 올랐을 것이다.이 외, CPU 코어와의 라스트 레벨 캐쉬(CPU측이 보면 L3) 공유화나, 실행 엔진 자체의 리아키테크트에서도 퍼포먼스는 현격히 향상했다고 한다.Sandy Bridge의 GPU 코어는, 단순한 성능보다, 재설계에 의한 기능의 강화가 눈부시다.

 Sandy Bridge GPU 코어의 최대의 의문은, 기능을 향상시켰음에도 관련되지 않고, 아직 DirectX 11(Direct3D 11) 대응이 아니고, 테셀레이터 등을 갖추지 않은점.GPU의 경우, 순퍼포먼스 이상으로 특별을 가지런히 하는 것이 필요하기 때문에, 2011년의 GPU 코어로 DirectX 11의 대응이 빠져 있는 것은, Sandy Bridge의 약점이다.



●침투가 급피치에 진행되는 Sandy Bridge 제품군 
 Intel 는, 비주얼계의 처리로의 Sandy Bridge의 이점을 겉(표)에 내고, 이 CPU를 맹렬하게 밀고있다. 알기 쉬운 부분에서의 성능 향상이 큰 Sandy Bridge는, 벤더에도 유저에게도 받아 수용할 수 있는 싸다.Intel도 그 점을 잘 이해하고 있어, 그 때문에(위해), 겉(표)의 메세지로는 기술적인 것은 말하지 않고, 오로지 비주얼적인 처리가 고속으로 되는 점만을 밝히고 있다.

  그럼, 실제로 Sandy Bridge는 어떻게 침투해 가는 것일까.Intel의 데스크탑 PC를 위한 CPU의 로드맵을 정리하면, 놀라울 정도 급격하게 Sandy Bridge의 라인 업이 퍼져 가는 것을 알 수 있다.제품 라인만으로 보면, 내년 후반까지는 대부분의 세그먼트(segment)가 Sandy Bridge에 발라 바뀌어 버린다. 이것은 노트북 PC를 위한 CPU에서도 같다.


 Nehalem (네할렘)는 최초로 하이엔드 데스크탑에 전개했지만, Sandy Bridge는 100 달러에서 200 달러대의 메인 스트림 PC로부터 침투한다.Nehalem는, 천천히 단계를 밟아 아래의 가격대에 전개했지만, Sandy Bridge는 단번에 하위의 밸류 CPU에도 전개한다.구체적으로는 내년봄에는 100 달러 이하의 Pentium 브랜드에, 가을까지는 로앤드의 Celeron에도 침투한다.

 Nehalem 아키텍쳐는, Pentium 브랜드의 하위 제품과 Celeron 브랜드까지는 전개하지 않았다.그 때문에, 그러한 제품은 Core Microarchitecture(Core MA)로부터 Sandy Bridge로 이행 한다.현재, Intel의 데스크탑 CPU로, 수량적으로 가장 많이 나와 있는 것은 Pentium 브랜드다.그 때문에, Pentium 브랜드의 전가격대에 Sandy Bridge가 제공되는 의미는 크다.

  이러한 Sandy Bridge의 급격한 전개는, Core Microarchitecture(Core MA)의 침투때와 패턴이 잘 비슷하다.물론, Sandy Bridge와 오버랩 하는 가격대의 Nehalem나 Core MA CPU가, 곧바로 생산을 종료해 옮겨지는 것은 아니다.꽤 장기에 걸치고, 같은 가격대로 Sandy Bridge와 그 이전의 아키텍쳐가 병존 한다.그러나, Sandy Bridge의 침투의 페이스가 급격하다 (일)것은 틀림없다.Intel의 이행 플랜에서는, 내년의 중반까지, 데스크탑으로의 Sandy Bridge의 비율을 30%에까지 끌어올리게 되어 있다고 한다.


반응형

댓글