아이비브릿지의 개발핵심은 GPU 아키텍처의 개혁

● CPU보다 GPU의 확장에 다이사이즈를 할애한 인텔의 CPU 전략

　Intel의 "아이비 브릿지"에는 두 가지 중요한 점이있다. 하나는 물론 최초의 3D트랜지스터이다 점, 다른 하나는 GPU 코어를 대폭 강화했다는 점이다. 3D 트랜지스터의 중요성이 훨씬 높지만, Intel의 CPU 전략에 GPU 코어 향상도 놓칠 수 없는 포인트다. Ivy Bridge의 다이를 Sandy Bridge의 그것과 비교하면, GPU 코어의 대형화는 분명하다.

Ivy Bridge의 GPU 코어에 대해서는, 별로 화제가 되지 않지만, 코어의 설계는 Sandy Bridge 세대부터 꽤 확장되고 있다.단순하게 DirectX 11에 대응했다고 할 뿐만 아니라, GPU 코어를 확장할 수 있도록 재설계되었다. 그 목표는, 최종적으로 AMD의 APU(Accelerated Processing Unit)에 GPU 코어의 퍼포먼스로 따라잡는 것에 있다고 보여진다.

　Ivy Bridge에서는 GPU 코어는 최대 16개의 EU(Execution Unit)로, 각 EU가 단정도 부동 소수점 연산 유닛을 4개 갖추므로, 합계로 64개의 연산 유닛을 갖추고 있다.덧붙여서, Ivy Bridge의 GPU 코어에는 EU가 6개의 GT1와 EU가 16개의 GT2의 2 종류의 코어가 있다. 그리고, 현재의 계획에서는, 내년의 Haswell(하즈웰)의 세대로, 최대 40개의 EU, 즉, 160개의 부동 소수점 연산 유닛을 갖추게 된다.

　그런데도, 연산 유닛의 개수에서는, AMD의 A시리즈 APU(Llano:라노)의 320스트림프로세서유닛과 비교하면 50%에 지나지 않는다. Llano의 GPU 코어 「SUMO」는, 아래의 그림과 같은 구성이 되어 있다.

　그래도 연산 유닛의 개수는 AMD의 A 시리즈 APU (Llano : 라노) 320 연산 유닛과 비교하면 절반의 50 %에 불과하다. Llano의 GPU 코어 "SUMO"아래의 그림과 같은 구성으로되어있다.

아이비 브릿지와 라노의 비교　

차이가 크기 때문에, Intel은 GPU 코어를, AMD보다 높은 클럭으로 동작시켰다하더라도 연산 성능을 미치지 않을 것이다. 게다가, AMD는 다음 APU "Trinity"에서 성능을 더욱 높인다. 그러나, Sandy Bridge에서는 48 연산 유닛 (12EU)이기 때문에, 연산 자원 수는 3.3 배 증가, AMD와의 차이를 단번에 포장된다. 지금까지 레이스에 안 것이 겨우 두 회사의 레이스 시작한다. 따라서 확장 설계, Ivy Bridge에서 실현되고있다.

　Intel은 향후 성능 향상은 CPU 코어 부분보다 오히려 GPU 코어 부분에 손볼려고 하고있다. 다이의 빈 영역은 CPU 코어를 늘리는 것이 아니라, GPU 코어를 크게하여 사용 방향에있다. 현재 GPU 프로그래머는 게임과 일반 모두에서 Intel 아키텍처를별로 중시하지 않지만, Intel의 전략이 명확하기 위하여, 앞으로는 Intel 아키텍처도 시야에 넣을 필요가 나오는 것이다.

● Ivy Bridge 작은 CPU 코어와 큰 GPU 코어의 조합

　Ivy Bridge의 GPU 코어는 다이 레이아웃을 봐도 Sandy Bridge는 상당히 다르다. 32nm 공정의 Sandy Bridge에서 22nm 프로세스의 Ivy Bridge로 마이 그레이션, CPU 코어와 LL 캐시 SRAM 셀 크기가 작아졌다. 그러나, GPU 코어는 첫머리에서 말한 것처럼 부풀어있다. Intel의 의도는 명백하고, 프로세스의 미세화에 의한 트랜지스터의 증가의 장점은 CPU보다 GPU에 배분하고있다.

　GPU 코어 프로세서 부분이다 EU는 Sandy Bridge의 GT2 구성이 12 개, Ivy Bridge의 GT2 구성 16. 프로세스 미세화 있음에도 불구하고, Ivy Bridge의 EU의 제 영역은 그다지 작아지고 있지 않다. GPU 코어 프로세서 부분도 기능이 강화되어 부풀어있는 것을 알 수있다.

　구체적으로 Ivy Bridge는 GPU의 무엇이 향상된 것인가. 아래는 Ivy Bridge의 GT2 구성 GPU 코어의 다이어그램 그림이다. Intel이 자세한 다이어그램을 공식적으로 공개하고 있지 않기 때문에 추측이 들어있다. Ivy Bridge와 Sandy Bridge의 GPU 코어 구조의 차이는 한마디로 표현하면 스케일라비티다. Ivy Bridge의 핵심은 Sandy Bridge의 구성을 크게 확장 가능한 구조로되어있다. 또 다른 특징은,보다 개선된 메모리 계층, GPU 코어 내부의 메모리 계층 구조가 정리되고있다.

아이비브릿지의 그래픽 코어

　Intel의 GPU 코어는 크게 고정기능 유닛과 제어장치로 구성된 파이프라인 부분 (그림에서 상단의 Fixed-Function Units)와 연산 프로세서 코어와 texture 유닛 부분 (그림의 중앙 부분 ) 그리고 픽셀 백 엔드와 L3 캐시, 래스터 라이저와 같은 공유 장치 그룹으로 구성되어있다.

　고정 기능 파이프라인 부분에있는 쉐이더는 실제로 연산을 행하는 장치가 아니라 연산을 행하는 EU 어레이에 스레드 디스패치 제어를 행한다. 각 EU에 스레드 디스 패 처에서 명령이 실행된다. EU는 4 유닛을 "Row"에 정리하고, L1 명령 캐시를 공유한다. 각 EU는 4-way 연산 유닛이므로 각 Row 16 개의 연산 유닛을 갖추고있다.

　그러나 Row는 AMD의 이전 아키텍처의 SIMD와는 달리, Row의 각 EU는 같은 명령을 실행할 필요가 없다. 별도의 명령을 실행할 수있게되어 있다고한다. Row 하나의 벡터를 처리하는 것이 아니라, EU가 별도의 벡터를 처리한다. 입도가 작은 것이 Intel 아키텍처의 특징이다. 또한 논리 벡터 길이도 가변으로 다양한 길이와 구성을 취할 수있다. 이것은 논리 벡터 길이를 32에 고정하는 NVIDIA 및 64에 고정하는 AMD와 크게 다른 점이다. Ivy Bridge 설명은 벡터 장은 SIMD8하면 SIMD16, SIMD32으로되어있다. 32 SIMD 레인의 경우 EU는 8 사이클 (명령 종류에 따라 다를 수있다)에 걸쳐 수행하는 셈이다.

　텍스처 유닛은 2 개의 Row에 대해 1 유닛이 배치되어있다. 미디어 샘플러와있는 것은, 미디어 프로세싱을위한 데이터 처리 고정 기능 유닛이다. Intel은 쉐이더 코어의 프로그래밍 가능한 미디어 프로세싱 열심히이기 때문에 전용 유닛을 갖추고있다. 미디어 프로세싱은 미디어 파이프라인의 "Video Front-End (VFE)"단위로 제어된다.

●샌디브릿지와는 다른 아이비브릿지의 GPU 코어

　
Ivy Bridge에 들어있는 Intel 그래픽 코어의 기본형은 여러 세대 전부터 계승되어오고 있지만, 점점 진화 해오고있다. 크게 도약한 것은 Sandy Bridge 이었지만, Ivy Bridge은 Sandy Bridge가 발전하고있다.

　아래는 1 세대 이전 Sandy Bridge 추측 다이어그램이다. Sandy Bridge 세대는 DirectX 11을 지원하지 않기 때문에, 테셀레이션 스테이지가 3D 고정 기능 파이프 부분에 없다. 또한 텍스처 필터링 유닛도 전체로 1 유닛을 공유하고있다.

　Sandy Bridge는 EU는 하나의 Row 3 유닛 구성으로되어있다. GPU 아키텍처에 익숙한, 4의 배수가 아닌 유닛수는 기이하게 느껴진다. 그래픽은 4의 배수 단위로 4 개 또는 16 개 (혹은 8 개)의 픽셀을 동시에 처리하는 것이 효율적이기 때문이다. 그러나, Intel 아키텍처의 경우 개별 EU가 개별 벡터를 처리하기 위해 Row 중 EU의 수를 4의 배수로 유지할 필요는 없다.

　각 EU는 다중 쓰레드, Ivy Bridge의 경우는 각 EU 당 최대 8 스레드까지 인 항공편 시작할 수있다. GT2의 경우 총 128 스레드를 시작할 수있다. Sandy Bridge의 GT2는 각 EU에 대해서 5 스레드에서 총 60 스레드이기 때문에, thread 수가 2 배 이상이된다. 덧붙여서, NVIDIA 아키텍처는 벡터의 각 레인을 스레드와 계산하기, Intel의 스레드는 NVIDIA의 경우 인 항공편 Warp 수와 AMD의 Wavefront 숫자와 비교해야한다.

Sandy Bridge와 Ivy Bridge의 차이는, GPU 코어의 메모리 계층에도 보인다.Sandy Bridge에서는, 「URB(Unified Return Buffer)」가 쉐이더코어로부터의 출력을, 디스팻쳐와 3D파이프라인에 되돌리기 위해서 설치되어 있었다.Ivy Bridge에서는, URB가 범용의 L3캐쉬로 교체되었다.L2명령 캐쉬나, 그림중에는 없지만 정수의 버퍼등이 모두 L3캐쉬로 흡수되었다.

　이 L3는 EU 측에서 읽기 & 쓰기로 볼 수있어 범용 컴퓨팅 프로그램은 스레드 간의 메모리 공유에 사용할 수있는 것으로 보인다. Sandy Bridge 아키텍처는 범용 캐시는 CPU 코어와 공유 LL 캐시의 공간이되고 있었지만, Ivy Bridge는 GPU 코어에 L3 기능이 더 핵심에 가깝고, 전력 효율적인 캐시가 했다. 또한 메모리 계층도 더 깔끔한, 트렌디의 GPU 다운 아키텍처로 진화했다.

　또한, Sandy Bridge는 1 개의 텍스쳐 유닛을 공유하고 있었지만, Ivy Bridge에서는 texture 유닛이 2 개다 "Half Slice"라고 Intel이 부르는 프로세서 번들에 배치되게되었다. 단순 계산에서는, 텍스처의 최대 처리량이 2 배가된다. Ivy Bridge 그림과 비교하면이 부분의 차이 알 수있다.

　또한 발송도 바뀌었다. Sandy Bridge에서 배차 부분의 구성 정보를 알고 있지 않지만, 아마 1 단 배차되어있는 것으로 보인다. 대해 Ivy Bridge는 2 단 구성이 각 EU에 대한 명령 발행은 로컬 Dispatcher가 담당하게 된 것으로 보인다. 래스터 라이저는 2 개의 Half Slice 공유되고 있지만, 하위 Dispatcher에 연결하는 구성으로 바뀐 것으로 보인다. 그러나 디스 패 처는 현재로서는 아직 잘 알지 못하고, 하위 배차 픽셀 셰이더 전용 가능성도있다.

●하즈웰의 GPU 코어는 아이비브릿지의 아키텍쳐가 베이스

　Ivy Bridge와 Sandy Bridge 그림만을 보면, Ivy Bridge의 아키텍처 변경의 의도가 별로 보이지 않는다. 그러나 아래 Haswell의 GPU 코어 추측 그림을 보면, Ivy Bridge의 GPU 코어 아키텍처의 의미를 잘 알 수있다. Haswell의 핵심은 아직 모르는 부분도 많지만 정보를 기반으로 Ivy Bridge 구성을 확장하면 아래 그림과 같이된다. 대략적으로 말하면, Ivy Bridge의 GPU 코어이다 Slice 두 묶은 구성이다.

하즈웰이 추측과 같은 구성을 가지고있다면, Ivy Bridge의 확장 부분이 살아 온다. 먼저 래스터 라이저가 분산 병렬 처리되는 것으로 래스터 병목 현상이 될 가능성이 낮아진다. 이 경우 화면을 지역으로 구분하여 2 개의 조각으로 할당 보인다. 따라서 렌더 백 엔드까지 개별적으로 나뉘어있어도 문제는 없다.

　Ivy Bridge의 스레드 디스패처 구성도 그림의 구성은 살아 온다. Ivy Bridge Dispatcher가 2 단 구성으로 실제 명령 스케줄링은 하위 Dispatcher를 행하는 구성이되어있다면, Haswell에서 EU가 급증하는 경우도 지원이 쉽기 때문이다. AMD도 명령 디스패처를 중앙 통제에서 분산했지만, Intel도 비슷한 일을하려고하고있는지도 모른다.

　Intel은 이렇게 Ivy Bridge에서보다 확장성이 뛰어난 GPU 아키텍처로 전환하면 다음 Haswell는 GPU 코어를 단번에 대형화하는 것으로 보인다. 아래는 Intel의 각 세대의 GPU 아키텍처의 구성이다. 저가형은 6EU 구성 바뀌지 않지만, 하이엔드는 점점 강화되고있는 것을 알 수있다.

아이비브릿지 GT2 : 16EU/ 64 ALU

하즈웰 GT1 : 6EU/ 24 ALU

하즈웰 GT2 : 20EU/ 80 ALU

하즈웰 GT3 : 40EU/ 160 ALU

　현재는 AMD가 CPU 코어의 크기가 훨씬 작기 때문에 AMD가 APU 더 강력한 GPU 코어를 올릴 수있다. 그러나 Intel은 프로세스 기술의 이점이 있고, 그것은 앞으로도 계속한다. 따라서 점차적으로 Intel의 GPU 코어의 성능 범위도 AMD에 다가간다고 볼 수있다. 명료한 것은, GPU 코어의 급속한 발전 전략은 Intel의 GPU 코어가 더 중요한 플랫폼으로 시작하는 것이다. 그것은 Sandy Bridge에서 시작, Ivy Bridge로 가속되고있다.

저작자표시 비영리 변경금지 (새창열림)

'IT/Hardware > CPU/MB' 카테고리의 다른 글

[ADFS 12] ARM과 PowerVR를 참여시킨 HSA 구상 (0)	2012.06.29
[ADFS 12] 2012년 로드맵을 갱신한 AMD (1)	2012.06.29
[ADFS 12] 인텔 울트라북에 대항하는 AMD의 전략 (0)	2012.06.29
[ADFS 12] AMD, 타회사의 IP를 APU에 도입하는 로드맵 공개 (0)	2012.06.29
[ADFS 12] 헤테로지니어스컴퓨팅을 위해 HSA재단 설립 (0)	2012.06.29
HP 일체형 워크스테이션 Z1 프리뷰 (1)	2012.04.21
인텔 로드맵에서 DDR4 메모리가 빠진 이유 (1)	2012.04.20
HD4000으로 내장그래픽을 강화한 인텔 아이비브릿지 (0)	2012.04.20
스마트폰CPU 전쟁에 아톰을 올인한 인텔의 전략 (0)	2012.04.20
인텔 아이비브릿지 메인보드 Z77 Z75 H77 Q77 Q75 B75 차이점 (1)	2012.04.17

소소한 일상의 공간 v2.0

아이비브릿지의 개발핵심은 GPU 아키텍처의 개혁

'IT/Hardware > CPU/MB' 카테고리의 다른 글

댓글

티스토리툴바

아이비브릿지의 개발핵심은 GPU 아키텍처의 개혁

'IT/Hardware > CPU/MB' 카테고리의 다른 글

관련글

댓글

티스토리툴바