본문 바로가기
IT/Hardware/Graphics

AMD Radeon HD6870 아키텍쳐의 비밀 1부

by 에비뉴엘 2010. 10. 22.
반응형


●Northern Islands패밀리의 가성비짱인 6800시리즈 


 AMD는, 차세대 GPU 패밀리「Northern Islands(노던아일랜드)」의 제1단으로서 미드레인지의 퍼포먼스 GPU「Radeon HD 6800」(코드네임 Barts:바트) 발표했다. Northern Islands는, 신구가 다른 마이크로 아키텍쳐의 GPU군으로 구성되는 패밀리다. Barts는, 전세대의 Evergreen(에버그린) 아키텍쳐를 확장한 GPU가 되고 있다.하이엔드를 위한 GPU에는, 신아키텍쳐의「Cayman(케이만)」(11월 3주 출시)와 Cayman을 듀얼 다이 구성으로 한「Antilles(안틸레스)」가 있다. 코드네임은 모두 카리브해의 북쪽의 섬 이름이 되고 있다.

 Barts 의 제품으로서는, 1120개의 프로세서가 900MHz 동작, 2TFLOPS의「Radeon HD 6870」, 유닛을 일부 무효로 해 960개 프로세서로 775MHz 동작, 1.5 TFLOPS로 한「Radeon HD 6850」이 구성된다. GPU에서는, 제품 비율 향상 때문에, 결함 블록을 무효로 한 하위 제품을 만들 필요가 있어, 반드시 같은다이로, 유닛수가 다른 복수 계층의 제품 구성이 된다.가격 범위는 150~250 달러의, 퍼포먼스 GPU 클래스의 제품이다. 이른바 , 게이머들이 주로 찾는 범위대이다.




 Barts 의 주요 장점은 5개.

(1) 다이를 소형화해 경제성과 전력효율을 한층 더 높인점 
(2) DirectX 11의 최대의 기능인 테셀레이션의 성능을 늘린점 
(3) 비디오 가속화의 UVD(Universal Video Decoder)를 강화한 UVD3로 업그레이드 한점 
(4) 3D입체영상의 전송을 규격화한 HDMI 1.4a와 DisplayPort 1.2를 갖춘점 
(5) 이등방성(Anisotropic) 필터링을 강화해 3D품질을 향상시킨점

  또, 제품 구성상의 출력 포트로서는, DVI 포트를 2개(Dual-Link DVI와 Single-Link DVI), HDMI 1.4a포트를 1개, mini DisplayPort를 2개 갖추어 전세대로부터 도입된 6화면까지의 멀티 디스플레이 테크놀러지「Eyefinity」을 계승하고 있다.


갑싼 HD5800시리즈의 재탄생이 바로 Barts



●전세대의 하이엔드GPU의 3/4 사이즈와 성능 

 다이사이즈의 차이는 명료하다. Evergreen의「Radeon HD 5870」(Cypress)이 334평방 mm의 사이즈었는데, Barts는 255평방 mm로 약 76%에 축소하고 있다.
동시에, 프로세서(부동 소수점(FP) 적화연산 유닛) 수는, Cypress의 1600개부터 줄어든,70%의 1120개.
동작 주파수는 약간 향상해, 900MHz이므로, 피크의 연산 퍼포먼스는 2016 GFLOPS가 된다. Cypress의 피크 성능은 2.72 TFLOPS이므로 약74%의 성능이 된다.

  즉, 전세대의 하이엔드 GPU의 4분의 3의 연산 퍼포먼스를, 4분의 3의 die size로 실현된 것이 Barts다.트랜지스터 카운트에서는, Cypress 다이가 21.5억으로, Barts 다이가 17억으로 약79%. 가격 라인은 Cypress로부터 크게 내리기 위해, 퍼포먼스/가격 커브는 크게 향상한다. 즉, 성능에 대해서의 이득의 정도가 높은 GPU가 되고 있다. 카드 전력은 151W이므로, 전력 효율의 면에서도 뛰어난 제품이다.


1 달러당의 성능의 변천



●작은기능확장으로 큰 퍼포먼스를 발휘하다. 

 AMD 의 Matt Skynner씨(Vice President and General Manager of GPU Division, AMD)에 의하면, Northern Islands 시리즈는 원도와 32nm프로세스판으로서 계획되었다고 한다. 그러나, TSMC가 하프 노드 프로세스인 32nm를, GPU 전용의로드맵에서 백지화시켜 버렸기 때문에, TSMC로 GPU를 제조하는 AMD는, Northern Islands를 현행의 40nm프로세스인 채 설계해야 하게 되었다.

 Radeon HD 4000(RV700) 계의 세대로는, AMD는 55nm로 제품을 투입, 그 후, 플래그쉽인 Radeon HD 4800(RV770)의 기능을 거의 그대로 40nm에 축소한 Radeon HD 4770(RV740)을 투입했다.이 때는, 미세화에 의해서 퍼포먼스/다이가 크게 향상했다.이번은 그것을 할 수 없기 때문에, 별도인 어프로치를 취하지 않으면 안 되었다.

  그 때문에, AMD는 설계상의 연구를 거듭하고 있다.하나는, 프로세서수를 깎으면서 퍼포먼스를 유지하기 위한 동작 주파수의 향상. 작은변화지만, AMD는 Barts의 설계 단계에서 단점을 고침으로써, 동작 주파수의 향상을 달성하고 있다. 또, 새로운 어플리로의 퍼포먼스의 영향이 큰 테셀레이션 등, 핀 포인트로의 기능 강화를 행했다. 예를 들면, 테셀레이션의 강화는, 하드웨아테셀레이터에 부속되는 아웃풋 버퍼의 양을 늘린다고 하는 마이너 확장만으로, 성능을 효율적으로 올리고 있다.

  이 외 , 벌써 접한 것처럼, HDMI 1.4a에의 대응 등, 새로운 트랜드에의 대응에 의해서 제품으로서의 매력의 향상도 도모했다. 또, 하드웨어 기능은 아니지만, DirectCompute에 의한 포스트프로세싱인「Morphological Anti-Aliasing」에도 대응했다.

 전체로 보면, 마이너 변경의 축적에 의해서, 단순한 다이축소 이상의 매력을 더한 것이 Barts다.


크게 향상된 이등방성필터링 3D품질


●듀얼코어 구조를 유지한 Barts 아키텍쳐 
  
아래는 Barts의 블록 다이어그램 추정이다.Barts는, Cypress와 기본 아키텍쳐는 같다. 
그러나, 그림 자체는, 새롭게 판명된 사실을 더해 수정하고 있어, Cypress의 기사로 게재한 그림보다 상세하게 되어 있다.



 AMD GPU에서는, 프로세서는 SIMD(Single Instruction, Multiple Data) 실행하는 단위인「SIMD 코어(SIMD 엔진이라고도 부른다)」로서 정리하고 있다.
Cypress와 Barts의 큰 차이는, Barts에서는 내장하는 SIMD 코어의 수가 20개에서 14개로 감소한 것.SIMD 코어의 내부의 구조나, SIMD 코어 이외의 부분은 거의 변함없지만, SIMD 코어만이 70%로 삭감되고 있다.

AMD GPU 프로세서수비교



 AMD 는 Cypress로, 2개의 GPU 코어로 분할하는, 듀얼 코어를 닮은 설계를 선택했다. Cypress에는, SIMD 코어를 정리한「SIMD 어레이」이 2개 있다.이 구성은 Barts에도 인계되고 있다.이것은 중요한 포인트로, 그 때문에 Barts에서는 상대적으로, 연산 퍼포먼스가 대한, 테셀레이션이나 픽셀 아웃의 성능이 높아지고 있다.프로세서수를 줄인 Barts로 싱글 코어에 되돌리지 않았던 것은, 듀얼 코어의 퍼포먼스상의 이점을 유지하기 위해서라고 볼 수 있다.

  원래, AMD가 GPU를 듀얼 코어화한 이유는 2개.
하나는, DirectX 11시대에 증가하는 프로세싱 퍼포먼스에 대해서, 고정 기능의 래스터라이저등의 퍼포먼스의 밸런스를 취하기 위해.
두번째는, 크로스바 스윗치를 간략화하기 위해서다. NVIDIA도 같은 방식을 취하고고 있는데 GeForce GTX 480(GF100)은 쿼드코어와 같은 구조가 되고 있다.
GPU의 멀티 코어화는, 지금의 기술 트랜드다.


DirectX 11세대 GPU의"멀티 코어"화


  멀티 코어화에 의해서, AMD는 1GPU에 래스터라이저가 2개, NVIDIA는 4개의 구성이 되었다. 정점으로부터 픽셀로 변환하는 래스터라이저는, 시리얼인 처리 밖에 할 수 없기 때문에, 정점 데이터가 증가하는 것에 따라 보틀넥이 된다.GPU의 멀티 코어화는, 그 보틀넥을 경감할 수 있다. 이것은, 테셀레이타의 강화와 연동하고 있다.

  버스 구조에서는, AMD는 하행 방향의 크로스바 스윗치를 2분할했다. Cypress 발표시에 AMD로 버스의 설계를 담당하는 Fritz Kruger씨(Architect, AMD)는「(GPU의 내부 버스의) 크로스바 스윗치는 별로 스케일 올라갈 수 없다.그러니까, CPU가 코어를 2개로 나누는 것과 같은 이유로, 우리도 코어를 2개로 나누고, 버스 구조를 간단하게 하고 있다」라고 설명했다.Kruger씨는 그림의 중앙의 texture 버스를 다니며 2개의 코어로 나누어져 2개의 코어에서는 그림의 양측을 다니며 메모리로 돌아온다고 하는 패스를 지시했다.


●버스와 메모리 계층은 이전세대와 같다.

  좀 더 자세하게 보면, 메모리콘트롤러로부터 프로세서에의 오름의 패스는, L2캐쉬를 경유해 오름의 크로스바로 2개의 코어의 SIMD 코어군에게 접속되고 있다.이 패스는, 기본은 올라 한방향으로, texture 캐쉬도 리드온리-의 버퍼가 되고 있다.실제로는, 평행해 바 정점캐쉬도 존재하고 있어, 이쪽도 리드온리-의 한방향이 되고 있다.

 texture 의 패스는 올라 한방향이지만, SIMD 코어와의 사이에는 쌍방향의 버스가, 크로스바와 결합하든가, 혹은 병렬에 설치되고 있다.그것은, 이 쪽편의 패스에, SIMD간에 데이터를 공유하기 위한 메모리「글로벌 데이터 쉐어(Global Data Share)」이 접속되고 있기 (위해)때문이다.글로벌 데이터 쉐어는, SIMD 프로세서측으로부터, 리드와 라이트 양쪽 모두가 가능한 스크래치 패드 메모리이며, 쌍방향 패스를 필요로 한다.Barts의 메모리 계층과 패스는, 개념적으로는 아래의 그림과 같이 되어 있다고 추정된다.



Barts의 메모리 계층 구조


  각각의 SIMD에서는, 아웃풋의 쉐이더엑스포트크로스바가 나와 있다.쉐이더엑스포트크로스바는 기능 블록이 아니고, 데이터 패스에 붙여진 단순한 명칭이다.Eric Demers씨(GPG Chief Technology Officer, AMD)는, 다음과 같이 설명한다.

  「SIMD 코어는, 각각 독립한 쉐이더엑스포트를 갖추고 있다.그리고 각 SIMD 어레이마다, 16 픽셀 데이터/사이클의 출력을 할 수 있다.그것이, 우리의 아키텍쳐가 32개의 ROP(Rendering Output Pipeline)를 필요로 하는 이유다.2개의 분리된 어레이가, 각각 16 픽셀씩 출력하기 위해(때문에), 2배(의 픽셀 출력)가 된다.그러니까 16의 2배의 32개의 ROP가 필요하다.실제로는, (쉐이더엑스포트는) 크로스바 스윗치가 되고 있다.어느 픽셀이 어느 ROP에 갈까는 고정되어 있지 않기 때문이다」.

 2 개의 SIMD 어레이는, 각각 크로스바를 갖추고 있어 SIMD 어레이에 포함되는 SIMD 코어와 ROP 유닛을 묶고 있다.내부 버스의 구조는 다음의 그림과 같이 되어 있다고 추측된다.AMD 아키텍쳐는, NVIDIA 아키텍쳐보다 프로세서수가 많기 때문에, 출력 데이터량도 많아, 데이타 버스폭이 넓다고 볼 수 있다.그 때문에, 크로스바의 복잡도의 문제는 절실하다.GPU 설계상의 최대의 곤란은, AMD와 NVIDIA의 어느쪽이나 배선의 복잡함에 있다.


Barts의 내부 연결구성


  덧붙여서, 2개의 SIMD 어레이는, 화면을 나누어 렌더링 한다.이 어프로치는 NVIDIA도 마찬가지다.다만, NVIDIA 아키텍쳐에서는, 분할된 화면 리젼에 대해서의 지오메트리로부터 픽셀까지 모든 처리를, 분할된 GPU 코어 중(안)에서 행한다.그에 대하고, AMD 아키텍쳐에서는, 지오메트리 처리와 픽셀 처리동안에서, 2개의 어레이의 사이에서의 로드 밸런스가 가능하다고 Kruger씨는 설명하고 있다.

  이렇게 해 보면, Barts는 버스와 메모리 계층의 아키텍쳐에 대해서는, 전세대를 답습하고 있는 것을 알수있다.이것은, DirectX 11세대에 버스와 메모리 계층을 크게 바꾼 NVIDIA와 크게 어프로치가 다르다. 2부에서는 HD6970(Cayman) 아키텍쳐의 예상과 함께, Barts의 강화 포인트를 한층 더 알아보자.




 
반응형

댓글