본문 바로가기
IT/Hardware/Graphics

ATI의 성공적인 전략 Radeon HD4770

by 에비뉴엘 2009. 5. 3.
반응형




12년전의 슈퍼컴퓨터의 성능이 저가형VGA로 나오다. 

 TFLOPS 가까운 성능이 100 달러 조금. AMD는, 지금까지 퍼포먼스 GPU($150 ~ $200 대)의 것이던 TFLOPS 성능을,
메인스트림 GPU로 가져왔다. 이것이, AMD의 新GPU ATI Radeon HD 4770(RV740)의 의미다.

  100 달러대의 VGA제품에, 10년전의 슈퍼컴퓨터의 성능을 가진게 된다. 아래의 슈퍼컴퓨터의 역사에도 있듯이,
TFLOPS는'97년의 ASCI Red(9,298개의 Pentium Pro의 초병렬 머신)에 의해서 달성되었다. ASCI Red의 스펙으로부터 역산하면, Pentium Pro(200 MHz) 약 7,000개 분의 연산 능력(67% Efficiency)이, 100 달러의 ATI HD4770의 성능인것이다. 

 AMD 는 ATI Technologies와의 합병 이래, 舊ATI의 GPU 전략을 수정해 왔다. 중요포인트는, 볼륨존에서 이길 수 있는 제품 라인 업을 구성하는 것. 그 첫 결과가, 메인스트림용의, 1 TFLOPS 가까운 성능을 발휘하는 ATI Radeon HD 4770이다.

  열쇠는 die size에 있다. ATI Radeon HD 4770은, 개발된지 얼마안된 TSMC 40nm프로세스를 사용하는 것으로, die size를 136mm에까지 줄였다. 140평방 mm전후는, 전통적으로 100 달러 전후의 메인스트림 전용의 제품을 실현할 수 있는 die size다. die size는, 상위의 ATI Radeon HD 4800(RV770) 계의 260mm대의 반 정도다. ATI가 싼 값에 메인스트림 제품에 RV740를 가지고 올 수 있던 것은, 다이를 축소하고 단가를 최소화 했기때문이다. 

  또, AMD는 DirectX11을 지원하는 차세대 GPU 아키텍쳐(R800)에 대해서는, 다음의 4분기에 어떤 설명을 행할 것을 밝혔다. AMD는, 2세대 전부터 싱글 다이의 GPU의 die size를 200mm대로 줄이고자하는 전략을 취하고 있다. 새로운 40nm프로세스로의 200mm 대의 die size는, AMD GPU 라인 업으로 공석이 되고 있다. 그 때문에, 최초의 DirectX 11 대응 GPU는 거기에는 만이라고 볼 수 있다.

  그 경우, RV800계 싱글 칩 탑재의 트랜지스터 카운트는 15억개를 가볍게 넘을 것으로 예상된다. AMD가 현재의 GPU 마이크로 아키텍쳐인채로, 고연산 효율을 유지한다면, R800계의 부동소수점 연산 퍼포먼스는 R700 세대부터 배로 증가할 것이다. 계산상에서는, 1칩당  2 TFLOPS의 범위에 들어갈 것으로 예상된다.

  그러나, R800 세대의 성능이 R700 세대부터 증가한다면, AMD GPU는 큰 난관에 직면할 것이다. 과거 4~5년, GPU의 최대의 적은 소비전력이었다. 그러나, 다음의 페이즈에서는, 이제 메모리 대역폭이  보다 큰 문제가 될 것이다.
GPU도 CPU 같이,  아니 그 이상으로  메모리 대역폭에 의한 성능향상이 발목잡힌 꼴이 된다. 




뛰어난 면적당의 연산 성능

  다이 면적 당 최고의 부동 소수점 연산 퍼포먼스. 이것이 RV740의 최대의 특징이다. 평방 136mm의 다이로, 현재의 제품 배치에서는 960 GFLOPS를 달성한다. 면적 당의 퍼포먼스는 7.03 GFLOPS/평방 mm와 전체의 GPU중에서 최고를 자랑한다. 풀 프로그래머블 디바이스로서 전에 없던 연산 밀도다.


  이 스펙은 무엇을 의미하는 것인가? 우선, die size는 제조단가에 크게 영향을 주기 위해, RV740는 잠재적으로 지극히 높은 제조단가  퍼포먼스를 실현할 수 있을 가능성을 가진다. 이것은, NVIDIA로의 경쟁상에서는 큰 의미를 가진다. 메인스트림으로부터 아래의 저가전쟁에서 우위에 올라서기 때문이다. 게다가 新프로세스에의 제일 먼저 도착을, 또다시 잡은 것으로, 신프로세스에의 대응으로 AMD가 우위에 서있는 것이보다 명확하게 되었다. 다만, 신프로세스에는 제품 비율 문제가 관련되기 위해, 좋은 요소 뿐만이 아니다.

 RV740는, 지금까지의 싱글다이의 R700 세대부터, 내부의 마이크로 아키텍쳐 자체의 큰 확장은 없다. 면적 당 연산밀도를 높일 수 있던 것은, 제조 기술의 미세화에 의한 것이다.

 AMD의 R700 세대의 GPU는, 지금까지 55nm프로세스를 사용해 왔지만, RV740에서는 40nm프로세스로 미세화했다. 55 nm가 65 nm프로세스를 축소한 하프노드 세대인 것과 같이, 40nm는 45nm로부터의 하프노드 세대다.
AMD는 45nm를 건너뛰고 55nm에서 40nm로 이행 한다. NVIDIA도 당분간 전부터 40nm의 설계를 행해왔지만, AMD가 제품출시로 선수를 쳤다.

  이론적으로는, 40nm프로세스에서는 같은 트랜지스터 카운트의 칩을, 55nm프로세스 세대의 반 정도 die size로 만들 수 있다. 무엇보다, 인터페이스 회전 등, 축소가 어려운 부분이 있기 위해, 반에 축소할 수 없는 경우가 대부분이다.

 AMD의 R700 세대의 최초의 GPU인 Radeon HD 4800은 9억 5,600만 트랜지스터로 평방 260mm의 die size였다. 
이번 RV740는 8억 2,600만 트랜지스터로 평방136mm 이며. 트랜지스터 카운트는 86%로 감소하고, die size는 거의52% 수준으로 감소했다. 

 RV770 와 RV740의 설계상의 큰 차이는, 우선, 메모리인터페이스폭이 256-bit로부터 128-bit로 반감된 것. 다음에,
연산 유닛수가 800유닛에서 640유닛으로 줄여진 것. 그 이외의 부분은, 보통 메모리인터페이스폭에 따라 줄여지는 ROP 수도 줄여지지 않았다. 간단하게 말하면, 플래그쉽인 RV770계의 80%의 기능을 유지한 채로 칩을 반 정도 축소한 것이 RV740다.

 
NVIDIA GPU와 비교하면 3배의 다이면적당 성능 효율


 RV740 의 연산/면적 밀도가 7.03 GFLOPS/평방 mm와 높은 것은, TFLOPS 클래스의 연산 성능을, 40 nm프로세스로 1/2의 die size에 내장 때문이다. 이것을 다른 GPU와 비교하면, RV740의 효율성을 잘 알수있다.

  예를 들면, 55nm의 Radeon HD 4870은 4.62 GFLOPS/평방 mm와 40 nm RV740의 65% 정도의 면적 당의 성능이었다. RV740가 50%도 효율이 좋게 된다. 고속화한 Radeon HD 4890에서는 5 GFLOPS/평방 mm이상이 되지만, 여전히 RV740가 압도적으로 효율이 높다.

  다이가 상대적으로 큰 NVIDIA의 GPU와 비교하면, 한층 더 차이는 커진다. NVIDIA 최초의 TFLOPS 클래스 GPU(PC 전용은 1 TFLOPS 이하로 TESLA판이 1 TFLOPS 이상이였던 65nm의 GeForce GTX 280(GT200 또는 G200)이 1.62 GFLOPS/평방 mm. 현재의 GeForce GTX 285로 2.26 GFLOPS/평방 mm. 즉, 면적 당의 생 연산 성능이라면, RV740는 NVIDIA에 3배 가까운 차이를 내고 있다. 다이 효율에서는, RV740이 NVIDIA를 압도적인 이긴다는 것이다. 

  다만 주의가 필요한 것은, 이 스펙은 어디까지나 이론상 피크성능의 비교에 지나지 않고, 아키텍쳐의 차이에 의한 실효성능의 차이를 나타내지는 않은 것이다. 예를 들면, ATI 아키텍쳐에서는 내부 코어가 VLIW 명령을 채용하고 있기 때문에, 드라이버내의 컴파일러가 명령을 풀로 병렬에 늘어놓아 바꾸지 않는 한 피크 성능을 낼 수 없다. 그래픽스 처리라면, 빈번히 등장하는 3(xyz)~4(RGBA) 데이터 요소에 대한 연산을 병렬화하는 것으로, 성능을 내기 쉽다. 그러나, 어플리케이션에 따라서는 향하지 않는 경우가 있다.

 그에 대한 NVIDIA 아키텍쳐에서는, 명령 레벨의 병렬화는 일절 행하지 않는다. 모두 스칼라 처리를 행한다. 그 때문에, 메모리스로틀 등이 생기지 않는 이상 일정한 연산 성능을 유지할 수 있다.

 NVIDIA GPU의 die size가 큰 한 요인은, 범용 컴퓨팅으로의 성능을 올리기 위해 아키텍쳐상의 다이를 할애하고 있기 때문에도 있다. 예를 들면, NVIDIA GPU가 SIMD 제어를 행하는 부분도 작고, 프로세서 클러스터의 수가 훨씬 많다. NVIDIA가, 보다 GPU의 범용 컴퓨팅에의 이용에 최적화가 되고 있는 부분이 많다. 그 때문에, 비그래픽스 처리에서는, 실효 throughput는 NVIDIA 아키텍쳐가 높아질 가능성이 높다.

 이러한 아키텍쳐상의 차이등이 있기 위해, 양 회사의 부동 소수점 연산 스펙을, 같은 척도로서 비교하는 것은 무리가 있다. 그러나, 그것을 공제해도, RV740의 퍼포먼스의 효율의 임펙트는 크다.





die size를 축소하고 수익을 올리는 AMD의 GPU 전략



 RV740는, AMD의 die size 최적화 전략의 2세대째의 GPU다. RV740는, AMD의 신전략이 잘 가고 있는 것을 상징하고 있다.

 GPU 에는 전통적으로 3개의 die size의 레인지가 있다. 최대 사이즈의 열광자를 위한 GPU와 120~160평방 mm의 사이즈로 중간 퍼포먼스의 메인 스트림을 위한 GPU, 그리고 100평방 mm 전후로부터 밸류를 위한 GPU다. 이 중, 가장 다이가 큰 하이엔드용은, 최고자리를 다투는 성능경쟁의 결과로, 자꾸 비대화해 갔다. DirectX 9세대의 초기에는 평방 200 mm 전후 였던 하이엔드GPU는, DirectX 10세대로는 평방 400 mm를 돌파했다.

 GPU 벤더는, 단가의 제약으로부터 3 종류 이상의 다이를 만드는 것은 어렵다. 그 때문에, 하이엔드를 위한 GPU와 메인스트림 GPU의 사이에 갭 존재하는데 GPU 벤더는, 이 갭을, 하이엔드를 위한 GPU의 불량 프로세서로한 저기능판으로 매꿨다.
그러나, 거대한 다이의 개발과 제조의 단가는, GPU 벤더의 이익을 점차 갉아먹어버렸다. 

  거기서, AMD와 ATI Technologies가 합병한 직후, AMD는 GPU의 다이를 작게 하고 이익율을 높인다고 할 방침을 내세웠다. 아래가 그 때의 슬라이드다. 그리고, 2007년 가을의 Radeon HD 3800(RV670) 계로부터, 타겟 die size를 축소하는 신전략을 실행했다. 아래의 그림은, die size의 변화를 차트화한 것이다.




die size로 크게 바뀌는 칩의 제품 비율


 Radeon HD 2000(R600) 세대로는, GPU die size에 큰 갭이 있었다. 하이엔드GPU의 평방420mm와 메인 스트림 GPU의 Radeon HD 2600(RV630)의 평방153mm의 사이가 뻥 비어 있었는데 거기서, 다음의 Radeon HD 3000세대에서는 하이엔드의 거대한 싱글다이 GPU를 멈추었고. 그 대신에, 평방 192mm의 Radeon HD 3800을 퍼포먼스 시장용으로 투입했다.

  그 위에, 하이엔드시장에는, 듀얼 칩 보드의 Radeon HD 3870 X2(R680)를 투입했다. 듀얼 칩 구성은, 반드시 성능이 나온다고는 할 수 없기 때문에, 싱글 칩 노선의 NVIDIA와의 경쟁상에서는 불리하게 되지만, AMD는 그것보다 실질적인 실리를 취했다. 그리고, RV670로부터, 메인 스트림을 위한 GPU와 밸류를 위한 GPU를 파생시켰다.

  같은 것은 Radeon HD 4000세대라도 반복해졌다. 퍼포먼스 시장용의 Radeon HD 4800(RV770)이 평방 260mm 파생한 메인 스트림 RV730가 평방146mm, 밸류 전용의 RV710가 평방 73mm 였다. 

 AMD의, 이 die size 축소 전략의 목적은 명확하다. 그것은 제조단가다. die size가 커지면, 1매의 웨이퍼로부터 얻는 다이 개수가 줄어 들 뿐만 아니라, 제품 비율도 저하한다. 아래는 위로부터 450평방 mm, 260평방 mm, 140평방 mm, 80평방 mm의 die size의 팁의 300 mm웨이퍼로의 제품 비율의 예를 나타낸 그림이다. 블루의 다이가 우량품, 화이트의 다이가 불량품이다. 웨이퍼상의 같은 위치에 결함이 있다고 하여, 각 사이즈의 다이의 제품 비율을 보면, 큰 차이가 나는 것을 알 수 있다.

  맨 밑의 80평방 mm의 밸류 GPU의 다이를 보면, 우량품은 737개로, 제품 비율도 91%로 지극히 높다. 게다가의 140평방 mm의 메인 스트림 GPU의 다이가 되면 우량품은 373개로, 제품 비율은 84%에 내린다. 덧붙여서, 이것은 비교적 제품 비율이 좋은 예로, ITRS 2007으로의 테크놀러지 요구에서는 140평방 mm의 CPU의 제품 비율은 75%가 되어 있다.

  같은 웨이퍼로 260평방 mm의 퍼포먼스 GPU의 다이가 되면, 우량품 다이는 176개로 감소해 제품 비율은 73%에 내린다.  게다가 하이엔드 GPU의 레벨인 450평방 mm의 다이가 되면 우량품이 단 77개로, 제품 비율은 57%에까지 내려 버린다. GPU 벤더가 DirectX 10세대에 도달한 450평방 mm전후의 다이는, 생산성의 면에서는 지극히 어려운 것이 잘 안다.

 1 장의 웨이퍼의 단가는 거의 같아서, 1개 당의 제조단가는 다이가 커지면 급증한다. 무엇보다, 거대한 칩의 GPU의 경우는, 불량 개소를 포함한 프로세서 클러스터를 무효로 하는 것으로, 저기능의 염가판으로서 제품화할 수 있다. 그 때문에, 제품 비율 문제는 어느 정도 경감되지만, 비싸다는것엔 변화가 없다.



반응형

댓글