본문 바로가기
IT/Hardware/Graphics

[COMPUTEX 2009] ATI, DirectX11 GPU「Evergreen」올해 출시

by 에비뉴엘 2009. 6. 7.
반응형


● AMD가 차세대 GPU를 COMPUTEX에서 발표

 AMD 는, 대만에서 개최되고 있는 COMPUTEX에서, DirectX11세대의 GPU「Evergreen」을 2009년내 출시한다고 발표. 
DirectX 11 feature의 데모를 행했다. 또, 40nm프로세스로 제조하는 Evergreen의 웨이퍼도 공개했다.
AMD의 Rick Bergman씨(Senior Vice President, AMD)는, DirectX 11에서 제일 먼저 주도권을 가져갈꺼라고 했다.
현세대의 API 서포트 경쟁에서는, AMD가 NVIDIA를 정벌하게 된다. 

 Microsoft 의 신API군「DirectX 11」에서는, 그래픽스 API가 확장된다. 최대의 포인트는, 평면 분할을 행해 적은 다각형수로부터, 다수의 다각형으로 구성된 디테일의 섬세한 3D오브젝트를 생성하는 테셀레이션 스테이지의 추가다.
GPU의 범용 이용을 위한 쉐이더스테이지「DirectX Compute Shader」도, 원래는 DirectX 11을 위해서 개발되었다(DirectX 10. x에도 제공된다).

  발표회에서는, 테셀레이션을 중심으로 데모가 행해졌다. 다만, 그 중에 눈에 띄지 않으면서, GPU에 의한 AI의 실장 데모도 행해졌다. 이것은 다수의 개구리 캐릭터군의 행동원리와 파스파인딘그를 GPU에 실장한 것이다. 「AI on GPU」은, 게임으로의 GPU의 범용 컴퓨팅 이용의 다음의 스테이지에서, NVIDIA도 활발히 연구하고 있다. AI의 무거운 처리는, 디시젼 메이킹이 아니고, 서치나 파스파인딘그이며, 이것들은 컴퓨팅 강렬하고 데이터량이 많기 때문에, GPU에 내장해 고속화하기 쉽다. 범용 컴퓨팅을 집어 넣은 DirectX의 새로운 방향성에도 합치하고 있다.



● 실리콘 스케줄에서는 연내 투입

 2009 년내의 DirectX 11 GPU 발표를 선언한 AMD. 그 스케줄은 순조인 것일까. 원래, GPU 벤더의 DirectX 11 GPU의 개발은, Windows 7으로 보조를 맞추는 것을 전제로 진행되고 있었다. 연내의 DirectX 11 스케줄은, 이 예정에 합치하고 있다.

  통상, GPU의 개발에서는, tape out(설계 완료)로부터 양산까지는 6~9개월이 필요하다. tape out로부터 샘플이 실제로 제조될 때까지, 마스크와 샘플 실리콘의 제작으로 수주간 걸린다. 다음에 샘플을 평가해 검증하는데 1개월반으로부터 2개월 걸린다. 여기까지로 약 3개월이 필요하다.

  또 퍼스트 실리콘이 완전 동작했다고 해도,  기판안정화를 통해, 통상은 1회는 실리콘을 다시 만든다. 그 후, 같은 프로세스를 교환모아 두어 tape out로부터 제품 출하까지 최단에 6개월 걸린다. 만약, 샘플 칩의 단계에서, 버그가 발견되어,  사이클의 샘플 출시가 들어가면, 3개월이 추가되어 9개월 걸려 버린다.

 Evergreen 는 현재, 실리콘이 벌써 있어, 시험적으로 달리고 있는 단계다.
큰 버그가 없으면, 길게 잡아 5개월내에 출시할 수 있게 된다. Bergman씨가 연내 출시에 자신을 보이는 이유는 여기에 있다.

● 비교적 작은 die size

 COMPUTEX 의 발표회에서는, Evergreen의 다이도 공개되었다. 칩의 다이는, 웨이퍼상에 25. x개×19. x개가 배치되어 있다. die size는 계산상 180평방 mm대가 된다. 이것은, AMD가 die size를 작게 하는 전략을 시작한 최초의 GPU(이었)였던 Radeon HD 3800(RV670)과 거의 같은 레벨이다. RV670는, 55 nm프로세스로 192평방 mm의 다이사이즈였다.

  제조 프로세스 기술은 40nm. RV670에서는 풀 노드로 1세대분 미세화한다. die size로부터 추정되는 트랜지스터 카운트는 13억개 전후가 된다.

 AMD 는 하이엔드 시장용으로 거대한 다이GPU를 개발하는 것을 멈추었다. 그 대신에, RV670 세대부터는, 200평방 mm전후의 중간 정도의 die size의 GPU를 퍼포먼스 시장용으로 개발. 하이엔드에는, 200평방 mm정도의 다이를 2개 사용한 멀티 GPU 솔루션으로 대응하기로 했다. DirectX 11세대라도, 그 전략이 답습되는 것이 확인되었다.

  그러나, Evergreen의 die size는, 메인 스트림을 위한 GPU의 Radeon HD 4770(RV740)과의 차이가 크지 않다. 같은 40nm프로세스의 RV740의 die size는 136평방 mm로 트랜지스터 카운트는 826 M(8억 2,600만). Evergreen는, 3할 정도 밖에 규모가 커지지 않게 된다. 그래픽스 API의 세대가 1세대 점프 하는데, 이 차이는 너무 작은 것처럼 보인다.
과거의 예를 보면, DirectX 8으로부터 DirectX 9, 그리고 DirectX 9로부터 DirectX 10으로 각각 전생대에 대해서 트랜지스터 카운트는 배로 증가해 왔다. 이번, DirectX 10으로부터 DirectX 11에의 이행이, 그렇게 되지 않는데는, 이유가 있다.





● 위험성이 컸던 과거의 DirectX 세대 이행 코스트

 DirectX GPU의 개발은 얼마나 장애벽이 높은 것인가?
얼마나 GPU의 트랜지스터 카운트가 증가하고, GPU가 커지는 것인가?

 DirectX 9세대부터 DirectX 10세대에의 이행은 큰 점프였다. DirectX 9세대까지는, GPU 벤더는 그래픽스의 논리 파이프라인을 그대로 하드웨어로 실장하고 있었다. 정점처리→rasterize→픽셀 처리→아웃풋 이라는 파이프라인에 따른, 수직형의 아키텍쳐를 취하고 있었다.

 그런데 , DirectX 10세대로는 GPU 아키텍쳐가 완전하게 바뀌었다. 그래픽스의 논리 파이프라인과는 떨어지고, 재귀형의 프로세서에 편성되어 게다가로 가상적으로 논리 파이프라인이 실장되었다.

 DirectX 10세대로, 이러한 변혁이 필요했던 것은, DirectX 10의 범용성을 철저히 하고 높인 모델을 취했기 때문이다.
DirectX 9세대까지, 버텍스쉐이더와 픽셀쉐이더는, 논리상의 기능과 명령에 차이가 있었다. 그런데 DirectX 10세대부터는 거의 동등이 되었다. 그 때문에, 버텍스쉐이더와 픽셀쉐이더를 따로 따로 하드웨어 실장하는 것보다, 통합쉐이더 같은 하드웨어로 서포트하는 것이 합리적으로 되었다.

  그 때문에, DirectX 10세대로는, GPU 아키텍쳐의 근본적인 변혁이 행해졌다. DirectX 10에서는 수평의 프로세서 어레이를 제어하고, 그래픽스 논리 파이프를 실현하게 되었다. 그 때문에, 쉐이더프로세서 어레이의 제어가 비약적으로 복잡하게 되어, GPU가 복잡하게 되었다. 또, 그것까지는 실장이 가벼웠던 버텍스쉐이더가 픽셀쉐이더와 동등하게 되었다.

  이러한 변화 때문에, DirectX 9로부터 DirectX 10의 점프에서는, 동등의 성능의 GPU로 30~40%의 논리 회로의 증가가 필요하게 된다고 들었다. 같은 퍼포먼스 레벨을 유지하고, DirectX 10의 feature를 실장하면 GPU가 비대화 한다. 게다가, GPU 벤더는 퍼포먼스를 세대마다 배증하는 것을 구가하고 있었으므로, DirectX 10세대로는, 한층 더 GPU가 대형화했다. 실제로, NVIDIA와 ATI Technologies의 DirectX 10세대 GPU를 보면, die size가 단번에 400평방 mm이상으로 대형화하고 있다.




● 비싸진 않은 DirectX 11 이행의 어려움 

  그럼, DirectX 11에서는 어떤가?  DirectX 10으로부터 DirectX 11에의 이행에서는, GPU의 하드웨어 아키텍쳐에, 발본적인 개혁은 필요없다. 인크리멘탈인 기능 부가가 필요하다만으로, 하드웨어 설계에게 주는 임펙트는, 전회의 이행보다 훨씬 작다. DirectX 11을 위한 추가 하드웨어는, 비교적 작은 규모에 머물 것이다.

  우선, 테셀레이션 관련의 하드웨어. DirectX 11에서는, 테셀레이션을 위해서, 테셀레이터와 그 전에「(Hull Shader)」, 뒤로「(Domain Shader)」라고 2개의 새로운 쉐이더스테이지가 더해졌다. 테셀레이터 자체는 효율을 위해서 하드웨어 실장할 필요가 있지만, 전후의 쉐이더는 전용 하드웨어로서 실장하는 필요성은 없다고 볼 수 있다. 무엇보다,테셀세레이션을 행하면 정점 데이터의 증대가 일어나기 위해, 데이터를 쉐이더코어안에서 임시적으로 저장해 나온다. 그것을 위한 확장은 필요하지만, GPU는 벌써 라이타브르메모리를 쉐이더코어내에 가지기 위해 대응은 가능할 것이다.

  다음에 DirectX Compute Shader 관련의 하드웨어 확장. 이것은, 거의 필요가 없다. 왜냐하면, Compute Shader는, GPU 벤더가 벌써 독자적으로 확장한 범용 컴퓨팅을 위한 기능을, DirectX의 골조안에 짜넣은 것이기 때문이다.

 DirectX 9까지는, 그래픽스 API가 GPU의 기능을 규정하고 있었다. 그러나, DirectX 10세대로는, GPU 벤더는, 그래픽스 API로 규정되고 있는 기능 이외의 확장을 적극적으로 행했다. 특히 NVIDIA는, 범용 컴퓨팅을 위한 기능을 강화해, 실리콘을 그 쪽으로 할애했다. 쉐이더코어에 비그래픽스 전용의 메모리를 마련해 쉐이더클러스터의 입도를 극도로 작게 하고, 쓰레드의 병렬성을 높였다. DirectX 10세대 GPU는, 그래픽스 API가 절대적이었던 시대의 임종이기도 했다.

 DirectX Compute Shader는 그 상황에 대응했다. GPU 벤더가 DirectX의 골조로부터 빗나간 부분에서 확장한, 범용 컴퓨팅을 위한 기능에, DirectX의 골조로부터 액세스 할 수 있도록 한다. GPU 벤더는, 종래의 그래픽스 전용의 가상화 층(그래픽스 드라이버)이 아니고, 범용 컴퓨팅 전용의 가상화로 거기에 대응한다. 이러한 백그라운드이기 위해, DirectX Compute Shader의 서포트에서는, GPU 측에 큰 확장은 필요가 없다.

 이러한 이유로, Evergreen의 die size에 DirectX 10. x세대부터 그다지 커지지 않음을 알 수 있다.



예상추정치

  • AMD Evergreen - 180mm2, 40nm TSMC
  • AMD Cypress - 360-400mm2 [2x180mm2], 40nm TSMC
  • nVIDIA GT300 - 500mm2, 40nm TSMC
  • Intel Larrabee - 600mm2, 45nm Intel


반응형

댓글