본문 바로가기
IT/Hardware/Graphics

NVIDIA의 차세대 GPU 아키텍쳐「Fermi」탑재 Tesla 공개

by 에비뉴엘 2009. 10. 2.
반응형



● Fermi 아키텍쳐 GPU를 발표

 NVIDIA 가 9월 30~10월 2일에, GPU 컴퓨팅의 기술회의인「GPU Technologies Conference」을 개최.
첫날에 행해진 동사 CEO Jen-Hsun Hang씨의 기조 강연에서, 차세대 GPU 아키텍쳐가 되는「Fermi」을 발표.그 GPU를 탑재한, HPC 전용의 Tesla 보드를 발표했다.

 공개된 보드를 보면, 디스플레이 인터페이스의 DVI×1, SLI 연결기×2, 6 핀+8 핀의 PCI Express 전원 단자를 갖추는 점 등이 눈에 멈춘다. 보드 사이즈는 9 인치라고 볼 수 있다.

  
Fermi 아키텍쳐의 GPU를 탑재하는 Tesla 보드.
Tesla C1060의 후계에 상당하는 제품이라고 볼 수 있다 보드 이면, SLI 단자를 2개 갖추는 점이나, 코너에 배치된 6 핀+8 핀의 전원 단자를 확인할 수 있다 Tesla 제품이면서 브랙킷부에는 DVI 단자를 탑재.Fermi는 GT200 세대보다 콘텍스트 스위칭을 고속화하고 있는 것부터, Tesla 제품에도 디스플레이 단자가 갖춰질지도 모르다



  
Fermi의 칩.「0935 A1 」라고 하는 숫자가 써져있으며, 제조주차로 리버젼을 나타내고 있을 가능성이 있을 듯 하다 


트랜지스터 카운트는 30억에 이른다
 

 Fermi 는 40 nm프로세스 제조로 30억 트랜지스터의 GPU가 된다. 종래 SP(Streaming Processor)로 불린 각 코어는 CUDA Core로 명칭이 변경되어 이것을 512개를 탑재.GT200 세대의 GPU가 240개였으므로, 2배 이상의 증가가 된다.

  단지 Core의 내부나 Core의 구성은 GT200까지와는 크게 다르다.복수 Core의 관리 단위인 SM(Streaming Multi-processor)에 대해서는, Core 32개 단위의 SM를 16 유닛 탑재.SM에 있어서의 실행 단위가 되는 Warp의 스케쥴러나 디스팟치유닛트를 1개의 SM에 2개씩 탑재.종래의 로컬메모리에 없애고, L1캐쉬의 기능도 탑재하고 있어, 로컬메모리/L1캐쉬의 겸용으로 합계 64 KB가 된다.이 메모리는 로컬메모리 16 KB+L1캐쉬 48 KB, L1캐쉬 16 KB+로컬메모리 48 KB로 전환해 사용할 수 있다.

  덧붙여서, 지금까지의 CUDA의 아키텍쳐에서는 메모리가 3 계층으로 나누어져 있어 어느 메모리 영역을 사용할까는 프로그램측에서 지정할 필요가 있었다.예를 들면, 각 SM가 갖추고 있던 16 KB의 로카르메모리를 사용하는 경우는「__shared__」, 이른바 비디오메모리를 사용하는 경우는「__global__」(이)라고 하는 수식자를 붙여 변수를 선언한다.명시적으로 메모리를 취급할 수 있는 한편으로, 선언없이는 고속의 로컬메모리가 사용되지 않는 것이다. 물론, 이것을 잘 사용하는 것이 CUDA 어플리케이션의 하나의 튜닝 포인트이기도 했다.

 Fermi 에서는 게다가 모든 SM로부터 액세스 가능한 공유형의 L2캐쉬를 768 KB 갖추는 것도 특징이 된다.하드웨어측이 자동적으로 캐쉬를 하는 기입 가능한 캐쉬로, 요즈음의 멀티 코어 CPU가 가지고 있는 공유형의 L2/L3캐쉬에 가까운 것이라고 생각해도 좋다.

  글로벌메모리의 인터페이스는 384 bit. NVIDIA의 GPU로서는 처음으로 GDDR5에 대응하는 것 외에 ECC 메모리를 서포트하는 것도 큰 특징이다. 데이터의 정당성을 높이는 에러수정이 요구되는 HPC 분야 전용의 대응이 된다. 반대로 말하면, 컨슈머(consumer) 전용인 GeForce 제품의 경우는, ECC 없음 메모리가 채용되는 것이 일반적이 될 것으로, 이 근처에서 제품으로서의 기능의 차별화, 코스트차이가 발생하게 된다.

  덧붙여서, 이 Fermi라고 하는 것은 아키텍쳐의 코드네임이다.이 아키텍쳐는,
HPC 전용의 Tesla 브랜드, 업무용도 전용의 Quadro 브랜드, 컨슈머(consumer) 전용의 GeForce 브랜드의 모두에게 전개되게 된다.

  
Fermi 아키텍쳐와 종래 제품의 비교표(NVIDIA WhitePaper로부터 Fermi 아키텍쳐의 블록 다이어그램(NVIDIA WhitePaper로부터 Streaming Multi-processor와 CUDA Core의 내부 구조(NVIDIA WhitePaper로부터

● 배정도 부동 소수점 연산의 처리 성능을 어필

 Fermi 의 성능에 대해서는 동작클럭이 공개되어 있지 않기 때문에, 최종적인 제품을 기다릴 필요가 있다. 이 아키텍쳐에 있어서의 구체적인 성능으로서는, 배정도 부동 소수점 연산의 성능이, GT200 세대에 비해 최대 8배의 성능을 갖는다고 하는 점이 어필되었다.기조 강연에 대해도, 배정도 부동 소수점 연산을 이용해 묘사되는 이미지의 frame rate를, GT200와 Fermi로 비교.전자가 3.5 fps 전후로 약 14억 6,000만 명령/초의 처리 속도인데 대해, Fermi에서는 18 fps미만, 75억 3,000만 명령/초의 처리 속도인 것을 나타냈다.

  덧붙여 GTC 2009의 첫날 기조 강연 및 프레스 컨퍼런스에 대해도, 이 Fermi의 그래픽스 이용의 구체적인 이야기는 없었다.이번 기조 강연에서 정식으로 DirectX 11에의 대응이 밝혀진 것이 새로운 정도로, 고정 쉐이더기능이나 래스터라이저, ROP의 구조 등은 아직도 불명하다. Fermi는 데이터 센터나 HPC 전용의 기능이 많은 아키텍쳐이지만, Jen-Hsun Hang씨는 그래픽스도 여전히 코어 비즈니스이라고 표명하고 있어, GeForce 제품의 성능에도 기대가 된다.

  신경이 쓰이는 스케줄이지만, 현재는 실리콘이 올라 온 단계에서, 통상, 이대로의 페이스로 진행되면 수개월 중에 시장에 등장하는 Hang씨는 말하고 있다.우선은 Tesla 제품이 릴리스 되어 그 후에 GeForce나 Quadro라고 하는 그래픽스 제품이 등장할 전망이다.


반응형

댓글