소니 플스4는 왜 AMD 아키텍쳐를 사용했는가?소니 플스4는 왜 AMD 아키텍쳐를 사용했는가?

Posted at 2013.02.26 23:18 | Posted in IT/Hardware/Etc

상용 장치에 움켜지고있는 게임기

 소니 컴퓨터 엔터테인먼트 (SCE)가 발표 한 차세대 게임기 "플레이스테이션4 (플스4)"는 AMD의 Jaguar (재규어) 8코어와 GCN (Graphics Core Next) 를 탑재한 APU (Accelerated Processing Unit)를 사용 . AMD의 범용 아키텍처의 브랜딩을 사용하는 것은, 시대의 흐름에 그렇게해야한다면 해야했기 때문이다. SCE가 독자적으로 칩을 개발하여, PC와 같은 범용컴퓨팅 장치를 크게 능가 할 수있는 시대는 끝나 버렸다.


현재는 PC와 스마트폰, 태블릿 등 전세계에 넘치는 범용 컴퓨팅 장치가 모두 게임을 실행시킬 수있다. 범용 컴퓨팅 장치의 칩 아키텍처는 게임기의 칩과 방향이 변하지 않고있다. 이러한 시대에, 게임기는 어떻게 존재 의의를 밝히는인지, 플레이스테이션 4 (플스4)에 관계되어있다.


 콘솔게임기가 상용장치에서 뛰게 된 이유는 여러있다.


 먼저 소비자 컴퓨터도 모두 인터랙티브 미디어를 취급하게 된 결과, 칩에 요구되는 기능을 게임기와 비슷하다다. 범용 컴퓨터는 이전에 CPU 코어의 스레드당 성능을 높이는 데 초점을했지만, CMOS 스케일링이 따르지 않는 것으로, 멀티코어 화 및 이기종 (Heterogeneous : 이종 혼합) 화에 이끌어 않을 수 없게되었다 . 프로세스의 미세화마다 동일한 전력 범위에서 주파수와 CPU 코어의 복잡성을 높일 수 없기 때문이다. 따라서 범용칩의 구조가 게임기의 칩과 닮게되어왔다.


 이기종 화는 GPU를 범용 병렬 기계로 사용한다는 비전이 융성하고 GPU 코어가 상용 장치에서 급 진화하기 시작했다. 결과적으로, 범용 컴퓨터 칩에서 GPU 코어의 비율이 높아져, 게임기의 GPU 코어의 비율에 접근하기 시작했다. 또한 아이러니하게도 Cell Broadband Engine (Cell BE) 등의 게임기 아키텍처가 컴퓨터 업계에 충격을주고 아키텍처 개발의 방향을 게임기로 변화시켰다.


 이러한 상용 장치 칩의 변화에​​ 따라 게임기 칩 만의 특징은 희미 해지고있다. 일단 게임기 칩의 차별화는 비교적 간단했다. 범용 장치가 하고 있지 않은지하면된다 뿐이었다 때문이다. 하지만 지금은 게임기도 상용 장치도 같은 방향을 향하고 있기 때문에 칩의 차별화는 어렵다.


 아직 칩 레벨에서의 차별화는 가능하지만, 그래도 이전과 같은 결정적인 차이라고 할 정도로 큰 차별화는 없다. 따라서 현재는 PlayStation 3 (플스3)의 때처럼, 게임기 칩 개발에 엄청난 투자를하고도 차별화 효과가 거의없다시피하고, 개발 비용을 투자비용의 1/2만 회수할 수 없게되어있다. 예를 들어, 상품장치의 10배 성능의 칩을 만들 수는 있었지만, 지금은 없다. 따라서 범용 장치의 요소를 잘 사용하고, 게임에 적합한 칩을 만들고 차별화 할 경제적으로 적합한 솔루션이 되고있다.



상용 장치와의 차별화가 용이했던 과거의 게임기

 지난 20 년간, 게임기는 프로세서 기술의 견인 역활이었다. 1994 년에 등장한 초대 PlayStation(플스1)은 하드웨어 지오메트리 엔진과 렌더링 엔진 칩을 올린 한 본격적인 3D 그래픽 시스템이었다. 소비자 PC용 저렴한 3D 그래픽 카드가 등장한 이전의 시대다. 예를 들면, NVIDIA의 첫 번째 칩 "NV1"이 등장한 것은, PlayStation (플스1) 출시후 이다.

플스1의 CPU는 클럭 33.8Mhz

플스1 제조공정은 600나노, 플스4는 28나노


 


 다음 PlayStation 2 (플스2)에서도 CPU와 GPU 모두에서 PC에 차별화를 도모 할 수 있었다. PS2의 CPU "Emotion Engine (EE)"는 당시 인텔 펜티엄3 대해 스칼라 정수 연산에서는 뒤떨어 지지만, 벡터 연산은 크게 능가했다. PS2의 GPU "Graphics Synthesizer (GS)"은 임베디드 DRAM (eDRAM)을 대량으로 실은 아키텍처에서 메모리를 외장하는 PC용 GPU와 차별화 할 수 있었다. 그렇다고는해도, PS2는 PC그래픽에서 파생된 마이크로소프트 Xbox 콘솔형태로 PC 그래픽으로부터 도전을 받게되었다.


플스2와 펜티엄3의 성능비교


플스2의 Emtion(이모션) Engine클럭은 300Mhz 

제조공정은 250나노





플스3는 당시 스레드당 성능의 향상에 편향(인텔의 프레스캇이 대표적) 부풀어 PC용 CPU에 단순 CPU 코어를 다수 집적함으로써 칩 당 처리량을 10 배 향상한 "Cell Broadband Engine (Cell BE)" 아키텍처 도전했다. CPU는 분명히 차별화가 가능했다. 하지만 플스3는 GPU 코어는 PC그래픽 커스텀버전이다 "RSX(지포스7800GTO)"를 채용했다. 그 배경에는, PC 그래픽칩의 급속한 발전이 있었다.



플스3의 Cell BE 3.2Ghz로 동작

첫 제품은 90나노로 제작



  

 현재에도 여전히 게임기가 범용 장치에 칩 레벨에서 어느 정도 차별화하는 것은 가능하다. 범용 CPU는 멀티코어 화가 진행되었다고는하지만 아직 전력 효율면에서 문제가있다. GPU는 기존의 그래픽 API와 비슷해, 급진적인 새로운제품의 개발은은 어렵다. PC는 메인메모리는 속도가 둔화된 DDR3의 상태이다. 그렇다고는해도, 앞으로 5년 후, 콘솔게임기만의 차별화 할 수있는 요소는 거의 없어져 버릴 것이다.



PS3 때와 같은 대규모 투자가 어려워졌다

 이번 PS4 개발에서는 SCE는 분명히 PS3 때처럼 엄청난 개발 예산을 들일 여유가 없었다. PS3는 콘솔게임기 시장의 발전 예측을 기반으로 개발 비용을 투자했다. 

개발 비용은 게임기의 출하 대수로 나누면 좋은 생각이었다, 그 대수를 추정하여 투자를 행한 것이 PS3이었다.


 그러나 지금 게임 시장은 상용부품 덕분에 확대하고있는 것에도 불구하고, 스마트폰의 보급과 더불어 콘솔게임기 시장의 확대는 어렵다. 이러한 현상은 PS3 때와 같은 엉뚱할 수 없다. 하드웨어 개발 투자는 억제하여 시스템비용도 절감 할 수있는 구조로 해야한다.


 현실주의 노선의 게임기칩 개발 된 경우, 상품장치 기술을 적용하는 것은 당연한 일이다. 상용 세계 기술이 게임을 실행시키기 위해 충분한 기능을 갖추고있어, 그리고 그것을 활용하는 것으로, 개발 예산을 크게 줄일 수 있기 때문이다. 만들려고하는 것은 플스1 때 같은 100만 트랜지스터의 CPU가 아닌 수십 억 트랜지스터를 올린 칩이며, 그걸 처음부터 개발하는 것은 아주 비효율적이며 미친짓이다.


 그래서 포인트가되는 것은 상용장치의 세계에서 어떤 아키텍처를 가져 오는지. SCE의 아키텍처 선택의 궤적을 보면, 대략적인 방향성이 짐작할 수있다. 먼저 원래의 발상이, Cell BE에서 시도한 높은 처리량을 가진 CPU 검토 이랄까, Cell에 영감을받은 기술의 흐름을 사용하려는 발상에서 출발하고있는 것으로 보인다.


 Cell BE는 짧은 벡터의 작은 스트림 CPU 코어를 늘린 멀티스레드를 작동시키는 구조였다. Cell BE 자체는 성공하지 않았지만, 프로세서 기술은 Cell BE의 파도로 바뀌어 Cell BE에 가까운 지, 어느 정도 영향을받은 기술이 점점 등장했다. 즉, 인텔의 Larrabee (라라비)이나 AMD와 NVIDIA의 GPGPU이다.


 이러한 다목적 GPU 또는 처리량 CPU를 게임에서 그래픽 이외의 용도로 즉시 사용 여부는 차치하고, 하드 측은 범용으로 사용할 수 있도록 해 두는 발상이라고 추측된다.


플스4 하드웨어 발전방향


 

2008년

 플스4 최초구상

 2009년

플스4 계획2

2011년 

플스4 초기 개발자킷

2012년 

플스4 스펙상향

2013년 

플스4 최종스펙(공식)

 CPU

Cell B.Engine 발전형

 인텔 라라비

 AMD 2.8Ghz 라노 4코어 

AMD 3.2Ghz 스팀롤러 4코어 

AMD 1.8Ghz 재규어 8코어

 RAM

 

 

 4GB

4GB 

8GB GDDR5 통합

 GPU

 엔비디아 CUDA 플랫폼

인텔 라라비 

 AMD Radeon HD 7670

프로세서 480개

코어 800Mhz

128bit 메모리대역폭

DirectX 11.1


AMD Radeon 7900코어

코어 800Mhz 

연산력 1.84 TFlops

DirectX 11.1지원

18Computing Units


AMD Radeon 7900코어

프로세서 1152개

코어 800Mhz 

256bit 메모리대역폭

연산력 1.84 TFlops

DirectX 11.1지원

 스토리지

 

 

 


HDD or SSD

광학 

드라이브 

블루레이 

 블루레이

 블루레이

 블루레이

블루레이 6배속 

 네트워크

 

 

 

 ?

유선 10/100/1000Mbps

무선  IEEE 802.11 b/g/n

 A/V

 Cell B.E의 불확실한 미래와 

엔비디아의 CUDA개발언어 강요

DirectX 11 기술탑재에

소극적인 자세 등


검토단계에서 취소

라라비는 

인텔이 만든 Cell BE버전임

하지만 CPU중심의 구조와 

취약한 3D성능

생각보다 낮은 정수연산 성능

프로그래밍 하드웨어레벨에 따른 게임개발의 편차의 어려움

심각하게 높은 TDP 300W

  인텔이 라라비프로젝트 취소

x86플랫폼은 

게임개발이 쉽고

콘솔과 컴퓨터간의 

게임이식이 간편하여 

개발자들이 선호


AMD는 CPU,GPU의 

통합솔루션제공으로 

단가가 저렴함 

글로벌파운더리와 TSMC의 

제조공정이행 연기로

AMD의 스팀롤러와 카버리가 2013년말로 연기되어 취소


콘솔에 28nm를 탑재하기위해선

현재 유일한 

재규어 4코어 엔트리CPU를 탑재

성능이 낮은걸 극복하기위해

8코어로 커스텀하여 

멀티쓰레드방식 최적화

Bluetooth® 2.1 (EDR)

USB 3.0

HDMI

Analog-AV out

Digital Output (optical) 

 가격

 

 

 

$429

$529 

 출시일

 

 

 

 2013 하반기

 2013년 크리스마스시즌



CPU와 GPU의 원칩 통합이 처음부터 SCE의 목적


 라라비는 인텔적인 발상으로 Cell같은 아키텍처 벡터를 강화한 작은CPU 코어를 여러개 탑재하여 나란히한 멀티스레드 작동점은 비슷하다. 그러나 x86 명령어 세트를 확장하고 하드웨어 관리의 일관된 캐쉬를 갖춘다 점이 인텔의 라라비이다. 게다가 인텔은 이 그래픽으로 GPU를 대항하는 점을 밝히고있어 SCE에게는 이런 인텔의 발상이 다가가지 쉬었던것으로 보인다. 그러나, 라라비는 처음에는 전력효율측면에서 큰 장벽이 있었고, 인텔이 라라비의 그래픽전략을 포기한 시점에서 SCE에 사용할 수없는 계획이 되어버렸다.


 다른 GPU는 Cell에 비해 벡터의 입도는 계속크고 스레드의 제어도 크게 다르지만, 벡터 프로세싱과 메모리 계층의 최적화 프로세서의 효율을 높인다는 발상은 비슷하다. NVIDIA와 AMD는 선택 항목은 SCE는 AMD를 취할 수 밖에 없다. 왜냐하면, SCE는 처음부터 CPU와 GPU를 통합한 APU (Accelerated Processing Unit)하거나, APU에있는 기술을 요구하고 있었다고 생각되기 때문이다.


 그 이유는 현재 PS3와 Xbox 360을 비교하면 잘 알 수있다. Xbox 360은 CPU와 GPU를 통합한 원칩하고 비용과 풋프린트를 절감했다. SCE도 PS2에서는 같이 EE와 GS를 통합했지만, PS3는 Cell과 RSX는 각각 다른 칩으로 한채 통합되어 있지 않다. NVIDIA에서 RSX(지포스7800GTO) 기술공개를 꺼리고 핵심기술을 사는 것이 매우 어려운 것이 한 요인이라고 생각되었기 때문이다.


플스3와 XBOX360의 공정축소 현황

XBOX360은 공정이행으로 제조단가와 발열측면에서 이점을 가진반면

플스3는 통합칩에 실패했다.



 이러한 사정으로부터, SCE는 처음부터 APU를 상정하고 있었다고 볼 수있다. CPU와 GPU를 모두 가진 AMD도 동일한 수다. 

NVIDIA는 프로젝트 덴버(Project Denver)가 발표되면 할 수있게된다, 그러기엔 2013년 말에는 너무늦어 2011년에 선택할 대안은 못되었다.


※엔비디아의 프로젝트 덴버는 지포스GPU안에 ARM Cortex-A15코어를 탑재하는 것이다.


 SCE가 이런 발상으로 차세대 칩을 요구했다면, AMD의 GPU 코어의 선택은 필연적으로 범용성을 높인 GCN (Graphics Core Next) 이후의 아키텍쳐가된다. 

어느 쪽 일까하고 말하면 그래픽 쪽의 VLIW5/4 아키텍처는 안되었을 것이다. 그리고 GCN은 28nm 이후의 프로세스를 타고 있기 때문에 필연적으로 프로세스 기술도 28nm된다.



재규어 4코어는 불도저 2코어보다 작다

 SCE는 처음에는 아마 일정 수의 고성능 CPU 코어와 범용으로도 사용할 GPU 코어라는 조합을 상정하고 있었다고 추측된다. 타사 개발자의 정도의 수가 PS3의 피드백으로 PPU보다 고성능 프로그램 가능한 CPU 코어를 요구 한 것이고, 그것을 당겨 CPU를 찾고 있었을 가능성이있다. 즉, Cell BE의 발상의 확장으로 가면, Cell BE의 메인 CPU 코어의 PPU (Power Processor ​​Unit) 대신 4코어 정도의 성능 CPU 코어 처리량 코어의 SPU (Synergistic Processor ​​Unit) 대신 그래픽스 겸용 GPU 코어 발상이었다고 추측된다.


 그것은 이전글에 설명했던데로 제조 파운더리 측의 사정에 따라 저전력 코어의 "Jaguar (재규어)"의 8코어 구성에 변화이지만, 이것은 결과적으로 나쁜 선택이 아니다. 게임은 GPU 성능이 훨씬 중요하기 때문에, CPU코어의 스레드당 성능에서 Amdahl의 법칙에 의한 병목 현상은 오히려 일반 응용 프로그램이 더 영향이 클지도 모른다. 그리고 폴락의 법칙에 따라는, 스몰코어 재규어의 전력 효율은 매우 좋다. (TDP 25W 수준)


덧붙여서, Jaguar가 얼마나 작은지 아래의 AMD CPU의 코어 크기 비교 그래프와 28nm의 Jaguar 4 코어와 2MB L2 캐시의 컴퓨팅 장치와 32nm의 Bulldozer 코어 2 (실제로는 정수 연산 코어만 융합 코어)와 2MB L2 캐시 모듈의 비교 그림을 보면 명료하다. Jaguar의 CU는 26.2 평방 mm, Bulldozer 모듈은 30.9 평방 mm. Bulldozer는 28nm로 이행하면 최대 70 % 면적이 감소하지만, CPU 코어도 Steamroller 옆 대형화. 28nm에서 Jaguar 8 코어와 Steamroller 4 코어에서 거의 면적이 변하지 않을 것이다.




재규어 코어는 28nm HKMG 벌크공정

불도저 1세대는 32nm HKMG SOI공정


전체로 보면, PS4 칩은, 게임 개발측면을 위해서 꽤 깊이 생각해진 부분이 있어, 진지하게 검토한 것을 알 수 있다. 특별히 언급하고 싶은것은, 메모리량을 GDDR5 8GB로 한 것으로, 이것에 의해서 소프트웨어 게임개발은 현격히 편해졌다고나 할까? 최소한 보통레벨이상은 되었다고 말할 수 있다. 






저작자 표시 비영리 변경 금지
신고

Name __

Password __

Link (Your Website)

Comment

SECRET | 비밀글로 남기기

free counters