본문 바로가기
IT/Hardware/CPU/MB

인텔 60코어「Xeon Phi」를 정식 발표

by 에비뉴엘 2012. 11. 16.
반응형

●다이에 62개의 CPU 코어를 탑재한 진정한 메니코아 CPU 


Intel이 「Xeon Phi 5110 P」의 브랜드로 투입한 「Knights Corner(나이트 코너)」는, 22 nm프로세스로, 물리적으로는 62개의 CPU 코어를 탑재하는 메니이코아 프로세서다.1칩으로 단정밀도 부동 소수점 연산이라면 2 TFLOPS 이상, 배정밀도라면 1 TFLOPS 이상의 퍼포먼스를 달성한다.칩 당의 퍼포먼스는 하이엔드 GPU수준이면서, CPU의 명령 세트를 갖춘 하이브리드 프로세서인 점이 특징이다.아키텍쳐적으로는, 시장 투입을 취소한 그래픽스를 위한 제품 「Larrabee(라라비)」를 계승하는 「MIC(마이크:Many Integrated Core)」아키텍쳐다.


 Intel은, 이 몬스터 프로세서를, HPC(High Performance Computing) 시장에 투입한다.HPC 시장에서 실적을 쌓아 올리고 있는 NVIDIA의 「Kepler」GPU와 IBM의 메니이코아프로세서 「BlueGene/Q」, 거기에 일본의 후지쯔의 「SPARC64 VIIIfx」에 도전한다. GPU와 전용 아키텍쳐에 석권된 시장을, Intel 프로세서의 것으로 하는 것이 목표다.




22nm 나이트코너 다이




현재 미국 솔트 레이크 시티에서 개최 된 슈퍼 컴퓨팅 컨퍼런스 'SC12'에 맞춰 슈퍼 컴퓨터 톱 500리스트가 발표되었다. 


목록 1 번째는 NVIDIA의 K20x의 "Titan"(ORNL : Oak Ridge National Laboratory). 

2 번째는 IBM의 BlueGene / Q의 "Sequoia"(LLNL : Lawrence Livermore National Laboratory), 

3 번째는 일본의 후지쯔 SPARC64 VIIIfx의 "경"(이화학 연구소). Intel의 Xeon Phi는 "Stampede"(Texas Advanced Computing Center / Univ. of Texas)에서 

7 번째로 들어가는 (Intel CPU 시스템에서는 SuperMUC가 6 위).




Xeon Phi의 첫 번째 슈퍼 컴퓨팅 시스템 "Stampede"

 

하지만 실제로는 Stampede 점수는 풀 가동 이전 40 % 정도의 시스템에서 수치로, 아직 도움이되지 않는다. 그렇다고는해도, 이번​​ 턴은 미국의 슈퍼 컴퓨터의 정점 인 ORNL과 LLNL 등 미국 立 최고의 연구 시설은 Intel의 손에서 흘러 버리고있는 것도 사실이다. ORNL은 Larrabee때에는 Intel을 검토하고 있다고 소문이 있었지만, NVIDIA 플랫폼으로 갔다.


 Intel은 다음 턴에서 ORNL과 LLNL 등 슈퍼 컴퓨터를 상징하는 탑 연구소를 자사 아키텍처에 통합 할 목적이다. 당면 목표는 ExaFLOPS 슈퍼 컴퓨터를 재빨리 실현, 엑사 레이스의 승자가 될 것이다.


 Intel은 HPC의 성장이 데이터 센터의 성장을 견인하고 있다고보고 있으며, HPC 시장을 중시하고있다. 또한 Intel은 빅 데이터 분석의 필요성이 높아지는 것으로, 매니 코어의 수요가 향후 높아질 수도 예측한다. 매니 코어 프로세서와 같은 높은 병렬 프로세서가 제한된 현재 HPC 시장뿐만 아니라 더 넓은 시장에서 사용되어 간다는 것이 Intel의 비전이다. 보통 데이터 센터에, 매니 코어의 Xeon Phi가 들어가게되면 매출도 커지고 프로세서 개발비도 상각하기 쉬워진다.








● 2 계통의 Xeon Phi 제품군은 메모리와 TDP로 차별화 


Intel이 투입 Xeon Phi 제품은 5100 계와 3100 계의 2 제품군. 모두 22nm 프로세스에서 동일한 다이 (반도체 본체)에서 파생시키고있다. 모두 PCI Express 카드의 형태로 데이터 센터를위한 패시브 냉각 카드와 단체로의 이용도 가능한 팬이있는 활성 냉각 카드도 2 모양이있다. 데이터 센터에서는 랙 단위 냉각하기 위해 일반적으로 칩에 냉각 팬이 제공한다.


           


 상위 Xeon Phi 5100 계는 수동 만, 현재는 "Xeon Phi 5110P"의 1 모델. Xeon Phi 5110P는 현재 특정 고객에게 출하되고 있으며, 내년 (2013 년) 1 월 28 일부터 일반에 발매된다. 카드 가격은 2,649 달러.



 Xeon Phi 5110P는 62 코어 중 60 코어가 활성화되어 있으며 동작 클럭은 1.053GHz. 각 코어가 512-bit 폭의 곱 일본 재래의 주산 벡터 유닛을 갖추고, 배정 밀도로 1,011 GFLOPS 단정이라면 그 2 배의 삶 성능을 발휘한다. 각 코어가 4 스레드의 SMT (Simultaneous Multithreading)에 대응하기 위해, 전체 칩은 즉시 240 스레드가 달린다.


 60 코어 각각 512KB 씩 L2가 제공하는 칩 전체의 L2 캐시의 양은 30MB에 달한다. 메모리 인터페이스는 512-bit의 GDDR5에서 5Gtps로 전송 피크 메모리 대역은 320GB/sec. GPU로 최고급 메모리 대역폭이다. 메모리 인터페이스는 32-bit 단위로 동작하고, 메모리 액세스 입도를 억제하고있다. 카드의 메모리는 8GB. TDP (Thermal Design Power : 열 설계 소비 전력)는 카드 225W.




 염가판의 Xeon Phi 3100 시리즈는 2013 년 상반기에 출시 될 전망. 이곳은 62 코어 중 57 코어가 활성화되어있다. 즉, 5 개의 코어가 비활성화되어있다. Xeon Phi 3100은 데이터 센터의 수동 냉각 버전이 아닌 활성 냉각 판도 준비된다. 현재 동작 클럭은 1.1GHz에서 배정밀도로 1,003 GFLOPS의 전망이다.


 L2 캐시의 양은 전체 칩은 28.5MB. 메모리 인터페이스는 384-bit에서 전송 속도는 5Gtps에서 메모리는 6GB. 피크 메모리 대역은 240GB/sec된다. TDP는 300W.


 Xeon Phi는 5100도 3100도 모두 호스트 버스는 PCI Express Gen2. 이것은 칩 설계에 들어간 단계는 아직 PCI Express Gen3가 확정되지 않은 때문이라고한다. 그러나, PCI Express Gen2하지만 전송 속도는 가속화되고있어, 호스트 버스 대역폭으로 PCI Express Gen3에 가깝다.


 시판하는 2 계열의 버전 외에, Intel은 스페셜 에디션도 제공하고있다. 현재 밝혀지고있는 것은 벤치 마크 및 Texas Advanced Computing Center (TACC)의 Stampede 위해 제공하는 SE10라는 시리즈. 이것은 61 코어를 활성화하고, 1.1GHz 동작, 352GB/sec의 메모리 대역폭, TDP 300W의 카드 다.


 Xeon Phi 5100 계와 3100 계를 비교하면 명료 한 것은, 최고 성능으로 차별화하는 것이 아니라, 메모리 대역 & 양과 TDP로 차별화를 꾀하고있는 점. 5110P와 3120A는 모두 1,000 GFLOPS 이상의 성능이지만, 5100 계는 메모리 인터페이스가 넓고, TDP가 75 %로 낮다. HPC에서 가치가있는 것은 실제 응용 프로그램의 성능에 미치는 영향이 큰 메모리와 서버 센터의 운영 비용에 큰 영향을 전력이기 때문이다.





●그래픽스 유닛이 남는 Knights Corner의 다이 

 

Knights Corner와 전생대의 Knights Ferry의 다이(반도체 본체)는 아래의 그림과 같이 된다.무엇보다, Knights Corner의 다이의 종횡비는, 정확하지 않다.Intel이 공개하고 있는 다이 사진에 퍼스가 걸려 있고, 정확한 종횡비를 판별하는 것이 어렵기 때문이다.또, Knights Corner와 Knights Ferry의 die size의 비율도 정확한 것은 아니다.현상으로 밝혀지는 것은, CPU 코어의 수나 배치 등이다.




Knights Corner와 Knights Ferry의 CPU 코어는, 기본적으로는 동계열의 마이크로 아키텍쳐다.그러나, Knights Ferry는 45 nm프로세스로, Knights Corner는 22 nm로 프로세스 세대적으로는 2세대의 차이가 있다. 게다가 캐시 기억 장치의 양에도 차이가 있다.Knights Ferry의 CPU 코어는 256 KB의 전용 L2캐쉬를 갖추고 있지만, Knights Corner는 2배의 512 KB의 L2를 갖추고 있다.캐쉬량의 차이도 있어, Knights Corner의 CPU 코어가 홀쪽한 레이아웃이 되고 있다.


 Knights Corner에서는, 다이상에 합계로 62개의 CPU 코어가 배치되어 있는 것을 알 수 있다. 4단 구성으로, 그림중의 최상단으로부터 3단째까지가 각각 16 코어씩, 한층 더 최하단에 14 코어의 합계 62 코어다.그에 대한 Knights Ferry의 CPU 코어수는 32 코어로 약 반이 되고 있다.Knights Corner와 Knights Ferry의 어느쪽이나, 제품판으로 유효하게 되고 있는 CPU 코어수가 물리 코어수보다 적은 것은, 제품 비율 향상을 위해서 장황성을 갖게하고 있기 때문이다.몇개의 CPU 코어상에 결함이 있어, 정상적으로 동작하지 않는 CPU 코어가 있어도, 그 코어를 무효로 하는 것으로 제품으로서 출하할 수 있다.


 Knights Ferry는 원래는 그래픽 용 Larrabee 2로 계획된 다이를 전용하고 HPC (High Performance Computing)을위한 한. 따라서 그래픽 전용 유닛이다 텍스처 필터링이 탑재되어있다. "하드웨어는 Larrabee하지만 소프트웨어 계층을 HPC 용으로 한 것이 Knights Ferry이다. 그래픽 전용의 기능은 다이에 실려 있지만 사용하지 않는"라고 Intel은 설명한다. 실제로 Knights Ferry의 다이는, CPU 코어 단위 사이에 텍스처 필터링 유닛 보인다 유닛이 배치되어있다.


 흥미롭게도, Knights Corner에서도 CPU 코어 사이에 정체 불명의 유닛이 8 개 정도 배치되어있다. Intel의 링 버스는 L2 캐시에 연결되어있을 것이므로, CPU 코어에 끼워진 장치도 링 버스에 연결되어있는 것이다. 위치에서보고, I / O 계 단위가 아닌 텍스쳐 유닛의 수 한없이 높다. Intel은 "Knights Corner는 그래픽 전용 유닛은 싣고 있지 않다"라고 설명하고 있지만, 실제로 설치되어 비활성화되어있는 것으로 보인다. Knights Corner에도 여전히 텍스처 유닛이 탑재되어 있다고하면, Intel은 MIC 아키텍처의 그래픽 시장에 투입 가능성을 아직 버리지 않게된다.


●복잡한 링버스 구조의 내부 아키텍쳐 


Knights Corner의 62 개의 CPU 코어와 각 I/O 장치는 링 버스로 연결되어있다. 링 버스에 CPU 코어와 L2 캐시 쌍과 GDDR5 메모리 컨트롤러, PCI Express 버스가 연결되어있다. 링은 양방향 단방향 독립된 3 반지가있다.


 가장 큰 반지는 데이터 블록의 반지 "BL"라고하고있다. BL은 64 byte (512-bit) 폭 다만 Knights Corner 벡터 폭과 일치하고있다. 두 번째 반지는 주소 링의 "AD"로 이름 그대로 메모리 액세스 주소의 송수신에 사용된다. 세 번째는 아쿠노 레지 멘토링 "AK"에서 일관된 메시지 등을주고받는 데 사용된다.






 하지만 실제로는  쌍 양방향 링에서 62 개의 코어를 모두 연결하고있는 것은 아니다. "소프트웨어 측면에서 보면, 반지는 하나 다.하지만 물리적으로 여러 개의 연결로 구성되어 복잡하다. 자세한 내용은 말할 수 없지만, 링의 구성 최적화되어 있으며, 트래픽을 효율적으로 제어하고있다. 또한 지연 시간은 (메모리에서 캐시) 프리 페치 플레잉에서 은폐하고있다 "라고 Intel은 설명한다. 덧붙여서, Intel은 Larrabee 아키텍처 발표 때 향후 확장으로 오른쪽과 같은 복잡한 고리 구조를 발표하고있다.


 TD는 L2 캐시의 태그 디렉토리에서 각 코어마다 갖추고있다. 어떤 주소의 메모리 내용이 어떤 L2 캐시되어 있는지를 추적하고있다.


 Knights Corner의 CPU 코어 마이크로 아키텍처는 Larrabee를 거의 그대로 답습하고있다. 개별 CPU 코어는 2 명령 디코드 & 이슈의 인 오더 실행 코어 512-bit 폭의 SIMD (Single Instruction Stream, Multiple Data Stream) 유닛을 더한 구조 다. CPU 코어 자체는 취소되었다, Intel 그래픽 및 HPC 용 매니 코어 Larrabee를 답습하고있다.



프로세서 파이프 라인은 매우 얕고, 정수 연산 7 단계. PC 용 CPU 코어와 비교하면 절반 이하로 그만큼 동작 주파수의 상한은 낮다. Knights Corner는 1GHz를 약간 넘는 정도의 주파수에서 작동하는 것을 목표로하고있다. 매니 코어를 통해 성능을 향상하면서 주파수는 낮은 전력 소비를 억제하고있다.


 벡터 유닛은 512-bit 길이, 단 정밀도와 배정 밀도를 모두 지원한다. 단정밀도의 경우 16-way, 배정밀도는 8-way된다. VPU 레지스터는 512-bit 길이의 곱 재래의 주산에 대응하고 3 리드와 1 등이 가능하다. Knights Corner는 마스크 레지스터를 갖추고있어 마스크는 벡터 제어 흐름의 제어가있다. 예를 들어 16-way의 벡터의 각 레인의 스트림이 조건 적으로 각각 다른 경로로 분기하면 마스크 레지스터에서 각 레인의 분기를 판별 각 레인이 다른 경로 만 실행하도록 제어하는 . 외관상 벡터의 각 레인이 개별적으로 조건 분기하는 것으로 보인다. 마스크 레지스터는 분산 / 수집의로드 / 스토어에도 사용된다.


 Knights Corner의 코어는 32KB 씩 L1 데이터 캐시와 512KB의 개인 L2 캐시를 갖추고있다. Larrabee의 채였다 Knights Ferry와 비교하면, L2가 두배로 실제 메모리 주소를 캐시하는 "Translation Lookaside Buffer (TLB)"이 64 항목 설치되어 데이터를 예측하는 하드웨어 프리 페처 (HWP)도 추가되었다 .


 GPU와의 가장 큰 차이점은 스칼라 유닛을 갖추고있어, x86 명령을 실행할 수. 또한 현재의 GPU는 일반적으로 Single Program, Multiple Data (SPMD) 모델에서 벡터를 프로그램에 노출시키지 않는다. 그러나, MIC 아키텍처는 벡터는 비져블이다. 또한 GPU는 스레드 스케줄링은 하드웨어 제어하지만, Intel은 이것도 제어 할 수있다.


●병렬 프로세서의 퍼포먼스 업은 2. x배정도 

 위의 퍼포먼스 비교로 눈에 띄는 것은 Xeon에 대한 퍼포먼스 업이 2. x배와 비교적 소폭으로 있는 것.GPU 벤더가 기꺼이 사용하는, CPU에 대해서 10배나 100배의 업이라고 하는 비교 차트와는 크게 다르다. 이것에 대해서는, Intel의 James Reinders씨(Director, Parallel Programming Evangelist, Intel Corporation)가 심플한 예로 설명을 행했다.


 Reinders씨는 심플한 행렬 연산인 SAXPY (Single-precision real Alpha X Plus Y)를 FORTRAN 코드로 비교.우선, 통상의 컴파일로 달리게 했을 경우의 처리 시간이 67초(Xeon E5-2600 6 코어)가 되는 것을 나타냈다.

 다음에, Reinders씨는 병렬화의 지시문을 더해 컴파일 한 코드를 생성.그것을 Xeon Phi로 달리게 한 결과가 0.197초가 되는 것을 나타냈다.이만큼을 보면, CPU에 대해서 Xeon Phi의 스피드업은 약 340배가 된다.Reinders씨는, 이것은, 병렬 프로그램을 병렬 프로세서로 달리게 한 결과를, 시리얼 프로그램을 CPU로 달리게 한 결과와 비교한 것이라고 지적.CPU도 병렬화할 수 있으므로, 공평하지 않다고 설명했다.즉, GPU 메이커의 비교 숫자는, CPU측을 너무 낮게 추측해서 있다고 비판하고 있다.

 그 위에, Reinders씨는 같은 병렬화 지시문을 더해 컴파일 한 코드를, Xeon상에서 달리게 했다.그 결과를 Xeon Phi와 비교하면 2.3배의 퍼포먼스 업 밖에 되지 않으면 Reinders씨는 지적.Xeon Phi와 같은 타카나미렬화 프로세서에 의한 퍼포먼스 향상은, 실제로는 2. x 배가 된다고 설명했다.


 또, Reinders씨는, Intel Xeon Phi에서는, 2. x배의 퍼포먼스 업을, 지시문을 더하는 것만으로 얻을 수 있기 위해, 핸드 코딩에 의한 최적화가 불필요하고,프로그래밍의 효율이 높다고 설명했다.Intel은, 이 연구의 논문도 발표하고 있어 GPU의 극적인 퍼포먼스 업은 허구라고 반론하고 있다.또, Intel은 Xeon Phi의 이점으로서 단체로 스칼라 코드와 벡터 코드의 양쪽 모두를 작동 할 수 있는 일도 강조하고 있다.

 이 부분은, MIC 아키텍쳐대 GPU 아키텍쳐로 가장 논의가 있는 (곳)중에, 현재, Intel과 NVIDIA가 언쟁을 펼치고 있다.어느쪽이나, 어느 정도 자사에 적당한 유도를 하고 있다.그러나, 일정한 입도의 벡터에 의한 병렬 프로세서화를 도입하지 않는 한, 퍼포먼스/전력의 향상을 바랄 수 없다고 하는 점에서는 일치하고 있다.


●Xeon Phi의 Stampede은 아직 풀 가동전 


 현재 상태로서는, 톱 500은 위로부터, NVIDIA, IBM, 후지쯔에서, Intel은 그 아래가 되고 있다.Intel은, 지금부터 실증해 갈 필요가 있다.최초의 광고탑인 Xeon Phi의 Stampede은 Linpack 2.66 PFLOPS로, 톱의 ORNL의 Cray/NVIDIA Titan은 17.59 PFLOPS.Intel은 아직, 차이를 벌일 수 있고 있다.


 무엇보다, Stampede은, 아직 풀 가동 상태가 아니고, 2013년 1월에 완성할 예정의 이니셜 시스템에서는, 피크 퍼포먼스는 거의 10 PFLOPS 근처에 이른다고 한다.이른바 10 페타마신의 레벨이다.완성 시점에서는, 합계로 6,400기의 Xeon E5듀얼 소켓 노드(12,800개의 CPU)와 6,400매의 Xeon Phi 카드로 구성될 예정이다.


 피크 퍼포먼스적으로는, 2 PFLOPS 이상을 Xeon가, 7 PFLOPS 이상을 Xeon Phi가 담당한다.계산상은 Xeon Phi의 퍼포먼스가 부족할 것이지만, 그런데도 9 PFLOPS에는 달할 것이다.완성하면, 합계 182 락으로 6 MW의 전력의 시스템이 된다.


 현시점의 톱 500으로의 Stampede은, 합계 204,900 코어로 피크가 3,959 TFLOPS가 되고 있다.역산하면, 2 소켓의 Xeon와 1 Xeon Phi의 노드가 약 2,600개라고 하는 계산이 된다.즉, 아직 풀 가동의 반이하의 구성으로의 벤치마크 결과로 7위의 스코아에 이른 것이 된다.풀 가동하면, 경에는 미치지 않지만, Linpack 6 PFLOPS 클래스에는 도달할 것 같다.


 이렇게 해 보면, HPC로의 싸움은, Intel에 있어서 아직 시작되었던 바로 직후인 것을 알 수 있다.MIC 아키텍쳐의 진가가 시험 받는 것은 향후다



8+6핀의 외부전원을 필요로하며 TDP는 300W

반응형

댓글