打印

[硬件] What comes after Piledriver?

引用:
原帖由 Puff 於 2012-4-15 22:42 發表

但佢地就係做緊。

HSA.
certainly a failure

TOP

引用:
原帖由 Henry 於 2012-4-15 23:01 發表

我想知有無人而家寫Program會睇Assembly code甚至Machine code,有無計過CPU/GPU每個需時幾耐,有幾多Overhead,應該點樣配合之類?
應該唔多, OpenCL會比較好d

TOP

引用:
原帖由 Henry 於 2012-4-15 23:06 發表

NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時 ...
當年就係AMD知道Intel會玩埋GPU (Larabee) 先買ATi, 唔係AMD唔買ATi的

GPU既優勢係建基於more restriction on coding
CPU既優勢係建基於more die resource (即係容許多d transistor per thread)

TOP

引用:
原帖由 Puff 於 2012-4-15 23:11 發表
GPU 既優勢既建基於 simple control unit + wider execution unit
原因係你唔駛memory / cache hierarchy, 又唔駛做咁多compatibility issue
引用:
原帖由 Puff 於 2012-4-15 23:11 發表
CPU 既優勢既建基於 complex control unit + high ILP + low-latency cache
所以per GFlops既efficiency低

TOP

引用:
原帖由 Puff 於 2012-4-15 23:15 發表

GPU 解決 compatibility issue 係通過 LLVM/low-level machine. 然後所有新代既 GPU 一樣有 cache hierarchy.

無問題架。重點係你跑乜 workload. CPU 既優勢就係 dynamic branching + speedy. 如果你整段 serial  ...
所以咪transistor count升得咁快

TOP

引用:
原帖由 Henry 於 2012-4-15 23:17 發表

而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時 ...
所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同

TOP

引用:
原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
Bulldozer is going that way

TOP

引用:
原帖由 Puff 於 2012-4-15 23:24 發表

Bulldozer is NOT going that way.
Higher latency
Emphasis in throughput

TOP

引用:
原帖由 Henry 於 2012-4-15 23:26 發表

所以CPU先有AVX指令既出現......
但係SSEx / AVX / FMA先最容易放上GPU

TOP

引用:
原帖由 Puff 於 2012-4-15 23:27 發表

The latency of Bulldozer is not that high when comparing to GPU.
This is the key difference between CPU and GPU.
你熄哂L3 / L2同埋pre-fetch睇下

TOP

引用:
原帖由 Puff 於 2012-4-15 23:28 發表

可以,SMT 或者 SoEMT 咪得。
SMT加既latency唔多

TOP

引用:
原帖由 Puff 於 2012-4-15 23:29 發表

CPU 既重點係 low-latency cache,熄左佢有鬼用。
你話bulldozer latency唔高嘛

TOP

引用:
原帖由 Henry 於 2012-4-15 23:29 發表
Intel靠Pre-fetch食飯喎.
其實... IPC都係1.0左右

TOP

引用:
原帖由 Puff 於 2012-4-15 23:30 發表

關乜事?
咁如果GPU有番相應pre-fetch, 或者CPU pre-fetch俾GPU咪hide到latency

TOP

引用:
原帖由 Henry 於 2012-4-15 23:33 發表

而家CPU都唔係得一個Core,SMT都有,但結果點?
好似SB-E咁,一個CPU就16-24條Thread,但都唔算得上latency tolerant(Cache independent)
得8個Core點解要20MB L3?
L3係server application je...

TOP