打印

[硬件] What comes after Piledriver?

引用:
原帖由 qcmadness 於 2012-4-15 22:41 發表

我指既係external ISA, 你而家係指定要用邊個先用邊個, 要software揀定用邊個

hardware做到幫你揀埋, 咪唔駛咁難咁tune個complier
依家 HSA 咪 compile to HSA IL...

TOP

引用:
原帖由 qcmadness 於 2012-4-15 22:42 發表

AMD唔會咁既resource
但佢地就係做緊。

HSA.

TOP

引用:
原帖由 qcmadness 於 2012-4-15 22:43 發表

certainly a failure
Let's see then.

TOP

引用:
原帖由 qcmadness 於 2012-4-15 22:42 發表

就算Intel都攪唔掂 (GPU part)
你天真地以為AMD做到?

NVIDIA都一樣辛苦
我覺得係又係兩回事。

Intel 自己搞 Graphics Pipeline on Many CPU cores with only texture unit 係佢自己既事,搞 Graphics 無 Graphics Fixed-function Unit 所以先 epic fail。至於 Heterogeneous Computing... Intel 根本都未推過普及產品,得 Ivy Bridge 先叫開始普及 (OpenCL support)。同 AMD 要做既野無衝突。得 Nvidia 係同 AMD 一樣走緊相近既路。

TOP

引用:
原帖由 Henry 於 2012-4-15 23:01 發表

我想知有無人而家寫Program會睇Assembly code甚至Machine code,有無計過CPU/GPU每個需時幾耐,有幾多Overhead,應該點樣配合之類?
無,大多都係 critical path 先會用 asm 寫,你可以睇下 x264 codec 既 source code.

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:07 發表
GPU既優勢係建基於more restriction on coding
CPU既優勢係建基於more die resource (即係容許多d transistor per thread) ...
GPU 既優勢既建基於 simple control unit + wider execution unit
CPU 既優勢既建基於 complex control unit + high ILP + low-latency cache

Restriction in language features depends on implementation. 以往既 Cluase-based ISA + Global Control Flow Unit 好難做到 Virtual function 之類既野.

[ 本帖最後由 Puff 於 2012-4-15 23:13 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:13 發表


原因係你唔駛memory / cache hierarchy, 又唔駛做咁多compatibility issue
GPU 解決 compatibility issue 係通過 LLVM/low-level machine. 然後所有新代既 GPU 一樣有 cache hierarchy.
引用:
所以per GFlops既efficiency低
無問題架。重點係你跑乜 workload. CPU 既優勢就係 dynamic branching + speedy. 如果你整段 serial + branchy 既 code 放上 GPU 跑咪一樣死。

TOP

引用:
原帖由 Henry 於 2012-4-15 23:06 發表

NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時 ...
唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:16 發表

所以咪transistor count升得咁快
因為 GPU 既 nature 係 latency-tolerant,所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance,無 CPU 要求咁高,自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hierarchy 嘛。

[ 本帖最後由 Puff 於 2012-4-15 23:20 編輯 ]

TOP

引用:
原帖由 Henry 於 2012-4-15 23:20 發表

但Serial係咪全部可以用Parallel取代?
Of course not. That's why you need a CPU.
再擴充條問題:係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度?唔係。

所以 CPU 依然要 vector unit.

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:21 發表

所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同
Intel 做法同 AMD 差唔多,只不過隔左層 LLC. Texture Read/Raster Ops 一樣會 Bypass LLC allocation.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:24 發表

Bulldozer is going that way
Bulldozer is NOT going that way.

TOP

引用:
原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
Latency-tolerant 係一個形容詞,GPU 通過上百上千條硬體線程黎 cover 高延遲。
CPU 一般係 Latency-sensitive. 因為講求 single-core performance.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:26 發表

Higher latency
Emphasis in throughput
The latency of Bulldozer is not that high when comparing to GPU.
This is the key difference between CPU and GPU.

TOP

引用:
原帖由 Henry 於 2012-4-15 23:27 發表

無錯,但可唔可以令CPU Latency-tolerant?
唔得既話,點解?
可以,SMT 或者 SoEMT 咪得。

TOP