打印

[硬件] What comes after Piledriver?

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

46^# 大中小發表於 2012-4-15 22:42 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 22:41 發表

我指既係external ISA, 你而家係指定要用邊個先用邊個, 要software揀定用邊個

hardware做到幫你揀埋, 咪唔駛咁難咁tune個complier

依家 HSA 咪 compile to HSA IL...

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

47^# 大中小發表於 2012-4-15 22:42 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 22:42 發表

AMD唔會咁既resource

但佢地就係做緊。

HSA.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

48^# 大中小發表於 2012-4-15 22:44 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 22:43 發表

certainly a failure

Let's see then.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

49^# 大中小發表於 2012-4-15 22:48 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 22:42 發表

就算Intel都攪唔掂 (GPU part)
你天真地以為AMD做到?

NVIDIA都一樣辛苦

我覺得係又係兩回事。

Intel 自己搞 Graphics Pipeline on Many CPU cores with only texture unit 係佢自己既事，搞 Graphics 無 Graphics Fixed-function Unit 所以先 epic fail。至於 Heterogeneous Computing... Intel 根本都未推過普及產品，得 Ivy Bridge 先叫開始普及 (OpenCL support)。同 AMD 要做既野無衝突。得 Nvidia 係同 AMD 一樣走緊相近既路。

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

50^# 大中小發表於 2012-4-15 23:09 顯示全部帖子

引用:

原帖由 Henry 於 2012-4-15 23:01 發表

我想知有無人而家寫Program會睇Assembly code甚至Machine code,有無計過CPU/GPU每個需時幾耐,有幾多Overhead,應該點樣配合之類?

無，大多都係 critical path 先會用 asm 寫，你可以睇下 x264 codec 既 source code.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

51^# 大中小發表於 2012-4-15 23:11 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:07 發表
GPU既優勢係建基於more restriction on coding
CPU既優勢係建基於more die resource (即係容許多d transistor per thread) ...

GPU 既優勢既建基於 simple control unit + wider execution unit
CPU 既優勢既建基於 complex control unit + high ILP + low-latency cache

Restriction in language features depends on implementation. 以往既 Cluase-based ISA + Global Control Flow Unit 好難做到 Virtual function 之類既野.

[ 本帖最後由 Puff 於 2012-4-15 23:13 編輯 ]

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

52^# 大中小發表於 2012-4-15 23:15 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:13 發表

原因係你唔駛memory / cache hierarchy, 又唔駛做咁多compatibility issue

GPU 解決 compatibility issue 係通過 LLVM/low-level machine. 然後所有新代既 GPU 一樣有 cache hierarchy.

引用:

所以per GFlops既efficiency低

無問題架。重點係你跑乜 workload. CPU 既優勢就係 dynamic branching + speedy. 如果你整段 serial + branchy 既 code 放上 GPU 跑咪一樣死。

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

53^# 大中小發表於 2012-4-15 23:17 顯示全部帖子

引用:

原帖由 Henry 於 2012-4-15 23:06 發表

NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時 ...

唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

54^# 大中小發表於 2012-4-15 23:19 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:16 發表

所以咪transistor count升得咁快

因為 GPU 既 nature 係 latency-tolerant，所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance，無 CPU 要求咁高，自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hierarchy 嘛。

[ 本帖最後由 Puff 於 2012-4-15 23:20 編輯 ]

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

55^# 大中小發表於 2012-4-15 23:22 顯示全部帖子

引用:

原帖由 Henry 於 2012-4-15 23:20 發表

但Serial係咪全部可以用Parallel取代?

Of course not. That's why you need a CPU.
再擴充條問題：係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度？唔係。

所以 CPU 依然要 vector unit.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

56^# 大中小發表於 2012-4-15 23:24 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:21 發表

所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同

Intel 做法同 AMD 差唔多，只不過隔左層 LLC. Texture Read/Raster Ops 一樣會 Bypass LLC allocation.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

57^# 大中小發表於 2012-4-15 23:24 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:24 發表

Bulldozer is going that way

Bulldozer is NOT going that way.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

58^# 大中小發表於 2012-4-15 23:25 顯示全部帖子

引用:

原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.

Latency-tolerant 係一個形容詞，GPU 通過上百上千條硬體線程黎 cover 高延遲。
CPU 一般係 Latency-sensitive. 因為講求 single-core performance.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

59^# 大中小發表於 2012-4-15 23:27 顯示全部帖子

引用:

原帖由 qcmadness 於 2012-4-15 23:26 發表

Higher latency
Emphasis in throughput

The latency of Bulldozer is not that high when comparing to GPU.
This is the key difference between CPU and GPU.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

60^# 大中小發表於 2012-4-15 23:28 顯示全部帖子

引用:

原帖由 Henry 於 2012-4-15 23:27 發表

無錯,但可唔可以令CPU Latency-tolerant?
唔得既話,點解?

可以，SMT 或者 SoEMT 咪得。

TOP

75 ‹‹1 2 345 ››

當前時區 GMT+8, 現在時間是 2026-3-7 11:24

清除 Cookies - 聯繫我們 - 幫助 - 界面風格

Processed in 0.008959 Second(s), 9 Queries, Gzip enabled.