打印

[硬件] What comes after Piledriver?

qcmadness

管理員

Rank: 10

吹水部屋

PM
加為好友
當前離線

106^# 大中小發表於 2012-4-15 23:16 只看該作者

引用:

原帖由 Puff 於 2012-4-15 23:15 發表

GPU 解決 compatibility issue 係通過 LLVM/low-level machine. 然後所有新代既 GPU 一樣有 cache hierarchy.
無問題架。重點係你跑乜 workload. CPU 既優勢就係 dynamic branching + speedy. 如果你整段 serial ...

所以咪transistor count升得咁快

http://bbs.hk-spot.com

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

107^# 大中小發表於 2012-4-15 23:17 只看該作者

引用:

原帖由 Henry 於 2012-4-15 23:06 發表

NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時 ...

唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。

TOP

Henry

吹水部屋OC Team

Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7

亨利

PM
加為好友
當前離線

108^# 大中小發表於 2012-4-15 23:17 只看該作者

引用:

原帖由 qcmadness 於 2012-4-15 23:05 發表

應該唔多, OpenCL會比較好d

而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時間,就算CPU裡面L1/2/3好快,但RAM就變成瓶頸.
(LGA2011個4 Channel可能係為CPU/GPU做準備,令頻寬可以貼近GPU,係多Core(>8)既時候減少瓶頸)
Intel係Sandybridge Share L3個原因以Fusion個角度某程度係可以理解.

始終現實唔係所有時間都係分開運算,Mixed既情況會比較多.
兩者之間個資料延遲就變成關鍵.(等仲多過做,不如等CPU/GPU做曬)

ロストックで風を攫うや思い出す

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

109^# 大中小發表於 2012-4-15 23:19 只看該作者

引用:

原帖由 qcmadness 於 2012-4-15 23:16 發表

所以咪transistor count升得咁快

因為 GPU 既 nature 係 latency-tolerant，所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance，無 CPU 要求咁高，自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hierarchy 嘛。

[ 本帖最後由 Puff 於 2012-4-15 23:20 編輯 ]

TOP

Henry

吹水部屋OC Team

Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7

亨利

PM
加為好友
當前離線

110^# 大中小發表於 2012-4-15 23:20 只看該作者

引用:

原帖由 Puff 於 2012-4-15 23:17 發表

唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。

但Serial係咪全部可以用Parallel取代?

ロストックで風を攫うや思い出す

TOP

qcmadness

管理員

Rank: 10

吹水部屋

PM
加為好友
當前離線

111^# 大中小發表於 2012-4-15 23:21 只看該作者

引用:

原帖由 Henry 於 2012-4-15 23:17 發表

而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時 ...

所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同

http://bbs.hk-spot.com

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

112^# 大中小發表於 2012-4-15 23:22 只看該作者

引用:

原帖由 Henry 於 2012-4-15 23:20 發表

但Serial係咪全部可以用Parallel取代?

Of course not. That's why you need a CPU.
再擴充條問題：係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度？唔係。

所以 CPU 依然要 vector unit.

TOP

Henry

吹水部屋OC Team

Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7

亨利

PM
加為好友
當前離線

113^# 大中小發表於 2012-4-15 23:23 只看該作者

引用:

原帖由 Puff 於 2012-4-15 23:19 發表

因為 GPU 既 nature 係 latency-tolerant，所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance，無 CPU 要求咁高，自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hi ...

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.

ロストックで風を攫うや思い出す

TOP

qcmadness

管理員

Rank: 10

吹水部屋

PM
加為好友
當前離線

114^# 大中小發表於 2012-4-15 23:24 只看該作者

引用:

原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.

Bulldozer is going that way

http://bbs.hk-spot.com

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

115^# 大中小發表於 2012-4-15 23:24 只看該作者

引用:

原帖由 qcmadness 於 2012-4-15 23:21 發表

所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同

Intel 做法同 AMD 差唔多，只不過隔左層 LLC. Texture Read/Raster Ops 一樣會 Bypass LLC allocation.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

116^# 大中小發表於 2012-4-15 23:24 只看該作者

引用:

原帖由 qcmadness 於 2012-4-15 23:24 發表

Bulldozer is going that way

Bulldozer is NOT going that way.

TOP

Puff

水王

Rank: 4 Rank: 4 Rank: 4 Rank: 4

PM
加為好友
當前離線

117^# 大中小發表於 2012-4-15 23:25 只看該作者

引用:

原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.

Latency-tolerant 係一個形容詞，GPU 通過上百上千條硬體線程黎 cover 高延遲。
CPU 一般係 Latency-sensitive. 因為講求 single-core performance.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

qcmadness

管理員

Rank: 10

吹水部屋

PM
加為好友
當前離線

118^# 大中小發表於 2012-4-15 23:26 只看該作者

引用:

原帖由 Puff 於 2012-4-15 23:24 發表

Bulldozer is NOT going that way.

Higher latency
Emphasis in throughput

http://bbs.hk-spot.com

TOP

Henry

吹水部屋OC Team

Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7 Rank: 7

亨利

PM
加為好友
當前離線

119^# 大中小發表於 2012-4-15 23:26 只看該作者

引用:

原帖由 Puff 於 2012-4-15 23:22 發表

Of course not. That's why you need a CPU.
再擴充條問題：係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度？唔係。

所以 CPU 依然要 vector unit. ...

所以CPU先有AVX指令既出現......