打印

[硬件] What comes after Piledriver?

引用:
原帖由 Puff 於 2012-4-15 23:15 發表

GPU 解決 compatibility issue 係通過 LLVM/low-level machine. 然後所有新代既 GPU 一樣有 cache hierarchy.

無問題架。重點係你跑乜 workload. CPU 既優勢就係 dynamic branching + speedy. 如果你整段 serial  ...
所以咪transistor count升得咁快

TOP

引用:
原帖由 Henry 於 2012-4-15 23:06 發表

NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時 ...
唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:05 發表

應該唔多, OpenCL會比較好d
而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時間,就算CPU裡面L1/2/3好快,但RAM就變成瓶頸.
(LGA2011個4 Channel可能係為CPU/GPU做準備,令頻寬可以貼近GPU,係多Core(>8)既時候減少瓶頸)
Intel係Sandybridge Share L3個原因以Fusion個角度某程度係可以理解.

始終現實唔係所有時間都係分開運算,Mixed既情況會比較多.
兩者之間個資料延遲就變成關鍵.(等仲多過做,不如等CPU/GPU做曬)
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:16 發表

所以咪transistor count升得咁快
因為 GPU 既 nature 係 latency-tolerant,所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance,無 CPU 要求咁高,自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hierarchy 嘛。

[ 本帖最後由 Puff 於 2012-4-15 23:20 編輯 ]

TOP

引用:
原帖由 Puff 於 2012-4-15 23:17 發表

唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。
但Serial係咪全部可以用Parallel取代?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Henry 於 2012-4-15 23:17 發表

而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時 ...
所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同

TOP

引用:
原帖由 Henry 於 2012-4-15 23:20 發表

但Serial係咪全部可以用Parallel取代?
Of course not. That's why you need a CPU.
再擴充條問題:係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度?唔係。

所以 CPU 依然要 vector unit.

TOP

引用:
原帖由 Puff 於 2012-4-15 23:19 發表

因為 GPU 既 nature 係 latency-tolerant,所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance,無 CPU 要求咁高,自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hi ...
咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
Bulldozer is going that way

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:21 發表

所以share memory space同埋cache就變成重要
intel / amd既做法有d唔同
Intel 做法同 AMD 差唔多,只不過隔左層 LLC. Texture Read/Raster Ops 一樣會 Bypass LLC allocation.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:24 發表

Bulldozer is going that way
Bulldozer is NOT going that way.

TOP

引用:
原帖由 Henry 於 2012-4-15 23:23 發表

咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
Latency-tolerant 係一個形容詞,GPU 通過上百上千條硬體線程黎 cover 高延遲。
CPU 一般係 Latency-sensitive. 因為講求 single-core performance.

[ 本帖最後由 Puff 於 2012-4-15 23:26 編輯 ]

TOP

引用:
原帖由 Puff 於 2012-4-15 23:24 發表

Bulldozer is NOT going that way.
Higher latency
Emphasis in throughput

TOP

引用:
原帖由 Puff 於 2012-4-15 23:22 發表

Of course not. That's why you need a CPU.
再擴充條問題:係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度?唔係。

所以 CPU 依然要 vector unit. ...
所以CPU先有AVX指令既出現......
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:25 發表

Latency-tolerant 係一個形容詞。容忍高延遲。CPU 一般係 Latency-sensitive.
無錯,但可唔可以令CPU Latency-tolerant?
唔得既話,點解?
ロストックで風を攫うや思い出す

TOP