打印

[硬件] What comes after Piledriver?

引用:
原帖由 Puff 於 2012-4-15 22:40 發表
然後我從頭到尾都唔明點解唔可以有 software interception. Multi-core 都要有 software interception 啦。
我想知有無人而家寫Program會睇Assembly code甚至Machine code,有無計過CPU/GPU每個需時幾耐,有幾多Overhead,應該點樣配合之類?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 22:48 發表

我覺得係又係兩回事。

Intel 自己搞 Graphics Pipeline on Many CPU cores with only texture unit 係佢自己既事,搞 Graphics 無 Graphics Fixed-function Unit 所以先 epic fail。至於 Heterogeneous Computing... ...
NV同AMD係想用GPU取代CPU.
AMD個CPU部門唔夠Intel鬥,要避重就輕,另覓路徑.
不過GPU係咪真係可以取代CPU?:shakehand

CPU: 低量複雜工作
GPU: 大量簡單工作
當然最後都想做到一個架構係可以處理到大量複雜工作既時候,GPU係咪真係有全部優勢?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:05 發表

應該唔多, OpenCL會比較好d
而家D Display卡都開始支援OpenCL,CPU自己都有辦法跑Open CL Code.
但一跑Open CL兩者個Overhead會有幾多?

http://www.streamcomputing.eu/bl ... he-cpu-avx-and-sse/
道出CPU過GPU係好花時間,就算CPU裡面L1/2/3好快,但RAM就變成瓶頸.
(LGA2011個4 Channel可能係為CPU/GPU做準備,令頻寬可以貼近GPU,係多Core(>8)既時候減少瓶頸)
Intel係Sandybridge Share L3個原因以Fusion個角度某程度係可以理解.

始終現實唔係所有時間都係分開運算,Mixed既情況會比較多.
兩者之間個資料延遲就變成關鍵.(等仲多過做,不如等CPU/GPU做曬)
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:17 發表

唔係咁分... 係 parallel workload 同 serial workload... 主要睇個 problem 係咪可以平行化黎做。即係承上題同獨立兩題既分別。
但Serial係咪全部可以用Parallel取代?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:19 發表

因為 GPU 既 nature 係 latency-tolerant,所以 Cache 對於 GPU 黎講係 coherency + accelerate RAW performance,無 CPU 要求咁高,自然可以堆 transistor. 但掉轉睇咪 low clock speed.

CPU 講求 speedy 仲有 cache hi ...
咁GPU個Latency-tolerant可唔可以放落CPU到?咁CPU都可以堆多核.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:22 發表

Of course not. That's why you need a CPU.
再擴充條問題:係咪全部 CPU Vector Workload 既平行度都可以達到可以放上 GPU 既程度?唔係。

所以 CPU 依然要 vector unit. ...
所以CPU先有AVX指令既出現......
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:25 發表

Latency-tolerant 係一個形容詞。容忍高延遲。CPU 一般係 Latency-sensitive.
無錯,但可唔可以令CPU Latency-tolerant?
唔得既話,點解?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:28 發表

你熄哂L3 / L2同埋pre-fetch睇下
Intel靠Pre-fetch食飯喎.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:28 發表

可以,SMT 或者 SoEMT 咪得。
而家CPU都唔係得一個Core,SMT都有,但結果點?
好似SB-E咁,一個CPU就16-24條Thread,但都唔算得上latency tolerant(Cache independent)
得8個Core點解要20MB L3?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:30 發表

其實... IPC都係1.0左右
咁點解BD慢咁多啊.....
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:33 發表

Good point. 有 paper 做過呢樣野。但係問題係 Prefetching for GPU 值唔值得你咁做,當你有 1000k 個 work-items 加埋係 scattered data 諸如此類。
所以GPU個RAM頻寬奇廣,就係餵唔夠就出事.
個人覺得,GPU個384/512bit GDDR5某程度係Cache多過RAM.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:35 發表

當你達到 4-way, 8-way 甚至 16-way 既時候咪得。
當你有 2-way SMT 既時候,就等於要 Cover 既 Latency 減半,不過相對黎講 Execution Time 多一倍咁解。

而且對於 Serial Workload 無好處。 ...
我真係想知幾時會見到CPU個RAM頻寬好似GPU咁多,然後Parallelism就開始推上去好似GPU咁.
但就保持CPU應有既IO同其他各種指令既處理能力.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:48 發表

memory pad用既die size唔小, Intel / AMD唔會咁放資源落去
既然Puff講到Parallelism應該可以減低Latency個效能損失,L2/3應該可以唔洗放咁多,從而減少Die size.
Memory pad就頂上L2/3個位.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 Puff 於 2012-4-15 23:53 發表

... data reuse & temporal locailty. 而且 parallelism 同 latency 無直接關係。係遠因同後果。
咁你都知啦.
GPU要同CPU一做架構上既Fusion,CPU會面對GPU既問題,GPU亦都會面對CPU既問題.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:55 發表

以前d人話K8係有好大既L3 cache (memory)
但當K10/Nehalem出左之後, 就無人咁講了
CPU一有High parallelism結果個Cache一樣越來越多.......
ロストックで風を攫うや思い出す

TOP