打印

[硬件] What comes after Piledriver?

引用:
原帖由 qcmadness 於 2012-4-15 23:28 發表

你熄哂L3 / L2同埋pre-fetch睇下
CPU 既重點係 low-latency cache,熄左佢有鬼用。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:29 發表

SMT加既latency唔多
Cover latency,唔係加 Latency.

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:30 發表

你話bulldozer latency唔高嘛
關乜事?

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:31 發表

咁如果GPU有番相應pre-fetch, 或者CPU pre-fetch俾GPU咪hide到latency
Good point. 有 paper 做過呢樣野。但係問題係 Prefetching for GPU 值唔值得你咁做,當你有 1000k 個 work-items 加埋係 scattered data 諸如此類。

TOP

引用:
原帖由 Henry 於 2012-4-15 23:33 發表

而家CPU都唔係得一個Core,SMT都有,但結果點?
好似SB-E咁,一個CPU就16-24條Thread,但都唔算得上latency tolerant(Cache independent)
得8個Core點解要20MB L3?
當你達到 4-way, 8-way 甚至 16-way 既時候咪得。
當你有 2-way SMT 既時候,就等於要 Cover 既 Latency 減半,不過相對黎講 Execution Time 多一倍咁解。

而且對於 Serial Workload 無好處。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:34 發表

所以我咪話GPU既shader可以為CPU所用, 就可以hide latency, 不過都唔係呢2-3年做到既野
但我 doubt 既就係「GPU 既 shader 可以為 CPU 所用」。或者話,就算唔好似你咁搞法都可以為 CPU 所用。
用係邊樹用黎做乜又係個問題。AMD 自己都比左三大類 workload 出黎啦。

TOP

引用:
原帖由 Henry 於 2012-4-15 23:52 發表

既然Puff講到Parallelism應該可以減低Latency個效能損失,L2/3應該可以唔洗放咁多,從而減少Die size.
Memory pad就頂上L2/3個位.
... data reuse & temporal locailty. 而且 parallelism 同 latency 無直接關係。係遠因同後果。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:42 發表

取代SSEx / AVX / FMA部分, 留番truncate / align 之類workload俾番CPU做
由頭再睇返上黎,引發點係 GPU supports C/C++. 我想講,GPU supports high-level language 係一個 scheduled feature... 唔係我既 speculation. virtual function, syscall, page fault, etc 一樣. 至於你講既果種 Fusion,我只係保留 doubtful 既態度,我最初想做既係 near-team 既 speculation.

TOP

引用:
原帖由 Henry 於 2012-4-16 00:02 發表

咁你都知啦.
GPU要同CPU一做架構上既Fusion,CPU會面對GPU既問題,GPU亦都會面對CPU既問題.
So 分開是最好的結果,大家性格都唔夾,無謂一拖再拖啦。

TOP

引用:
原帖由 qcmadness 於 2012-4-16 00:08 發表

有人追fusion係因為一旦合到, 性能升到你唔信
唔做情侶可以做伙伴,一個做 CEO,一個做 CTO. 點解一定要聯席 CEO.

TOP

引用:
原帖由 Henry 於 2012-4-16 00:09 發表

但C/C++裡面係咪GPU做得曬?
做得曬又快D既話就基本上無必要用CPU.
不過現實係咪咁遮.
只係 Language Syntax + Language Feature,無人叫你係 CPU 上面跑 memcpy 跑 malloc。我亦唔覺得 GPU 會支援呢堆 feature.

TOP

引用:
原帖由 Henry 於 2012-4-16 00:12 發表

跟住就會係分工要等幾耐.
CPU同GPU中間跑來跑去中間要等RAM/Controller可不有趣.
That's the means of APU... 然後大佬 problem 都有好多種架嘛。唔係唔理三七廿一都擲過去 GPU 搞架嘛。
如果唔係 AMD 推 task-based parallelism 既 HSA 做乜?

TOP

引用:
原帖由 qcmadness 於 2012-4-16 00:13 發表

聯席快好多
算啦,我唔想斟酌呢個話題。我最後既結語係,以我對 AMD 既認識,佢地唔似要做呢樣野。再講多 D 既話,地產公司個 Friend 話我聽,日出康城分幾期。日出康城第中間期數起既依然係兩幢野,而且中間有中庭天橋連接。最後一期都係分開兩幢,只不過親密無間,不過係屏風樓,唔係一幢樓。

至於幢樓點起,用乜料起... 我唔知。

[ 本帖最後由 Puff 於 2012-4-16 00:22 編輯 ]

TOP

引用:
原帖由 Henry 於 2012-4-16 00:18 發表

所以就係左右走中間要浪費幾多時間等變成關鍵.
可能GPU:CPU 8:2會做得最好,但GPU:CPU 2:8既時候會點?
It dependsssssss on what you are doing, and communication overhead on APU is fine, currently. It could be improved, anyway.

[ 本帖最後由 Puff 於 2012-4-16 00:28 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2012-4-16 00:28 發表

intel / amd cannot control what the user doing
they can only design hardware and tune software for the users
相互關係。You can't control but you can attract them to use.
如果唔係唔理 AMD, Nvidia 定 Intel 甚至 ARM 同 Qualcomm 佢地擲錢搞 ISV partnership 做乜.

TOP