打印

[硬件] What comes after Piledriver?

引用:
原帖由 qcmadness 於 2012-4-15 23:26 發表

Higher latency
Emphasis in throughput
The latency of Bulldozer is not that high when comparing to GPU.
This is the key difference between CPU and GPU.

TOP

引用:
原帖由 Henry 於 2012-4-15 23:26 發表

所以CPU先有AVX指令既出現......
但係SSEx / AVX / FMA先最容易放上GPU

TOP

引用:
原帖由 Puff 於 2012-4-15 23:27 發表

The latency of Bulldozer is not that high when comparing to GPU.
This is the key difference between CPU and GPU.
你熄哂L3 / L2同埋pre-fetch睇下

TOP

引用:
原帖由 Henry 於 2012-4-15 23:27 發表

無錯,但可唔可以令CPU Latency-tolerant?
唔得既話,點解?
可以,SMT 或者 SoEMT 咪得。

TOP

引用:
原帖由 Puff 於 2012-4-15 23:28 發表

可以,SMT 或者 SoEMT 咪得。
SMT加既latency唔多

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:28 發表

你熄哂L3 / L2同埋pre-fetch睇下
CPU 既重點係 low-latency cache,熄左佢有鬼用。

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:28 發表

你熄哂L3 / L2同埋pre-fetch睇下
Intel靠Pre-fetch食飯喎.
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:29 發表

SMT加既latency唔多
Cover latency,唔係加 Latency.

TOP

引用:
原帖由 Puff 於 2012-4-15 23:29 發表

CPU 既重點係 low-latency cache,熄左佢有鬼用。
你話bulldozer latency唔高嘛

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:30 發表

你話bulldozer latency唔高嘛
關乜事?

TOP

引用:
原帖由 Henry 於 2012-4-15 23:29 發表
Intel靠Pre-fetch食飯喎.
其實... IPC都係1.0左右

TOP

引用:
原帖由 Puff 於 2012-4-15 23:30 發表

關乜事?
咁如果GPU有番相應pre-fetch, 或者CPU pre-fetch俾GPU咪hide到latency

TOP

引用:
原帖由 Puff 於 2012-4-15 23:28 發表

可以,SMT 或者 SoEMT 咪得。
而家CPU都唔係得一個Core,SMT都有,但結果點?
好似SB-E咁,一個CPU就16-24條Thread,但都唔算得上latency tolerant(Cache independent)
得8個Core點解要20MB L3?
ロストックで風を攫うや思い出す

TOP

引用:
原帖由 qcmadness 於 2012-4-15 23:31 發表

咁如果GPU有番相應pre-fetch, 或者CPU pre-fetch俾GPU咪hide到latency
Good point. 有 paper 做過呢樣野。但係問題係 Prefetching for GPU 值唔值得你咁做,當你有 1000k 個 work-items 加埋係 scattered data 諸如此類。

TOP

引用:
原帖由 Henry 於 2012-4-15 23:33 發表

而家CPU都唔係得一個Core,SMT都有,但結果點?
好似SB-E咁,一個CPU就16-24條Thread,但都唔算得上latency tolerant(Cache independent)
得8個Core點解要20MB L3?
L3係server application je...

TOP