打印

[硬件] First Details of Steamroller

引用:
原帖由 qcmadness 於 2012-8-30 02:17 發表

睇緊, 應該你對

不過既然Intel都reuse 128-bit unit做256-bit野
AMD都有可能係reuse FMAC做ALU野
Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword parallelism & explicit vector ISA 的關係,大概是沒那個條件可以玩 reuse.
依家就係 floating-point bitwise 用 integer unit 做。e.g. PAND, POR

[ 本帖最後由 Puff 於 2012-8-30 02:22 編輯 ]

TOP

引用:
原帖由 Puff 於 2012-8-30 02:20 發表

Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword paralle ...
暫時來講, 256-bit width未係需要

講番SR, 如果最終係P2同P3二合為一, 應該係睇左software utilization過低 (上次咁做係VLIW-5 > VLIW-4),
先會咁cut, 因為一用到, 其實penalty應該唔細, 雖則話係deep pipelined FPU, 1次branch mis-predict足以致命

TOP

引用:
原帖由 Puff 於 2012-8-30 02:20 發表

Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword paralle ...
就咁睇latency table, 留P3好過留P2

TOP

引用:
原帖由 qcmadness 於 2012-8-30 02:23 發表

暫時來講, 256-bit width未係需要

講番SR, 如果最終係P2同P3二合為一, 應該係睇左software utilization過低 (上次咁做係VLIW-5 > VLIW-4),
先會咁cut, 因為一用到, 其實penalty應該唔細, 雖則話係deep pipelined F ...
真心唔覺低,我嫌佢 integer pipe 少添呀
x264 IPC=2.0 inst.latency=2 仲可以 low utilization 就真係食香蕉.
diagram 都是拿來騙人的,正如張圖都無同你講佢有 crossbar unit.



[ 本帖最後由 Puff 於 2012-8-30 02:32 編輯 ]

TOP

引用:
原帖由 Puff 於 2012-8-30 02:29 發表

真心唔覺低,我嫌佢 integer pipe 少添呀
x264 IPC=2.0 inst.latency=2 仲可以 low utilization 就真係食香蕉
如果真係高, 就唔會提議話cut MMX pipeline
或者係繼續P0-P3, 但係P3得番FMISC/FSTO, P2繼續MMX

TOP

引用:
原帖由 Puff 於 2012-8-30 02:29 發表

diagram 都是拿來騙人的,正如張圖都無同你講佢有 crossbar unit.

...
咁計P0都要寫IMAC
P2都要寫FSTO/FMISC

TOP

引用:
原帖由 qcmadness 於 2012-8-30 02:32 發表

如果真係高, 就唔會提議話cut MMX pipeline
或者係繼續P0-P3, 但係P3得番FMISC/FSTO, P2繼續MMX
引用:
There’s no change in the execution capabilities of the FPU, but there’s a reduction in overall area. The MMX unit now shares some hardware with the 128-bit FMAC pipes.
Was it cut? Well, there is no certain answer until the pipe mapping is out.
"shares some hardware" could be sharing the issue port.

[ 本帖最後由 Puff 於 2012-8-30 02:36 編輯 ]

TOP

引用:
原帖由 Puff 於 2012-8-30 02:35 發表
Was it cut? Well, there is no certain answer until the pipe mapping is out.
"shares some hardware" could be sharing the issue port.
share issue port只係會減低port number, 減少的die size唔會太多

TOP

引用:
原帖由 qcmadness 於 2012-8-30 02:37 發表

share issue port只係會減低port number, 減少的die size唔會太多
減少 # issue port 可以減少 scheduler complexity,外加 register & forwarding network complexity reduces.

TOP

引用:
原帖由 Puff 於 2012-8-30 02:38 發表

減少 # issue port 可以減少 scheduler complexity,外加 register & forwarding network complexity reduces.
呢個係, 但係影響唔係想像中咁大, share port一樣要加番transistor

反而攪攪個FPU scheduler可以同時收2個INT core的FPU instruction好過啦

TOP

AMD Nice Photoshop
附件: 您所在的用戶組無法下載或查看附件
天然系長髮眼鏡娘 最高
Lucky Star 聯盟 - 美幸
Kancolle - 大淀, 翔鶴 (太太), 烏海 , 瑞鶴

TOP

引用:
原帖由 dom 於 2012-8-30 15:41 發表
AMD Nice Photoshop
呢個唔係一個靚位比你抽水。

TOP

引用:
原帖由 Puff 於 2012/8/30 17:43 發表

呢個唔係一個靚位比你抽水。
I have no hope AMD will win again
AMD just barely able to keep  in fight

TOP

arm arm發覺, Steamroller將會同Netburst走完全唔同的路

TOP