Board logo

標題: [硬件] First Details of Steamroller [打印本頁]

作者: qcmadness    時間: 2012-8-30 01:23     標題: First Details of Steamroller

http://www.anandtech.com/show/62 ... roller-architecture

Major improvements:
引用:



夠唔夠Haswell打? 唔知

4-way decoder doubling係浪費
作者: Puff    時間: 2012-8-30 01:53

係咪 4-way 真係唔知,除左 anandtech 之外無乜人有提係 4-way。
作者: qcmadness    時間: 2012-8-30 01:55

引用:
原帖由 Puff 於 2012-8-30 01:53 發表
係咪 4-way 真係唔知,除左 anandtech 之外無乜人有提係 4-way。
2-way一定太少
有可能3, 有可能4, 以AMD一貫做法, 4似過3 (see K7/K8/K10)

不過3其實好過4, 只係AMD唔慣咁設計
作者: BlackBird    時間: 2012-8-30 01:56

而家先有Dynamic sized Cache...

Intel's implementation : Pentium M
作者: qcmadness    時間: 2012-8-30 01:57

引用:
原帖由 BlackBird 於 2012-8-30 01:56 發表
而家先有Dynamic sized Cache...

Intel's implementation : Pentium M
因為>512KB L2 cache係舊年先開始有
作者: BlackBird    時間: 2012-8-30 02:00

引用:
原帖由 qcmadness 於 2012-8-30 01:57 發表

因為>512KB L2 cache係舊年先開始有
Q係... K8 1M L2年代又唔見加...
作者: Puff    時間: 2012-8-30 02:00

引用:
原帖由 qcmadness 於 2012-8-30 01:55 發表

2-way一定太少
有可能3, 有可能4, 以AMD一貫做法, 4似過3 (see K7/K8/K10)

不過3其實好過4, 只係AMD唔慣咁設計
係 power efficiency standpoint 就係 3-wide 囉。又有 decoded micro-op queue 喎...
不過 FPU 點運作又係個好問題,而且 FPU 疑似縮左下水,由 4 pipes 變做 3 pipes. 雖然我個人估 SIMD ALU 由兩組變三組啦。


作者: qcmadness    時間: 2012-8-30 02:01

引用:
原帖由 BlackBird 於 2012-8-30 02:00 發表

Q係... K8 1M L2年代又唔見加...
e, 係wor

K8因為領先太多了, 同埋果陣P-M都唔係出左好耐
作者: qcmadness    時間: 2012-8-30 02:02

引用:
原帖由 Puff 於 2012-8-30 02:00 發表

係 power efficiency standpoint 就係 3-wide 囉。又有 decoded micro-op queue 喎...
不過 FPU 點運作又係個好問題,而且 FPU 疑似縮左下水,由 4 pipes 變做 3 pipes. 雖然我個人估 SIMD ALU 由兩組變三組啦。

:bana ...
計埋有6個port差唔多

唔放咁多資源落MMX係好事, 起碼MMX/3D-Now/x87可以被SSE2完全取代
作者: Puff    時間: 2012-8-30 02:03

引用:
原帖由 qcmadness 於 2012-8-30 02:02 發表

計埋有6個port差唔多

唔放咁多資源落MMX係好事, 起碼MMX/3D-Now/x87可以被SSE2完全取代
MMX Unit 即係 MAL pipe,即係 Vector Integer Arithmetic, Logical Ops + Bitwise Ops... 你 Cut MMX 等於 Cut SSE Integer.



speculation: P0 [FMA|IMAC|CVT|MAL] P1 [FMA|XBAR|MAL] P2 [MAL] P3 [FSTOR]
拿,reg file 仲可以少一個 read port 同 write port.


[ 本帖最後由 Puff 於 2012-8-30 02:06 編輯 ]
作者: BlackBird    時間: 2012-8-30 02:06

引用:
原帖由 qcmadness 於 2012-8-30 02:01 發表

e, 係wor

K8因為領先太多了, 同埋果陣P-M都唔係出左好耐
Regor都係食老本

唔怪得一講電壓 idle consumption 直線下降
作者: qcmadness    時間: 2012-8-30 02:06

引用:
原帖由 Puff 於 2012-8-30 02:03 發表

MMX Unit 即係 MAL pipe,即係 Vector Integer Arithmetic, Logical Ops + Bitwise Ops... 你 Cut MMX 等於 Cut SSE Integer.
唔係的, 個FMA unit做哂SSEx的野

http://support.amd.com/us/Proces ... 5h_sw_opt_guide.pdf
Page 37
引用:
• Two 128-bit FMAC units. Each FMAC supports four single precision or two double-precision ops.
• FADDs and FMULs are implemented within the FMAC’s.
• x87 FADDs and FMULs are also handled by the FMAC.
• Each FMAC contains a variable latency divide/square root machine.

作者: Puff    時間: 2012-8-30 02:10

引用:
原帖由 qcmadness 於 2012-8-30 02:06 發表

唔係的, 個FMA unit做哂SSEx的野
Nononono.

P0 有 FMA, FCVT 同 IMAC 三個執行單元. P1 有 FMA 同 XBAR 兩個執行單元. P2 & P3 就得 MAL 執行單元.
FMA 係做所有 floating-point arithmetic & logical operations e.g. CMPPS, ADDPS, MULPS,但唔包括 bitwise operations e.g. ORPS, ANDPS.
MAL 就係做所有 integer arithmetic & logical operations,同時做埋 floating-point 既 bitwise operations. 不過 MUL/MAC 係 IMAC 既事。

唔係我老作,Optimization Guide 是如此寫的,很出名的老外 Agner 也是如此說的。
作者: Puff    時間: 2012-8-30 02:13

唉呀,你引得 SoG 就睇下 instruction latency table 啦。雖然話唔係完全準,但係 P***D/Q/W/SW/B 既 integer arithmetic instructions 絕大部份都係歸 MAL0 同 MAL1.
你引用果個 section 個 description 更加有講 In addition to the two FMACs, the FPU also contains two 128-bit integer units which perform arithmetic and logical operations on AVX, MMX and SSE packed integer data.

[ 本帖最後由 Puff 於 2012-8-30 02:17 編輯 ]
作者: qcmadness    時間: 2012-8-30 02:17

引用:
原帖由 Puff 於 2012-8-30 02:13 發表
唉呀,你引得 SoG 就睇下 instruction latency table 啦。雖然話唔係完全準,但係 P*Q/SW/B 既 integer arithmetic instructions 絕大部份都係歸 MAL0 同 MAL1.
你引用果個 section 個 description 更加有講 In addition ...
睇緊, 應該你對

不過既然Intel都reuse 128-bit unit做256-bit野
AMD都有可能係reuse FMAC做ALU野
作者: Puff    時間: 2012-8-30 02:20

引用:
原帖由 qcmadness 於 2012-8-30 02:17 發表

睇緊, 應該你對

不過既然Intel都reuse 128-bit unit做256-bit野
AMD都有可能係reuse FMAC做ALU野
Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword parallelism & explicit vector ISA 的關係,大概是沒那個條件可以玩 reuse.
依家就係 floating-point bitwise 用 integer unit 做。e.g. PAND, POR

[ 本帖最後由 Puff 於 2012-8-30 02:22 編輯 ]
作者: qcmadness    時間: 2012-8-30 02:23

引用:
原帖由 Puff 於 2012-8-30 02:20 發表

Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword paralle ...
暫時來講, 256-bit width未係需要

講番SR, 如果最終係P2同P3二合為一, 應該係睇左software utilization過低 (上次咁做係VLIW-5 > VLIW-4),
先會咁cut, 因為一用到, 其實penalty應該唔細, 雖則話係deep pipelined FPU, 1次branch mis-predict足以致命
作者: qcmadness    時間: 2012-8-30 02:26

引用:
原帖由 Puff 於 2012-8-30 02:20 發表

Intel 有無 reuse integer vector unit 做 256-bit 野我唔知,我只知道佢係 reuse integer datapath for operand MSB delivery.
而所有 FP unit 都是 256-bit width 的。

CPU 跟 GPU 不一樣,CPU 因為 subword paralle ...
就咁睇latency table, 留P3好過留P2
作者: Puff    時間: 2012-8-30 02:29

引用:
原帖由 qcmadness 於 2012-8-30 02:23 發表

暫時來講, 256-bit width未係需要

講番SR, 如果最終係P2同P3二合為一, 應該係睇左software utilization過低 (上次咁做係VLIW-5 > VLIW-4),
先會咁cut, 因為一用到, 其實penalty應該唔細, 雖則話係deep pipelined F ...
真心唔覺低,我嫌佢 integer pipe 少添呀
x264 IPC=2.0 inst.latency=2 仲可以 low utilization 就真係食香蕉.
diagram 都是拿來騙人的,正如張圖都無同你講佢有 crossbar unit.



[ 本帖最後由 Puff 於 2012-8-30 02:32 編輯 ]
作者: qcmadness    時間: 2012-8-30 02:32

引用:
原帖由 Puff 於 2012-8-30 02:29 發表

真心唔覺低,我嫌佢 integer pipe 少添呀
x264 IPC=2.0 inst.latency=2 仲可以 low utilization 就真係食香蕉
如果真係高, 就唔會提議話cut MMX pipeline
或者係繼續P0-P3, 但係P3得番FMISC/FSTO, P2繼續MMX
作者: qcmadness    時間: 2012-8-30 02:33

引用:
原帖由 Puff 於 2012-8-30 02:29 發表

diagram 都是拿來騙人的,正如張圖都無同你講佢有 crossbar unit.

...
咁計P0都要寫IMAC
P2都要寫FSTO/FMISC
作者: Puff    時間: 2012-8-30 02:35

引用:
原帖由 qcmadness 於 2012-8-30 02:32 發表

如果真係高, 就唔會提議話cut MMX pipeline
或者係繼續P0-P3, 但係P3得番FMISC/FSTO, P2繼續MMX
引用:
There’s no change in the execution capabilities of the FPU, but there’s a reduction in overall area. The MMX unit now shares some hardware with the 128-bit FMAC pipes.
Was it cut? Well, there is no certain answer until the pipe mapping is out.
"shares some hardware" could be sharing the issue port.

[ 本帖最後由 Puff 於 2012-8-30 02:36 編輯 ]
作者: qcmadness    時間: 2012-8-30 02:37

引用:
原帖由 Puff 於 2012-8-30 02:35 發表
Was it cut? Well, there is no certain answer until the pipe mapping is out.
"shares some hardware" could be sharing the issue port.
share issue port只係會減低port number, 減少的die size唔會太多
作者: Puff    時間: 2012-8-30 02:38

引用:
原帖由 qcmadness 於 2012-8-30 02:37 發表

share issue port只係會減低port number, 減少的die size唔會太多
減少 # issue port 可以減少 scheduler complexity,外加 register & forwarding network complexity reduces.

作者: qcmadness    時間: 2012-8-30 02:40

引用:
原帖由 Puff 於 2012-8-30 02:38 發表

減少 # issue port 可以減少 scheduler complexity,外加 register & forwarding network complexity reduces.
呢個係, 但係影響唔係想像中咁大, share port一樣要加番transistor

反而攪攪個FPU scheduler可以同時收2個INT core的FPU instruction好過啦
作者: dom    時間: 2012-8-30 15:41

AMD Nice Photoshop
作者: Puff    時間: 2012-8-30 17:43

引用:
原帖由 dom 於 2012-8-30 15:41 發表
AMD Nice Photoshop
呢個唔係一個靚位比你抽水。
作者: dom    時間: 2012-9-2 23:29

引用:
原帖由 Puff 於 2012/8/30 17:43 發表

呢個唔係一個靚位比你抽水。
I have no hope AMD will win again
AMD just barely able to keep  in fight
作者: qcmadness    時間: 2012-9-3 20:25

arm arm發覺, Steamroller將會同Netburst走完全唔同的路




歡迎光臨 HKSpot (https://bbs.hk-spot.com/) Powered by Discuz! 6.0 Lite