打印

[業界消息] AMD執左佢吧喇

引用:
原帖由 dom 於 2015-4-29 15:47 發表
AMD ZEN News
http://www.techpowerup.com/21213 ... o-be-quad-core.html
45627

Highlight
- 落翻 8MB L3 ?? (上一代有既係 "Star" based (Phenom II 肥龍2)
- Front-end 資源多左?
- 真核心設 ...
新一輪

2016
Summit Ridge 14nm, 8C Zen CPU, FM3
Bistrol Ridge 14nm, 4C Zen APU
Basilisk 14nm, 2C Zen APU
Styx 14nm, 2C K12 APU


"placement of boxes intended to represent first year of production shipments."

話唔定 2016 December shipping 2017 launches.


[ 本帖最後由 Puff 於 2015-4-29 21:38 編輯 ]

TOP

引用:
原帖由 XT 於 2015-4-29 16:00 發表

其實望落都似 module
但我唔明點解剩係4個unit黎share L3

(四粒春再落膠水變16???)
方便掛
SOC fabric 少 1/4 client
假設喺堅 都未知佢 cache mgmt scheme 喺點
POWER7/8 都喺咁嘅設計. Local L3 + Remote victim L3

TOP

引用:
原帖由 dom 於 2015-4-29 15:47 發表
AMD ZEN News
http://www.techpowerup.com/21213 ... o-be-quad-core.html
45627

Highlight
- 落翻 8MB L3 ?? (上一代有既係 "Star" based (Phenom II 肥龍2)
- Front-end 資源多左?
- 真核心設 ...
Carrizo 十卜 DDR4

TOP

4+1? uop fusion? bulldozer 有呀. 32B/clk fetch 添
有冇 uop cache 就唔知,但 SR 有 uop loop buffer


[ 本帖最後由 Puff 於 2015-4-29 23:16 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2015-4-29 23:17 發表

無加1
有 branch fusion

TOP

引用:
原帖由 qcmadness 於 2015-4-29 23:22 發表

branch fusion唔會令你做多1條insruction, 最多係小d branch miss
我錯 AMD 個 branch fusion 喺陽春過 Intel
但 branch fusion 都喺 take 5 instruction and decode into 4 complex ops
effectively 都叫喺 5 inst

intel 除咗 uop cache 6? uop/clk 外真喺唔知邊樹有 4+1


[ 本帖最後由 Puff 於 2015-4-29 23:26 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2015-4-29 23:26 發表

wrong

http://www.anandtech.com/show/50 ... lving-even-deeper/2

咁有趣?睇下 SOG 先
p.s. sr 有 40 entry post-decode uop buffer

TOP

引用:
原帖由 qcmadness 於 2015-4-30 01:41 發表
係咪好似樣呢

我睇唔到AMD走得出IPC慢過Intel的方法
K10, 我當你IPC再加50%, 先叫追到 ...
你拼埋 APPL Cyclone 成個餅印添啦
Sandy Bridge 呀 Ivy Bridge 都可以叫似少少樣,「只不過」喺 FPU 有自己 issue queue

得呢張咁 high-level 嘅 PR 圖我睇唔出啲乜
連 load/store queue size, instruction window size 都冇
最多就估唔會衰得過肥龍,唔會連四年前嘅 SNB 都打唔低呢啲行貨


[ 本帖最後由 Puff 於 2015-4-30 02:53 編輯 ]

TOP

引用:
原帖由 dom 於 2015-4-30 02:41 發表
A 仔個 L3 同 Inter-Core Bandwidth 唔知有無改善...... Phenom II 都係呢樣唔夠, 去到 Faildozer 重衰d
加翻 L3 你比個慢既 又係拖死
Inclusive L3 應該冇死,天生 snoop filter
而且快嘅 shared banked cache 唔算喺冇經驗 (25 clk, half speed data array)
只不過喺 low-power jaguar

TOP

Fiji, The World’s First Graphics Processor With 2.5D High Bandwidth Memory
HotChips 27 Conf. Day 2

TOP

引用:
原帖由 qcmadness 於 2015-4-30 12:21 發表

好明顯你無睇details
有乜 details 可言?除咗 cache hierarchy

TOP

引用:
原帖由 qcmadness 於 2015-4-30 19:39 發表
除非Zen果6條integer pipline係full pipeline (execution + load / store), 唔係Haswell在資源上一定較多

但係如果真係6條full in ...
最多多一個 port 俾 ALU (3+3),同埋按傳統 store data bus 冇獨立 issue port...
但每個 port 個 stack 喺點就真喺打個問號
你話寫到明 256-bit FMAC X2 就叫細節啫

6 pipeline 學你咁講好多餘地
3+3 / 4+2, split/unified SQ 已經四個 combo
仲未計會唔會繼續有 AGLU 啦, 又或者 (store) AGU 同 ALU share issue port 啦咁


再講 3 ALU 唔喺大問題,冇都唔會喺 fatal
Int/Vec split 嘅好處或者可以搭救下,反正頂盡都喺 2ld+1st/clk 多
LSU 同 cache hierarchy 仲屎唔屎先喺大問題


[ 本帖最後由 Puff 於 2015-5-1 00:36 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2015-5-1 02:20 發表

而家講緊AMD, 係中意symmetric pipeline既公司
FPU 已經唔喺點 symmetric
唔知啦,但 3 AGU 實冇死,最少對得上 (應該唔會冇嘅) 2 load + 1 store per cycle

話唔定 Zen 喺 3/3, K12 喺 4/4
K12 冇 256-bit SIMD 又喺 "wider engine" 嘛


[ 本帖最後由 Puff 於 2015-5-1 16:21 編輯 ]

TOP

引用:
原帖由 dom 於 2015-5-1 01:13 發表


A 仔 Inter-Core bandwidth 同效率到今時今日都係追唔近 Intel (唔係最新個代, 我用翻 Sandy Bridge 黎比了)
Latency 又高 (Faildozer 架構先天缺憾尤甚)

最大鑊係 A 仔自己主推既 APU (iGPU) 正正最需要 Bandwi ...
jaguar 個 half-speed quad-banked L2 "都喺" 25 clk


[ 本帖最後由 Puff 於 2015-5-1 16:01 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2015-5-1 16:24 發表

咁咪慢lor
你咁都唔明, 人地Intel講緊4L/S
邊粒有 4 L/S? BDW 都喺 2 load+1 store 咋喎
喺 Power8 先喺 up to 4 loads / clk


差啲睇漏眼
張圖寫嘅喺 "Integer Scheduler", non-plural form
即喺唔喺 split AG sched

unified sched 就多嘢玩啦 可以唔喺 symmetric


[ 本帖最後由 Puff 於 2015-5-1 16:56 編輯 ]

TOP