原帖由 Puff 於 2014-7-16 21:46 發表
我係話用女朋友 28nm 標準製程
然後個製程俾係俾女朋友特登改到個 spec 同台★電相近 方便轉單係方便人轉用女朋友
依家個 28SHP 發夢係話女朋友無數個舊版 28nm 之中其中一個黎
p.s. 1MB L2 縮水版 希望L2 ...
原帖由 Puff 於 2014-7-16 22:03 發表
希望佢新架構走返低延遲 private L2 路線唔該
只不過唔知係搭 big inclusive LLC 定 optional exclusive LLC + optional dir
後者機會大D 因為我睇開AMD堆專利同research paper...
...
原帖由 qcmadness 於 2014-7-16 22:05 發表
多數唔會
睇Bulldozer / Jaguar既trend, 應該係玩shared L2 cache,
至於load-to-use latency, 我諗以Jaguar行緊25-cycle latency @ half-speed, 你都唔好有太大期望了
原帖由 Puff 於 2014-7-16 22:13 發表
我咁睇 一個本身就為共享而共享 一個四核低成本low-power 最初大貓都唔係開心share
我自己超樂觀預期係 14nm KV/Beema呢兩級APU全部跌watt落雙核用同一粒核心 差別只係GPU/HBM
...
原帖由 qcmadness 於 2014-7-16 22:14 發表
Jaguar要share係因為個pool大左, 就唔駛咁bandwidth dependent
亦都算係對multi-core inter-core bandwidth有d進步
原帖由 Puff 於 2014-7-16 22:16 發表
我記得佢有提過話係 single thread/latency 平衡。
意即得一粒 core 重負荷 成個L2都係佢玩晒 hitrate高D 於是IPC都高D 而佢地條數話抵銷完L2 latency 高左都係正能量 ...
原帖由 qcmadness 於 2014-7-16 22:25 發表
要低latency係好麻煩架
而且而家要將Jaguar再進化, 係要提升clock speed同加大execution resource行先lor
原帖由 qcmadness 於 2014-7-16 22:28 發表
無呢樣野的, 聽佢地吹啦
microarchitecture個理念全新, 我相信可以
但係ALU/FMA/SSEx/MC呢d野, 無可能全新, 一定係抄舊再改良
原帖由 Puff 於 2014-7-16 22:41 發表
short pipeline = clock 唔會高得去邊 L2 latency 唔係大問題
但老實講 Cat/SNB/Cyclone 全部都唔長得去邊
我咁睇 Cat 28nm都爆到上2.4Ghz FinFET+少少trade-off保持KV移動版水平(3.2-3.6Ghz) 都應該得掛 當然 此 ...
原帖由 Puff 於 2014-7-16 23:04 發表
查實依家全系列都走 low power 路線
我自己做個預期整理就係 high IPC core (moderately clocked, max 3.2-3.6ghz)
依家細SOC轉雙核(
原帖由 Puff 於 2014-7-16 23:10 發表
呢個預期係建基於粒核心有HSW咁大粒
如果係估計top 3GHz+max area efficiency 咁中間SOC四核可以諗諗
大大粒SOC可以多D伺服器特性 可能帶L3$同NUMA capable掛
...
原帖由 qcmadness 於 2014-7-16 23:16 發表
以projection計, 如果又係20% IPC + 20% clock speed @ 50% power consumption, 咁下代cat series就會係40W TDP + Trinity-class performance
原帖由 qcmadness 於 2014-7-16 23:37 發表
個人覺得AMD唔係咁信ARM, server side要行hybrid
mobile side個問題唔單止係個power consumption度
當然Jaguar其實仲有唔小空間降低功耗, 不過AMD無做
原帖由 Puff 於 2014-7-16 23:43 發表
server side 主流根本就係 x86 獨市 係高端大大部先叫有其他特別選擇
ARMv8 server 依家目標只係做 OSS cloud web tier/big data cluster
發夢話 AMD 搞 ARM 都係為做呢範 我估大概係想做埋 NFV/networking 同嵌入( ...
原帖由 Puff 於 2014-7-17 19:33 發表
重新諗過一輪 shared cache
hitrate/latency balance 唔係根本原因 (512KB + prefetching 已經夠玩晒啦)
大部份 PC app 都係 latency 行先 再講獨立 L2 = 有 per-core power gating 你玩...
反而似係 cache coheren ...
原帖由 Puff 於 2014-7-17 19:47 發表
重點是 optional. APU 咪唔帶 L3/Dir. 另外仲有 new GPU cache hierarchy + region-level coherence protocol
歡迎光臨 HKSpot (https://bbs.hk-spot.com/) | Powered by Discuz! 6.0 Lite |