打印

[業界消息] Carrizo

引用:
原帖由 qcmadness 於 2014-7-16 22:34 發表

個人認為會走short-pipeline + low-power路線
short pipeline = clock 唔會高得去邊 L2 latency 唔係大問題
但老實講 Cat/SNB/Cyclone 全部都唔長得去邊

我咁睇 Cat 28nm都爆到上2.4Ghz FinFET+少少trade-off保持KV移動版水平(3.2-3.6Ghz) 都應該得掛 當然 此前呢個theory成唔成立有據稱全面用HDL既XV可以觀望


[ 本帖最後由 Puff 於 2014-7-16 22:42 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2014-7-16 22:46 發表

Jaguar同Bobcat已經差好遠, 同pipeline有關, 再改有機上到3GHz左右
查實依家全系列都走 low power 路線

我自己做個預期整理就係 high IPC core (moderately clocked, max 3.2-3.6ghz)
依家細SOC轉雙核(<17W) 大SOC都轉雙核搭HBM(<37W NB/<55W DT)
然後加一級四核APU搭HBM(<125W) SOC TDP越高 CPU功耗佔比例就越少
AMD俾資料係四粒HBM夾埋512GB/s PHY同DRAM合計燒你30W 即係每粒7W

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:05 發表

超過3GHz有一定難度
呢個預期係建基於粒核心有HSW咁大粒
如果係估計top 3GHz+max area efficiency 咁中間SOC四核可以諗諗
大大粒SOC可以多D伺服器特性 可能帶L3$同NUMA capable掛

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:11 發表

同Intel鬥堆transistor, AMD一定輸, 要記住呢點
當然 但依家 transistor 佔大頭係 GPU
反正主要就係估 x86 core convergence + 細SOC 雙核

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:16 發表

以projection計, 如果又係20% IPC + 20% clock speed @ 50% power consumption, 咁下代cat series就會係40W TDP + Trinity-class performance
都話叫 Zen 僅此一粒 x86

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:18 發表

你聽佢up啦
呃你無飯食 S|A都有提

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:19 發表

S|A成日流料, 你信佢啦
反正 16 年打後得一粒 x86 同一粒 ARM 我是信的
一個向上打 一個向下打

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:29 發表

ARM... 我覺得AMD唔會太落力
x86反而我覺得所謂的"1個core"係有得玩野的
只不過覺得兩粒真係無乜需要
HSW已經証明一粒可以打到幾多個segment 然後再向下打都係ARM地頭

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:37 發表

個人覺得AMD唔係咁信ARM, server side要行hybrid
mobile side個問題唔單止係個power consumption度

當然Jaguar其實仲有唔小空間降低功耗, 不過AMD無做
server side 主流根本就係 x86 獨市 係高端大大部先叫有其他特別選擇
ARMv8 server 依家目標只係做 OSS cloud web tier/big data cluster
發夢話 AMD 搞 ARM 都係為做呢範 我估大概係想做埋 NFV/networking 同嵌入(連手持)掛


mobile 呢? 基本上可以叫 ARM 獨市, Intel 打極都唔入流...
當然 sofia/airmont 可能會改變下現狀 但多數係點心照


[ 本帖最後由 Puff 於 2014-7-16 23:44 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2014-7-16 23:51 發表

Intel從來都唔係輸效能, 係輸價格, 呢點反而AMD唔會想入呢個market
依家有hybrid node難講 至少功耗上無咁輸蝕掛 係規模無得鬥咁解

TOP

重新諗過一輪 shared cache
hitrate/latency balance 唔係根本原因 (512KB + prefetching 已經夠玩晒啦)
大部份 PC app 都係 latency 行先 再講獨立 L2 = 有 per-core power gating 你玩...

反而似係 cache coherency/power 比較多
依家除左 console SOC 外所有大貓 chip 都等同有個 shared LLC... 於是除左 I/O request 外可以唔洗 probing 直踩 DRAM

繼續坐 Shared 1MB 望獨立 512KB L2


[ 本帖最後由 Puff 於 2014-7-17 19:36 編輯 ]

TOP

引用:
原帖由 qcmadness 於 2014-7-17 19:38 發表

信我啦, 唔會有獨立llc

我係估獨立 L2 + optional L3 + optional CG directory

TOP

引用:
原帖由 qcmadness 於 2014-7-17 19:46 發表

APU呀, 你估server CPU咩
重點是 optional. 低階 APU 咪唔帶 L3/Dir,齋兩粒 core 然後繼續 probing 到天荒地老。另外仲有 new GPU cache hierarchy + region-level coherence protocol

TOP

引用:
原帖由 qcmadness 於 2014-7-17 19:48 發表

算把啦

industrial trend用shared cache, 自然唔係無原因的, 除非AMD傻左啦

咁你將獨立 L2 換做 Shared L2 per 2 core

TOP

引用:
原帖由 qcmadness 於 2014-7-17 19:49 發表

都未必tim呀

當然後年出自有分曉
Seattle 聽講係 Shared 1MB per 2 core. L3 唔洗講
至於 exclusive L3 同 region level directory 成數唔少
AMD 自家 APU simulator 已經係咁既架構 呢幾年出唔少 paper
最重要係可以擴展去支援更高層次的 GPU cache coherency (依家只係 write-thru)

TOP