打印

[硬件] What comes after Piledriver?

引用:
原帖由 Puff 於 2012-4-15 22:06 發表

我睇過,咁點?重點係呢堆 Slides 可以佐證到你講既乜野。
Heterogeneous Computing 係 many different kind of cores working together,唔係 fuse all cores together and become one. ...
咁而家都已經係 (Llano / SandyBridge), 點解仲要evolve?
你要明白要有效咁用埋GPU, OpenCL都睇得出唔會點流行, 唔merge佢地一齊用係大部分浪費

TOP

引用:
原帖由 Puff 於 2012-4-15 22:07 發表

咁請問要 HSA IL 黎做乜?點解要用 x86 跑 GPU?呢個係你個人意見咋喎。
係用埋GPU來跑x86 instruction

TOP

引用:
原帖由 Puff 於 2012-4-15 22:12 發表


有效地運用 GPU 唔代表要 Merge 埋佢地一齊,OpenCL 流唔流行一件事,HSA 既出現就係為左你所講既野。
但係同 FPU replace with GPU 無乜關係喎。將 Speedy + Tightly Coupled to CPU pipeline 既 FPU 換做 Slow + Loosely Coupled to CPU pipeline ...
AMD的FPU不嬲都同CPU有少少decoupled, Intel就真係tightly coupled


FP instruction本身就係high latency, 所以問題無咁大

TOP

引用:
原帖由 Puff 於 2012-4-15 22:16 發表

佢 decoupled from the integer pipeline,但係依然係 a part of the CPU pipeline. 依然會 handshake with integer core.
其實幾乎唔會, 除左load memory

如果你記得, K8既pipeline係12 (INT) / 17 (FP) stages

TOP

引用:
原帖由 Puff 於 2012-4-15 22:17 發表

No. Instruction Retire.
所以full CPU+GPU fusion要差唔多10年先有
咁易做就唔會要做10年, 包括Intel

TOP

引用:
原帖由 Puff 於 2012-4-15 22:18 發表

呢個唔係理由。FP instructions 高極有限,back-to-back 都係 max 6 cycles 最低 2 cycles. Offload 去 GPU 呢?唔計中間一大堆野,GPU 既 frequency 同 CPU 已經有個落差,再加埋 4-cycle back-to-back issue... ...
...

一個sqrt已經29-38 cycle latency (Family 15h)

TOP

引用:
原帖由 Puff 於 2012-4-15 22:20 發表

... 我已經無野好講,我只可以話係我既角度而言,你執著於 Fusion 呢個字多於現實中既 possibility。
如果唔係possibility, 咁AMD唔駛買ATi, 買SiS / VIA都已經夠
GPU技術唔係NVIDIA / ATi先有

TOP

引用:
原帖由 Puff 於 2012-4-15 22:24 發表

Computer Architecture 已經發展左咁耐,框架就得果個,定左型。一件事可唔可行,值唔值得,唔會睇唔出。
AMD 買 ATi 係要做 AMD Fusion 無錯。呢個係 facts。我講緊既係 How to Fusion 甚至係 What is Fusion. ...
用同1個ISA model先最有效率, 唔駛software intercept仲好

TOP

引用:
原帖由 Puff 於 2012-4-15 22:24 發表

Computer Architecture 已經發展左咁耐,框架就得果個,定左型。一件事可唔可行,值唔值得,唔會睇唔出。
AMD 買 ATi 係要搞 AMD Fusion 無錯。呢個係 facts。但我講緊既係 How to Fusion 甚至係 What is Fusion. ...
2020年前我地會見到, 因為Intel / AMD / NVIDIA / IBM都係向緊呢個方向

TOP

引用:
原帖由 Puff 於 2012-4-15 22:30 發表


當你 CPU 同 GPU share the same ISA,咪即係

8 Big Cores 跑 8 Threads,Speedy Core (3+ Ghz).
32 Small Cores 跑 1280 條 threads,Slow cores (~1 Ghz).

點樣整成 32 Small Cores in 8 Big Cores and Big Cores of ...
呢個係要解通, 因為Intel / AMD / NVIDIA都話係會向hetergeneous computing走

你可以話唔可能, 2002年你會唔會估到GPU會off-load到一部分CPU workload?

TOP

引用:
原帖由 Puff 於 2012-4-15 22:33 發表

已經 offload 左啦。Graphics/3D.
而我既問題一路都無變過,點解要將 Speedy, Narrow FPU (say 3+ Ghz) 用 GPU 取代?如果係咁,將 CPU 用 CU 取代埋唔好?一樣有 Scalar GPR 既 Scalar Unit. ...
如果你用CU取代CPU, 一粒Tahiti會變左1000mm^2+, 因為x86 rigid同restricted好多

TOP

引用:
原帖由 Puff 於 2012-4-15 22:37 發表

關 Tahiti 乜事?然後重點問題依然未答。Why should AMD replace the fast, narrow 4-wide FPU within the CPU with a slow, flat 32-wide GPU?
因為要盡用GPU的FP power

一係雙方都改, 之後merge (AMD)
一係CPU用GPU方法設計 (NVIDIA)
一係GPU用CPU方法設計 (Intel)

TOP

引用:
原帖由 Puff 於 2012-4-15 22:39 發表

Goddess. 我真心想問呢兩者關乜事。
無共同語言, 就唔會多人用, 呢樣野好現實的

TOP

引用:
原帖由 Puff 於 2012-4-15 22:40 發表
然後我從頭到尾都唔明點解唔可以有 software interception. Multi-core 都要有 software interception 啦。
我指既係external ISA, 你而家係指定要用邊個先用邊個, 要software揀定用邊個

hardware做到幫你揀埋, 咪唔駛咁難咁tune個complier

TOP

引用:
原帖由 Puff 於 2012-4-15 22:41 發表

現實只要有 easy to use & efficient 既 software development stack 同 it's worth 就得。
點解要 asm 一樣?asm 係 for low-level optimization 咋喎。而且呢個世界有 LLVM 啦。

...
AMD唔會咁既resource

就算Intel都攪唔掂 (GPU part)
你天真地以為AMD做到?

NVIDIA都一樣辛苦

TOP