HKSpot » 電子玩物
管理員
吹水部屋
原帖由 Puff 於 2012-4-15 23:33 發表 Good point. 有 paper 做過呢樣野。但係問題係 Prefetching for GPU 值唔值得你咁做,當你有 1000k 個 work-items 加埋係 scattered data 諸如此類。
查看個人網站
查看詳細資料
TOP
原帖由 Henry 於 2012-4-15 23:34 發表 咁點解BD慢咁多啊.....
原帖由 Puff 於 2012-4-15 23:35 發表 當你達到 4-way, 8-way 甚至 16-way 既時候咪得。 當你有 2-way SMT 既時候,就等於要 Cover 既 Latency 減半,不過相對黎講 Execution Time 多一倍咁解。 而且對於 Serial Workload 無好處。 ...
原帖由 Henry 於 2012-4-15 23:38 發表 所以GPU個RAM頻寬奇廣,就係餵唔夠就出事. 個人覺得,GPU個384/512bit GDDR5某程度係Cache多過RAM.
原帖由 Puff 於 2012-4-15 23:40 發表 但我 doubt 既就係「GPU 既 shader 可以為 CPU 所用」。或者話,就算唔好似你咁搞法都可以為 CPU 所用。 用係邊樹用黎做乜又係個問題。AMD 自己都比左三大類 workload 出黎啦。 ...
原帖由 Henry 於 2012-4-15 23:46 發表 我真係想知幾時會見到CPU個RAM頻寬好似GPU咁多,然後Parallelism就開始推上去好似GPU咁. 但就保持CPU應有既IO同其他各種指令既處理能力.
原帖由 Henry 於 2012-4-15 23:52 發表 既然Puff講到Parallelism應該可以減低Latency個效能損失,L2/3應該可以唔洗放咁多,從而減少Die size. Memory pad就頂上L2/3個位.
原帖由 Henry 於 2012-4-16 00:02 發表 咁你都知啦. GPU要同CPU一做架構上既Fusion,CPU會面對GPU既問題,GPU亦都會面對CPU既問題.
原帖由 Henry 於 2012-4-16 00:04 發表 CPU一有High parallelism結果個Cache一樣越來越多.......
原帖由 Henry 於 2012-4-16 00:06 發表 Core count都有提升添. 但平均L3/core既數字就.....
原帖由 Puff 於 2012-4-16 00:07 發表 So 分開是最好的結果,大家性格都唔夾,無謂一拖再拖啦。
原帖由 Puff 於 2012-4-16 00:12 發表 唔做情侶可以做伙伴,一個做 CEO,一個做 CTO. 點解一定要聯席 CEO.
原帖由 Puff 於 2012-4-16 00:14 發表 That's the means of APU... 然後大佬 problem 都有好多種架嘛。唔係唔理三七廿一都擲過去 GPU 搞架嘛。 如果唔係 AMD 推 task-based parallelism 既 HSA 做乜?
原帖由 Puff 於 2012-4-16 00:26 發表 It dependsssssssssssssss on what you are doing.