网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月28日
漏签
0
天
gpu吧
关注:
7,494
贴子:
81,391
看贴
图片
吧主推荐
游戏
1
2
下一页
尾页
40
回复贴,共
2
页
,跳到
页
确定
<<返回gpu吧
>0< 加载中...
简单说下Mali G52核心的问题
只看楼主
收藏
回复
还是那个小新
人气楷模
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
主要说一下核心
之前的G51的核心分为单像素核心和双像素核心
到了G52被取消了,相当于只有双像素核心了
G51的MP主要在单/双像素核心之间定制和选配
G52的MP在计算单元(execution engine)上定制和选配
每个核心可以在2组ee或者3组ee之间选配
每个ee的宽度从G51的4宽提升到了8宽
相当于是一组ee = 8 x ALU,那么一个G52核心 = 16或者24 x ALU
最初公布的时候G52最多只支持四个核心的选配
花下语
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
嗯看不懂
贴吧用户_0Ge45aE
活跃吧友
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
写完了?
mdzz微笑zz
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
没了?
暂时就叫这名了
人气楷模
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有生之年
zhu3536
人气楷模
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
k810应该是2ee版6核g52。vec4 madd 203.4gflops,vec4 add 152.9gflops。bifrost每个ee的整数add/sfu已经证实是可以跑浮点add的。2*8*6*0.82*2 = 157.44gflops,效率152.9/157.44 = 97%。
bifrost一直以来有个现象,madd的浮点比理论值高。vec4、vec3、vec2、scalar效率逐渐降低,所以都以vec4 madd浮点来说明。g76mp10,不存在多出的madd的话理论浮点3*8*10*0.72*2 = 345.6gflops,实际435.3gflops,在345.6/3*4 =460.8gflops范围内,效率94% 。我认为多出的madd是一个核心多出来的,3ee的话多三分之一,2ee多二分之一。k810根据add浮点基本上确定是2ee版g52,16alu不可能多三分之一,不能整除3。按多二分之一算vec4 madd理论浮点16*6*0.82*2/2*3 = 236.16gflops,效率203.4/236.16 = 86%。3ee 6核不考虑多出的madd都有3*8*6*0.82*2 = 236.16gflops,实际值203.4低于这个值,和以前的3ee birost核心冲突;考虑多出三分之一madd 236.16/3*4 = 314.88gflops,差得更多。
zhu3536
人气楷模
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
zhu3536
人气楷模
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
三星的g72和g76更厉害,add/sfu是arm ppt的2倍,华为的和arm ppt相符。9820 24x12x0.702x(1+2)=606.5288gflops。因为三星g72和g76的add多一倍,跑madd+add时才有add和多出的三分之一madd组合,24x12x0.702x3/3x4=808.704gflops。多出的madd跑fp32 add或者fp16时不起作用,比如9820的vec4 fp16 madd。
霉族fg
活跃吧友
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
那实际打游戏比980还差是什么问题?,有的游戏gt都没适配
让我看看你的eu
核心吧友
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大佬 ee是啥 4宽有是啥求解释
贴吧用户_QPMSEE8
知名人士
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
一句讲嗮,810目前中端芯片最强
zhu3536
人气楷模
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
用snapdragon profiler测了下540。gfxbench alu2利用fragment shader进行运算,有fp32和fp16指令,比例接近2:3,alu利用率80%,alu工作时间百分比94%。adreno的fp32和fp16是分开的,而且可以同时工作,但同时工作的效率不高。540的alu2数据,80G fp32指令每秒,130G fp16指令每秒。而跑vec4 fp32 madd 167G fp32指令每秒,330.9gflops浮点,跑vec4 fp16 madd 356G fp16指令每秒,675.5gflops浮点。
manhattan3.0和t-rex的读写总带宽在12GB/s左右,两者都有fp32和fp16指令。t-rex的fp16指令最多,占85%左右;manhattan3.0的fp32指令多一些,是fp16的2倍左右,不过有点不太稳定,有时候fp16指令数突然比fp32指令多好多。
以上说的有fp16指令的都是指fragment shader,vertex shader只用fp32不用fp16。
texturing 的读总带宽在8-9GB/s,写总带宽4GB/s头,总共12-13GB/s。linear filtered过滤92%,没分双线性和三线性,最近点采样1.7%,各向异性过滤0。
记得twy_2000测的980总带宽不超过9GB/s,比adreno5系需求的带宽少多了。
stevenplus105
人气楷模
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我是这么想的,标准G71的一个ALU是MAD + ADD,一个EE有4路ALU,一个核有3 EE,但核里还有一个额外的特殊EE,这个EE有4路只能做FP32的MAD ALU。
G71的实际值超过理论值是因为这个额外EE,如果不算这个额外EE,每个ALU的理论值为(MADD 2,MUL 1,ADD 2,MADD+ADD 3),但是以效率最高的Vec4实际值为(FP32:MADD 2.5,MUL 1.2,ADD 1.9,MADD + ADD 2.8)(FP16:MADD 3.7,MUL 1.9,ADD 3.7,MADD + ADD 5.5),FP16吻合,但FP32不对。
算上这个只能做FP32 MAD的EE就合理了。
FP32:MADD 2*(3+1)/3=2.67,MUL (3+1)/3=1.33,ADD (6+1)/3=2.33,MADD + ADD还是3。</p>
<p dir="ltr">G52和G76同理,不管是2 EE还是3 EE,核里都还有1个额外的特殊EE,只是所有EE都变为8路ALU。
让我看看你的eu
核心吧友
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大佬gpu里的cu是啥
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示