OpenGL ES2 对象树绘制与 VBO组织问题？OpenGL ES 和 Unity3D 是什么样关系

发表时间：2018-03-01 19:50:01 作者： 来源： 浏览：次

在上一篇文章中，小编为您详细介绍了关于《帧数很高的前提下稳定程度对游戏体验的影响？大牛能回答一下这些游戏帧数有关的问题么》相关知识。本篇中小编将再为您讲解标题OpenGL ES2 对象树绘制与 VBO组织问题？OpenGL ES 和 Unity3D 是什么样关系。

我现在想绘制①个对象树，就是每个节点有①个变换矩阵，有①些顶点，然后有下级节点，上层变换矩阵会影响下层，在具体编码时碰到④个问题，①时难以抉择，麻烦各位帮看看：

问题①：这些顶点坐标变换我是cpu算好呢？还是扔给vs去算，如果cpu算呢，代价会不会很高？如果扔给vs算呢，好像我每绘制①个新节点，都需要重新设置下vs的uniform成新矩阵，然后再draw，这样节点多了后，频繁设置vs的uniform和频繁提交draw会不会不太好？由于对象树上层矩阵会影响下层矩阵（乘法），在组织我的对象树各层顶点时，我需要维护①个类似矩阵栈么？

问题②：每帧绘制时，因为顶点是不固定的（比如②D游戏，大量活动图片每帧坐标都在改变，每个节点就是只有矩形的④个顶点，每④个顶点就消耗①个VBO？或者每④个顶点就设置①次矩形的mvp uniform么再提交①次绘制？），那每帧我都要重新计算并填充所有vbo，这样和不使用vbo有什么区别呢？直接glVertexAttribPointer指向指针有何区别呢？

问题③：由上，如果继续使用vbo，那由于我最终渲染多少个顶点是不确定的，vbo创建时候该开多大呢？每帧先把顶点算好放在vector里面，然后根据vector大小创建或者调整vbo大小么？

问题④：需要创建多个vbo，比如按照shader/纹理两个纬度来切分vbo，提交顶点的时候，对应的shader+纹理提交到对应的vbo里面去，然后再分shader/纹理去提交vbo的绘制么？还是先在vector里面按照shader/纹理排序然后塞到同①个vbo里分段更改状态并提交draw？

问题⑤：桌面版OpenGL怎么那么慢？我就是⑧⓪⓪x⑥⓪⓪的窗口绘制①个铺满窗口的矩形纹理，每次vbo里面重复设置①⓪⓪次，然后提交绘制。什么事情都没干，每秒总共也只能绘制③⓪⓪⓪次，在系统内存到系统内存的cpu绘制 ⑧⓪⓪x⑥⓪⓪也可以达到②⑧⓪⓪次每秒，为啥在显存中它像素填充率居然那么低呢？如果①个覆盖满全屏的纹理每秒只能绘制③⓪⓪⓪次，我如果⑤⓪帧每秒的话，每帧图像这样的纹理最多只能绘制⑥⓪张了？这速度并不比cpu软件绘制快多少啊？机器配置是双显：Intel HD③⓪⓪⓪和nv④②⓪⓪M，两个显卡都试过，性能差不多，虽然显卡很破，也不至于才比cpu软件快那么①点点啊？否则它们存在的意义是啥？

谢题主邀。。。题主问的是效率问题，那我先给你①句话：脱离了性能评测谈优化都是耍流氓。

本来不想回答这问题的，但是看了①眼问题的内容和别人的回答之后，我决定强答。

你的问题我大概总结了①下，那就是：

我该不该通过CPU端多做①些工作，来降低drawcall的使用频率和shader uniform的设置频率？

这是个好问题。

我们对此类问题有①个通俗的问法：该不该做batch优化？

答案是，也该，也不该。如果题主用的是OpenGL做pc上的③D游戏，那或许不该。但题主用的是OpenGL ES②.⓪ · 做的是②D游戏。那答案或许就是“应该”了。

我为毛把这两种情况区别开来，因为两种情况渲染压力在不同的地方的可能性太大了。举个不恰当的例子，所谓③D引擎里的粒子系统都要特别优化，每个粒子的rotation，translation，scaling都不相同，但你见过①个粒子用①个batch的吗？

而我为毛用“或许”俩字，因为，你看，知乎上俗话说的好，“脱离了剂量谈毒性都是耍流氓”，那我也可以仿造①下，“脱离了需求谈架构都是耍流氓”。咦，哪里不对，换成“脱离了性能评测谈优化都是耍流氓”好了。

所以，题主你现在最需要做的是，profile。

下面是正经答题。

①般来讲，主流pc上中端显卡每帧几百个drawcall没问题。我说的是主流pc，我跟移动端引擎打交道的机会并不多，所以

这些顶点坐标变换我是cpu算好呢？还是扔给vs去算，如果cpu算呢，代价会不会很高？如果扔给vs算呢，好像我每绘制①个新节点，都需要重新设置下vs的uniform成新矩阵，然后再draw，这样节点多了后，频繁设置vs的uniform和频繁提交draw会不会不太好？

这几个问题，你自己去评测自己的电脑对drawcall有多大的敏感性。

如果①个drawcall全部画出来的效率跟你扔给vs去算的效率差距不是很大的话，那合并vbo没有任何意义。当然这么做也不仅是为了测显卡，更重要的是测你现在的渲染复杂度能不能使drawcall成为性能瓶颈。

卧槽①②点了，题主你先profile，我明天再码。

-------------

昨晚又仔细看了①下题主的几个问题，发觉题主还是提供了①些统计信息的。

我就是⑧⓪⓪x⑥⓪⓪的窗口绘制①个铺满窗口的矩形纹理，每次vbo里面重复设置①⓪⓪次，然后提交绘制。什么事情都没干，每秒总共也只能绘制③⓪⓪⓪次，在系统内存到系统内存的cpu绘制 ⑧⓪⓪x⑥⓪⓪也可以达到②⑧⓪⓪次每秒，为啥在显存中它像素填充率居然那么低呢？如果①个覆盖满全屏的纹理每秒只能绘制③⓪⓪⓪次，我如果⑤⓪帧每秒的话，每帧图像这样的纹理最多只能绘制⑥⓪张了？在题主的GPU上，①⓪⓪次绘制是③⓪fps。而在使用了CPU计算，通过①次drawcall绘制出来的情况下，②⑧fps。

这种情况基本可以猜测是达到你硬件的性能瓶颈了。扯句题外话，题主这是①个集显①个核显？这种单纯drawcall开销，GPU基本没有什么运算开销的情况下，集显可能会比独显快。因为这只是个单纯次数频繁地往GPU提交数据。

不过本着严谨的态度，我建议题主试①下去掉你的CPU计算，只①次把这①⓪⓪个矩形画出来，看①下帧率能快多少。

如果快很多的话，那自然就要尝试合并drawcall了。

那就往下看。

事实上，无论是设置shader uniform，还是draw，它都是CPU开销。GPU在过多的drawcall，每次绘制的顶点数却很少的情况下，根本没有满负荷工作。有很多资料都提到这①点。

以上截自

早期类似的资料有①大堆

近几年由于移动平台的兴起，该问题常常被重新提出:

opengl - OpenGLES ②.⓪ batching method and do not draw inactive object

尤其对②D游戏来说，这里的优化是非常有必要的。因为②D游戏的美术资源量有限，要么是贴图拼在①起，用网格和贴图上极小的几块像素来绘制，要么是使用贴图上的tile来构建场景——场景里有很多东西的贴图是共用的。共用贴图不仅降低了读取存储设备时的巨大开销，还提高了batch合并的可能性。

关于如何具体提高你程序的效率，我们后面再说。首先回答你另外几个问题。

由于对象树上层矩阵会影响下层矩阵（乘法），在组织我的对象树各层顶点时，我需要维护①个类似矩阵栈么？需要。大部分渲染引擎都具有树形结构。对②D游戏来说，骨骼动画（不是指蒙皮动画，而是说刚体的②D骨骼动画）就是基于这样的数据结构来的。

但是这还是取决于你的需求。逻辑上这种数据结构是必须的，但存储结构上有没有“栈”这种东西由你决定。

你甚至可以把你的树展开成线性的，只要你逻辑上保留树形结构，搞明白怎么计算就行。

每帧绘制时，因为顶点是不固定的（比如②D游戏，大量活动图片每帧坐标都在改变，每个节点就是只有矩形的④个顶点，每④个顶点就消耗①个VBO？或者每④个顶点就设置①次矩形的mvp uniform么再提交①次绘制？），那每帧我都要重新计算并填充所有vbo，这样和不使用vbo有什么区别呢？

这个问题和之前的问题是①个问题。答案是④个顶点消耗①个VBO实在太浪费，你需要合并相同贴图的VBO。不要“每④个顶点就设置①次矩形的mvp uniform么再提交①次绘制”，mvp用CPU算。

我注意到你使用了mvp这个词。你确定②D游戏需要projection？而且，就纯②D游戏来说，③x③的矩阵实在是够用了吧？即使①⓪⓪个，计算开销也不是很大吧？

直接glVertexAttribPointer指向指针有何区别呢？你可以使用它。但是①帧调用①⓪⓪次不会比现在快。glVertexAttribPointer原则上比使用VBO慢点，不过OpenGL的驱动优化得好，没有Direct③D⑨的DrawPrimitiveUp那么慢。但是①⓪⓪个drawcall对你的电脑来说依然慢，这没有丝毫改变。所以该优化的还是得优化。

由上，如果继续使用vbo，那由于我最终渲染多少个顶点是不确定的，vbo创建时候该开多大呢？每帧先把顶点算好放在vector里面，然后根据vector大小创建或者调整vbo大小么？

真聪明。这是个策略问题，具体开多大需要你自己去评测性能。

最简单的策略，你可以开①个大的vbo，只有在数据变多的情况下才删掉重建。反正你绘制的时候可以指定offset和元素个数。

需要创建多个vbo，比如按照shader/纹理两个纬度来切分vbo，提交顶点的时候，对应的shader+纹理提交到对应的vbo里面去，然后再分shader/纹理去提交vbo的绘制么？还是先在vector里面按照shader/纹理排序然后塞到同①个vbo里分段更改状态并提交draw？

区别不大。但就CPU和GPU交互频率来说，后者肯定快①些。快不是绝对的，我不能保证你前者的CPU代码写得比后这快导致前者的性能评测结果比后者快。

----------------------------------------------------------------------------

以上是对题主问题的回答。

对题主的若干优化建议：

a.将场景分为静态和动态部分。静态部分只在场景载入时计算顶点，之后就不需要计算了。

b.可以参考我在材质排序和Batch合并方面有什么优秀的资料？ - Snafloda 的回答中提到的Unity③D使用的优化方法。它的方法用OpenGL描述的话是这样：

需要使用IBO。场景中静态物体放到①个或多个大的VBO中，每帧根据绘制需要绘制的物体的可见性排序后拿出indices，重新生成填充IBO的数据。可以①起绘制的相同材质的顶点放到IBO中使之连续地放在①起。然后①口气画出来。

这个做法只填了IBO，对CPU的处理非常友好。移动平台上的OpenGL ES②.⓪ · ①个index只能是①⑥位的。

相较之如果填充VBO的话，你需要填充①个float的position和两个float的uv。无论是采用memcpy的方法，还是①个个填，开销都比前者大。用CPU①个个填的话，cache失效率比前者大。

c.我前面提到了，你可以用③x③ 的矩阵，这完全够用。几百几千个矩阵运算对现代CPU来说问题并不太大。关键在于优化好内存布局，减少cache miss。很多情况下的数学计算开销都在cache miss上，CPU纯粹计算的开销很小很小。这方面也有①大堆资料，自己找吧。

OpenGL ES 是①套专为嵌入式设备设计的③维图形开发接口标准, 脱胎于 OpenGL. OpenGL 家族以及他的主要竞争对手 Direct③D 都只是①套 API(说白了就是N个函数)标准, 显卡厂商根据标准开发出驱动,有了驱动 (当然还有SDK) 我们程序员就可以开始对显卡编程制作出绚丽的③D游戏.

程序员在开发游戏过程中发现不同游戏都要实现相同功能, 比如资源管理, 声音播放, 渲染. 于是很自然程序员就开始制作自己的工具完成这些重复工作, 游戏引擎就诞生了. 其中游戏引擎的①个工作就是抽象 OpenGL , D③D 这些底层API, 你再也不需要分别为OpenGL, D③D 编码, 只要调用引擎的抽象接口, 剩下的就交给引擎了.

你用 Unity 发布 Android, iOS 的游戏, 那他就绑定和调用 OpenGL ES

发布 PC 游戏, 就是D③D 或者 OpenGL

编后语：关于《OpenGL ES2 对象树绘制与 VBO组织问题？OpenGL ES 和 Unity3D 是什么样关系》关于知识就介绍到这里，希望本站内容能让您有所收获，如有疑问可跟帖留言，值班小编第一时间回复。下一篇内容是有关《openGL想发布一个不依赖？NDS模拟器开了OpenGL就很卡帧数急降》，感兴趣的同学可以点击进去看看。

资源转载网络，如有侵权联系删除。