xxb 发表于 2007-8-14 09:32:00

真彩色转成高彩色的快速算法

<table cellspacing="0" cellpadding="0" width="95%" border="0"><tbody><tr><td width="100%"><font face="Tahoma" size="2"><br/>为什么要实时转换颜色深度?</font>
                                        <p><font face="Tahoma" size="2">通常, 2D 游戏中的位图, 无论在外存中按什么颜色深度存放, 加栽后都被转换成了需要的颜色深度. 我们不太注意颜色深度转换说需要的时间.</font>
                                        </p><p><font face="Tahoma" size="2">但是, 现在不同了. 云风未来的计划中, 最重要的一项是制作一个超级 2D 引擎. 将支持 Voxel 物体和实时光线处理这样的特性, 而且在光线处理中, 32 级的光线亮度级别也远远不够, 所以, 未来的 2D 游戏的发展趋势应该是采用真彩色, 至少是在内部运算时使用. 在某些场合下, 我们可能需要做 15/16bit 高彩色的输出, 所以有必要找到更快的方法实时处理.</font>
                                        </p><p><font face="Tahoma" size="2">下面, 我们对此做一些探讨, 虽然显卡可以支持 15 或 16 bit 色中的一种, 但这里全部用 16bit 色举例:</font>
                                        </p><p><font face="Tahoma" size="2">先来看看 C 版本:</font>
                                        </p><pre><font face="宋体" color="#99ccff" size="2">red=(truecolor&gt;&gt;8)&amp;0xf800;
green=(truecolor&gt;&gt;5)&amp;0x7e0;
blue=(truecolor&gt;&gt;3)&amp;0x1f;
hicolor=red|green|blue;</font><font face="Tahoma" size="2">
                                                </font></pre><font face="Tahoma" size="2">这样当然是相当慢的, 所以我们还是要借助汇编. 而汇编能极大的优化它:</font>
                                        <pre><font face="宋体" size="2">lodsd                ;<font color="#ff0000">RRRRRRRR</font>
                                                        <font color="#008000">GGGGGGGG</font>
                                                        <font color="#0000ff">BBBBBBBB</font>
shr eax,3                ;000<font color="#ff0000">RRRRR RRR</font><font color="#008000">GGGGG GGG</font><font color="#0000ff">BBBBB</font>
shl al,2                ;000<font color="#ff0000">RRRRR RRR</font><font color="#008000">GGGGG G</font><font color="#0000ff">BBBBB</font>xx
shl ax,3                ;000<font color="#ff0000">RRRRR</font>
                                                        <font color="#008000">GGGGGG</font><font color="#0000ff">BBB BB</font>xxxxx
dec esi
shr eax,5                ;00000000 <font color="#ff0000">RRRRR</font><font color="#008000">GGG GGG</font><font color="#0000ff">BBBBB</font>
stosw
</font></pre><font face="Tahoma" size="2">是不是精简了很多? 但不幸的是, 虽然看起来很简洁, 但由于大量使用部分寄存器, 对流水线的冲击很大. 代码几乎把流水线的效率减到了最低. 优化方案很多, 我们可以在一次循环里处理两个点, 分别使用 eax 和 ebx, 然后交错那些代码; 又或者将上面代码的后半部分改为查表, 相信都能提高速度. 但是下面我还想提出另一种方案, 采用 MMX 指令级:</font>
                                        <pre><font face="宋体" size="2">mm7=F800F800F800F800
mm6=FC00FC00FC00FC00
------------------------------
punpcklbw mm0,
;mm0=<font color="#ff0000">RRRRRRRR</font> 00000000 <font color="#ff0000">RRRRRRRR</font> 00000000 <font color="#ff0000">RRRRRRRR</font> 00000000 <font color="#ff0000">RRRRRRRR</font> 00000000
punpcklbw mm1,
;mm1=<font color="#008000">GGGGGGGG</font> 00000000 <font color="#008000">GGGGGGGG</font> 00000000 <font color="#008000">GGGGGGGG</font> 00000000 <font color="#008000">GGGGGGGG</font> 00000000
punpcklbw mm2,
;mm2=<font color="#0000ff">BBBBBBBB</font> 00000000 <font color="#0000ff">BBBBBBBB</font> 00000000 <font color="#0000ff">BBBBBBBB</font> 00000000 <font color="#0000ff">BBBBBBBB</font> 00000000
pand mm0,mm7
;mm0=<font color="#ff0000">RRRRR</font>000 00000000 <font color="#ff0000">RRRRR</font>000 00000000 <font color="#ff0000">RRRRR</font>000 00000000 <font color="#ff0000">RRRRR</font>000 00000000
pand mm1,mm6
;mm1=<font color="#008000">GGGGGG</font>00 00000000 <font color="#008000">GGGGGG</font>00 00000000 <font color="#008000">GGGGGG</font>00 00000000 <font color="#008000">GGGGGG</font>00 00000000
psrlw mm2,11
;mm2=00000000 000<font color="#0000ff">BBBBB</font> 00000000 000<font color="#0000ff">BBBBB</font> 00000000 000<font color="#0000ff">BBBBB</font> 00000000 000<font color="#0000ff">BBBBB</font>
psrlw mm1,5
;mm1=00000<font color="#008000">GGG GGG</font>00000 00000<font color="#008000">GGG GGG</font>00000 00000<font color="#008000">GGG GGG</font>00000 00000<font color="#008000">GGG GGG</font>00000
por mm0,mm2
por mm0,mm1
;mm0=<font color="#ff0000">RRRRR</font><font color="#008000">GGG GGG</font><font color="#0000ff">BBBBB</font>
                                                        <font color="#ff0000">RRRRR</font><font color="#008000">GGG GGG</font><font color="#0000ff">BBBBB</font>
                                                        <font color="#ff0000">RRRRR</font><font color="#008000">GGG GGG</font><font color="#0000ff">BBBBB</font>
                                                        <font color="#ff0000">RRRRR</font><font color="#008000">GGG GGG</font><font color="#0000ff">BBBBB</font>
movq ,mm0
add edx,4</font><font face="Tahoma" size="2">
                                                </font></pre><font face="Tahoma" size="2">我们对 MMX 的运用是针对它的并行运算, 直接从 RGB888 格式利用并行处理变成 RGB565 似乎不可能, 但是, 如果我们将 RGB 三个色素分开存放, 就将其变为了可能. 可以同时读入 4 个色素, 并行处理, 然后合并, 这样便在一个循环内处理了 4 个点. 考虑到 CACHE 的效率, 最好不要将 RGB 三块内存分的太开. 我的建议是, 位图的每一行分成三个部分, 即为 Red 段, Green 段 和 Blue 段.</font>
                                        <p><font face="Tahoma" size="2">上面的方法都是可以继续优化的, 本文旨在启发朋友们的灵感, 找出更好的方法.</font></p><p><font face="Tahoma" size="2">&nbsp;</font></p></td></tr></tbody></table>
页: [1]
查看完整版本: 真彩色转成高彩色的快速算法