SSE图像算法优化系列六:OpenCv关于灰度积分图的SSE代码学习与改善。

  最近一直沉迷于SSE方面的优化,实在找不顶想上的参考资料了,就用个笔记本放在腿上译翻OpenCv的源代码,无意中观看了OpenCv中有关积分图的代码,仔细研习了平胡,觉得OpenCv对SSE的灵活运用真的开的十分好,这里记录下我本着该段代码的品并以那个思路扩展及任何通道数之图像。

     该中心代码位于:Opencv
3.0\opencv\sources\modules\imgproc\src\sumpixels.cpp文件中。

   
 我们贴出最感谢兴趣之一模一样有些代码以便分析:

    bool operator()(const uchar * src, size_t _srcstep,int * sum, size_t _sumstep,double * sqsum, size_t, int * tilted, size_t,Size size, int cn) const
    {
        if (sqsum || tilted || cn != 1 || !haveSSE2) return false;
        // the first iteration
        memset(sum, 0, (size.width + 1) * sizeof(int));
        __m128i v_zero = _mm_setzero_si128(), prev = v_zero;
        int j = 0;
        // the others
        for (int i = 0; i < size.height; ++i)
        {
            const uchar * src_row = src + _srcstep * i;
            int * prev_sum_row = (int *)((uchar *)sum + _sumstep * i) + 1;
            int * sum_row = (int *)((uchar *)sum + _sumstep * (i + 1)) + 1;
            sum_row[-1] = 0;
            prev = v_zero;
            j = 0;
            for ( ; j + 7 < size.width; j += 8)
            {
                __m128i vsuml = _mm_loadu_si128((const __m128i *)(prev_sum_row + j));
                __m128i vsumh = _mm_loadu_si128((const __m128i *)(prev_sum_row + j + 4));
                __m128i el8shr0 = _mm_loadl_epi64((const __m128i *)(src_row + j));
                __m128i el8shr1 = _mm_slli_si128(el8shr0, 1);
                __m128i el8shr2 = _mm_slli_si128(el8shr0, 2);
                __m128i el8shr3 = _mm_slli_si128(el8shr0, 3);
                vsuml = _mm_add_epi32(vsuml, prev);
                vsumh = _mm_add_epi32(vsumh, prev);
                __m128i el8shr12 = _mm_add_epi16(_mm_unpacklo_epi8(el8shr1, v_zero),
                                                 _mm_unpacklo_epi8(el8shr2, v_zero));
                __m128i el8shr03 = _mm_add_epi16(_mm_unpacklo_epi8(el8shr0, v_zero),
                                                 _mm_unpacklo_epi8(el8shr3, v_zero));
                __m128i el8 = _mm_add_epi16(el8shr12, el8shr03);
                __m128i el4h = _mm_add_epi16(_mm_unpackhi_epi16(el8, v_zero),
                                             _mm_unpacklo_epi16(el8, v_zero));
                vsuml = _mm_add_epi32(vsuml, _mm_unpacklo_epi16(el8, v_zero));
                vsumh = _mm_add_epi32(vsumh, el4h);
                _mm_storeu_si128((__m128i *)(sum_row + j), vsuml);
                _mm_storeu_si128((__m128i *)(sum_row + j + 4), vsumh);
                prev = _mm_add_epi32(prev, _mm_shuffle_epi32(el4h, _MM_SHUFFLE(3, 3, 3, 3)));
            }
            for (int v = sum_row[j - 1] - prev_sum_row[j - 1]; j < size.width; ++j)
                sum_row[j] = (v += src_row[j]) + prev_sum_row[j];
        }

   
 为了证实重新便民,这里贴起自己举行的平常C语言的代码和重复优化后的SSE代码。

     普通C语言:

 void GetGrayIntegralImage(unsigned char *Src, int *Integral, int Width, int Height, int Stride)
 {
      memset(Integral, 0, (Width + 1) * sizeof(int));                    //    第一行都为0
      for (int Y = 0; Y < Height; Y++)
      {
          unsigned char *LinePS = Src + Y * Stride;
          int *LinePL = Integral + Y * (Width + 1) + 1;                 //    上一行位置            
          int *LinePD = Integral + (Y + 1) * (Width + 1) + 1;           //    当前位置,注意每行的第一列的值都为0
          LinePD[-1] = 0;                                               //    第一列的值为0
          for (int X = 0, Sum = 0; X < Width; X++)
          {
             Sum += LinePS[X];                                          //    行方向累加
             LinePD[X] = LinePL[X] + Sum;                               //    更新积分图
          }
     }
}

       优化后底SSE算法:

void GetGrayIntegralImage(unsigned char *Src, int *Integral, int Width, int Height, int Stride)
{
    memset(Integral, 0, (Width + 1) * sizeof(int));            //    第一行都为0
    int BlockSize = 8, Block = Width / BlockSize;
    for (int Y = 0; Y < Height; Y++)
    {
        unsigned char *LinePS = Src + Y * Stride;
        int *LinePL = Integral + Y * (Width + 1) + 1;                //    上一行位置            
        int *LinePD = Integral + (Y + 1) * (Width + 1) + 1;          //    当前位置,注意每行的第一列的值都为0
        LinePD[-1] = 0;
        __m128i PreV = _mm_setzero_si128();
        __m128i Zero = _mm_setzero_si128();
        for (int X = 0; X < Block * BlockSize; X += BlockSize)
        {
            __m128i Src_Shift0 = _mm_unpacklo_epi8(_mm_loadl_epi64((__m128i *)(LinePS + X)), Zero);        //    A7 A6 A5 A4 A3 A2 A1 A0
            __m128i Src_Shift1 = _mm_slli_si128(Src_Shift0, 2);                                            //    A6 A5 A4 A3 A2 A1 A0 0     
            __m128i Src_Shift2 = _mm_slli_si128(Src_Shift1, 2);    //    移位改成基于Shift0,速度慢,Why?    //    A5 A4 A3 A2 A1 A0 0  0
            __m128i Src_Shift3 = _mm_slli_si128(Src_Shift2, 2);                                            //    A4 A3 A2 A1 A0 0  0  0
            __m128i Shift_Add12 = _mm_add_epi16(Src_Shift1, Src_Shift2);                                   //    A6+A5 A5+A4 A4+A3 A3+A2 A2+A1 A1+A0 A0+0  0+0
            __m128i Shift_Add03 = _mm_add_epi16(Src_Shift0, Src_Shift3);                                   //    A7+A4 A6+A3 A5+A2 A4+A1 A3+A0 A2+0  A1+0  A0+0    
            __m128i Low = _mm_add_epi16(Shift_Add12, Shift_Add03);                                         //    A7+A6+A5+A4 A6+A5+A4+A3 A5+A4+A3+A2 A4+A3+A2+A1 A3+A2+A1+A0 A2+A1+A0+0 A1+A0+0+0 A0+0+0+0
            __m128i High = _mm_add_epi32(_mm_unpackhi_epi16(Low, Zero), _mm_unpacklo_epi16(Low, Zero));    //    A7+A6+A5+A4+A3+A2+A1+A0  A6+A5+A4+A3+A2+A1+A0  A5+A4+A3+A2+A1+A0  A4+A3+A2+A1+A0
            __m128i SumL = _mm_loadu_si128((__m128i *)(LinePL + X + 0));
            __m128i SumH = _mm_loadu_si128((__m128i *)(LinePL + X + 4));
            SumL = _mm_add_epi32(SumL, PreV);
            SumL = _mm_add_epi32(SumL, _mm_unpacklo_epi16(Low, Zero));
            SumH = _mm_add_epi32(SumH, PreV);
            SumH = _mm_add_epi32(SumH, High);
            PreV = _mm_add_epi32(PreV, _mm_shuffle_epi32(High, _MM_SHUFFLE(3, 3, 3, 3)));
            _mm_storeu_si128((__m128i *)(LinePD + X + 0), SumL);
            _mm_storeu_si128((__m128i *)(LinePD + X + 4), SumH);
        }
        for (int X = Block * BlockSize, V = LinePD[X - 1] - LinePL[X - 1]; X < Width; X++)
        {
            V += LinePS[X];
            LinePD[X] = V + LinePL[X];
        }
   }

  我们先行来分解下就段代码的SSE优化过程吧。

   
 首先,用_mm_loadl_epi64一次性加载8单字节数据及XMM寄存器中,其中寄存器的高8位位0,此时寄存器的多寡吧:

      高位            0  0  0  0  0  0  0
 0 A7 A6 A5 A4 A3 A2 A1 A0        低位   (8位)

   
 因为涉嫌到加法,并且最酷呢8独字节数据的加法,因此转换到16个数据类型,使用_mm_unpacklo_epi8结合zero即可实现。

     此时XMM寄存器内容变为:

           Src_Shift0    A7 A6 A5 A4 A3 A2 A1 A0    (16位)

     此后起3破走分别取:

            Src_Shift1    A6 A5 A4 A3 A2 A1 A0 0       (16位)
            Src_Shift2    A5 A4 A3 A2 A1 A0 0  0     (16位)
            Src_Shift3    A4 A3 A2 A1 A0 0  0  0         (16位)

  通过_mm_add_epi16分别对4组16位数据进行8次相加:

            Shift_Add12   A6+A5 A5+A4 A4+A3 A3+A2 A2+A1 A1+A0 A0+0  0+0   (16位)
            Shift_Add03   A7+A4 A6+A3 A5+A2 A4+A1 A3+A0 A2+0  A1+0  A0+0   (16位)  

  再对他们进行相加:

        Low            A7+A6+A5+A4 A6+A5+A4+A3 A5+A4+A3+A2 A4+A3+A2+A1 A3+A2+A1+A0 A2+A1+A0+0 A1+A0+0+0 A0+0+0+0

   
 注意到低4个的16个数都是连接相加的数码了,只要以他们更换为32号就是足以一直用。

     而通过 __m128i High =
_mm_add_epi32(_mm_unpackhi_epi16(Low, Zero),
_mm_unpacklo_epi16(Low, Zero)); 这无异于句则可以把前的高4个连续相加的值拼接起来得到:

       High                
 A7+A6+A5+A4+A3+A2+A1+A0  A6+A5+A4+A3+A2+A1+A0  A5+A4+A3+A2+A1+A0
 A4+A3+A2+A1+A0

  后面的操作则顺理成章了。

     
 注意到本人基本的改变在于原始代码中之el8shr12及el8shr03的精打细算中的_mm_unpacklo_epi8给破除了,而在el8shr0同样句被长了一个_mm_unpacklo_epi8,因此丢掉了3糟是函数,很强烈这样做是休会见转移计算结果的。

     
 另外源代码中之部分_mm_add_epi16被我用_mm_add_epi32代表了,这关键是为用_mm_add_epi32意义又醒目,而且由于高位数据为0,他们的施行结果莫见面有外区别。

   还有一些于测试时意识,如果Src_Shift2,Src_Shift3的移动是因Src_Shift0,即采用如下代码:

__m128i Src_Shift2 = _mm_slli_si128(Src_Shift0, 4);    
__m128i Src_Shift3 = _mm_slli_si128(Src_Shift0, 6);

  
速度会产生比较明显的暴跌,难道说走的位数多少以及CPU的耗时有关?

     
以上是灰度模式之算法,在自的笔记本电脑上,SSE优化后底说话虽然多了过多,但是实行效率大概能升级30%,不过当片PC上,普通的C和SSE优化后倒无吗速度分了,这为不晓得凡是怎了。

     
如果是对准24个还是32员图像,基本的优化思想是同一的,不过起重多的细节需要团结只顾。

     
24各项或32各图像于其它机器配置上,速度还能够发出30%底提升的。

     
还是感觉这种算法用文字很为难发挥清楚,用代码再添加自己之半空中做或重会了解吧。

 

图片 1