FC2カウンター FPGAの部屋 ラプラシアンフィルタのソフトウェアとハードウェアの速度の比較2

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

ラプラシアンフィルタのソフトウェアとハードウェアの速度の比較2

ラプラシアンフィルタのソフトウェアとハードウェアの速度の比較”の続き。

前回は2つのVivado HLS 2014.4 で使用した2つのCソースコードをソフトウェアに適用したら、どの程度の処理速度になるかを調べた。Vivado HLS 2014.4 で使用したコードをソフトウェアに移行したら速くなることが分かった。更に、ほとんど同一のCソースコードによるソフトウェアとハードウェアでのラプラシアンフィルタの処理速度の違いを測定した。

今回は、”ZYBO用Ubuntu Linux のカメラで撮った画像にラプラシアンフィルタをかける”のソフトウェアによるラプラシアンフィルタで使用したCソースコードをVivado HLS 2014.4 で高位合成したら、どの程度速くなるかを検証する。

まずは、Vivado HLS 2014.4 用のラプラシアンフィルタのCソースコードを示す。このCソースコードはmamcpy() を使用していない。つまり、AXI4バスはバースト転送が出来ないはずだ。
(2015/07/02: laplacian_filter.c が間違っていたので、修正しました。最初のラインを読むときに1ライン同じものを読んでしまってました)
(2015/07/26: バグ修正、line_buf[(y+1)%3][x+1] = cam_fb_addr[((y+1)*HORIZONTAL_PIXEL_WIDTH)+(x+1)];)

// laplacian_filter.c
// lap_filter_axim()

#include <stdio.h>
#include <string.h>

#define HORIZONTAL_PIXEL_WIDTH    800
#define VERTICAL_PIXEL_WIDTH    600
#define ALL_PIXEL_VALUE    (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)

int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);

int lap_filter_axim(int cam_addr, int lap_addr, volatile int *cam_fb, volatile int *lap_fb)
{
    #pragma HLS INTERFACE s_axilite port=cam_addr bundle=BUS_AXI4LS
    #pragma HLS INTERFACE s_axilite port=lap_addr bundle=BUS_AXI4LS
    #pragma HLS INTERFACE s_axilite port=return bundle=BUS_AXI4LS
    #pragma HLS INTERFACE ap_none port=cam_addr
    #pragma HLS INTERFACE ap_none port=lap_addr

    #pragma HLS INTERFACE m_axi port=cam_fb depth=1920
    #pragma HLS INTERFACE m_axi port=lap_fb depth=1920

    unsigned int line_buf[3][HORIZONTAL_PIXEL_WIDTH];
    int x, y;
    int lap_fil_val;
    int a, b;
    int fl, sl, tl;
    int *cam_fb_addr, *lap_fb_addr;

    cam_fb_addr = (int *)(cam_fb+(cam_addr/sizeof(int)));
    lap_fb_addr = (int *)(lap_fb+(lap_addr/sizeof(int)));

    // RGB値をY(輝度成分)のみに変換し、ラプラシアンフィルタを掛けた。
    for (y=0; y<VERTICAL_PIXEL_WIDTH; y++){
        for (x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
            if (y==0 || y==VERTICAL_PIXEL_WIDTH-1){ // 縦の境界の時の値は0とする
                lap_fil_val = 0;
            }else if (x==0 || x==HORIZONTAL_PIXEL_WIDTH-1){ // 横の境界の時も値は0とする
                lap_fil_val = 0;
            }else{
                if (y == 1 && x == 1){ // 最初のラインの最初のピクセルでは2ライン分の画素を読み出す
                    for (a=0; a<2; a++){ // 2ライン分
                        for (b=0; b<HORIZONTAL_PIXEL_WIDTH; b++){ // ライン
                            line_buf[a][b] = cam_fb_addr[(a*HORIZONTAL_PIXEL_WIDTH)+b];
                            line_buf[a][b] = conv_rgb2y(line_buf[a][b]);
                        }
                    }
                }
                if (x == 1) {    // ラインの最初なので、2つのピクセルを読み込む
                    for (b=0; b<2; b++){ // ライン
                        line_buf[(y+1)%3][b] = cam_fb_addr[((y+1)*HORIZONTAL_PIXEL_WIDTH)+b];
                        // (y+1)%3 は、使用済みのラインがに読み込む、y=2 の時 line[0], y=3の時 line[1], y=4の時 line[2]
                        line_buf[(y+1)%3][b] = conv_rgb2y(line_buf[(y+1)%3][b]);
                    }
                }
                
                // 1つのピクセルを読み込みながらラプラシアン・フィルタを実行する
                line_buf[(y+1)%3][x+1] = cam_fb_addr[((y+1)*HORIZONTAL_PIXEL_WIDTH)+(x+1)];
                // (y+1)%3 は、使用済みのラインがに読み込む、y=2 の時 line[0], y=3の時 line[1], y=4の時 line[2]
                line_buf[(y+1)%3][x+1] = conv_rgb2y(line_buf[(y+1)%3][x+1]);
                
                fl = (y-1)%3;    // 最初のライン, y=1 012, y=2 120, y=3 201, y=4 012
                sl = y%3;        // 2番めのライン
                tl = (y+1)%3;    // 3番目のライン
                lap_fil_val = laplacian_fil(line_buf[fl][x-1], line_buf[fl][x], line_buf[fl][x+1], line_buf[sl][x-1], line_buf[sl][x], line_buf[sl][x+1], line_buf[tl][x-1], line_buf[tl][x], line_buf[tl][x+1]);
            }
            // ラプラシアンフィルタ・データの書き込み
            lap_fb_addr[(y*HORIZONTAL_PIXEL_WIDTH)+x] = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val ;
            // printf("x = %d  y = %d", x, y);
        }
     }
     return(1);
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}


Vivado HLS 2014.4 のlap_filter_axim_soft_2014_4 で C Synthesis を行った。
soft_hard_comp_3_150701.png

soft_hard_comp_4_150701.png

次にIP 化を行った。

そのIP を”Vivado HLS 2014.4 で合成したラプラシアンフィルタIPの高速化14(性能が最大になる設定を探る7、まとめ)”の”6. 5. から AXI Interconnect (axi_mem_intercon_1) の設定のSlave Interface タブの Enable Register Slice を Auto、Enable Data FIFO を 32 deep に変更した。”のプロジェクトをコピーし、V_ZYBO_CAMDfL_soft_144 フォルダに改名して、ラプラシアンフィルタIP を入れ替えた。
soft_hard_comp_5_150701.png

論理合成、インプリメント、ビットストリームの生成を行った。
soft_hard_comp_6_150701.png

soft_hard_comp_7_150701.png

ハードウェアをエクスポートして、SDKを立ちあげた。

FSBLを作り直して、BOOT.bin を作製した。
soft_hard_comp_8_150701.png

soft_hard_comp_9_150701.png

BOOT.bin をSDカードにコピーして、ZYBOのSDカードを挿入してLinuxを立ちあげた。(BOOT_soft.bin)
linaro ユーザーでログインし、Apps/lap_fil_hls_1shot フォルダに移動して、./cam_disp_uio でカメラ画像をディスプレイに表示してから、./lap_fil_hls_1shot でVivado HLS 2014.4 で作製したハードウェアのラプラシアンフィルタを起動した。

ラプラシアンフィルタのみの処理時間は、509 ms だった。
soft_hard_comp_10_150701.png

ソフトウェアのラプラシアンフィルタのみの処理時間は、448 ms だった。”ラプラシアンフィルタのソフトウェアとハードウェアの速度の比較”のlaplacian_filter1 を参照のこと。

ソフトウェアをハードウェアにしたところ 448 ms / 509 ms ≒ 0.880 倍になった。つまり、ハードウェアの方が遅くなった。
この結果を見ても、Cソースコードをハードウェアに最適化するのが重要だということがよくわかると思う。
  1. 2015年07月01日 04:57 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:2

コメント

ソフトウェアでは画像は面として2次元でとらえるのに対して、ハードウェアは
1次元の線としてとらえるので、その違いが処理時間に影響するのでしょうね。
画像処理などのアルゴリズムは面として処理することが多いので、高位合成しても
速度があまり改善できないのでしょうか。
まだまだ、こういう次元を変換するような場面は人間の出番がありそうですね。
  1. 2015/07/01(水) 18:32:47 |
  2. URL |
  3. おる #-
  4. [ 編集 ]

今回のCソースコードに関しては、ReadもWriteもバースト転送出来ていないのが一番効いていそうです。
  1. 2015/07/02(木) 20:34:36 |
  2. URL |
  3. marsee #f1oWVgn2
  4. [ 編集 ]

コメントの投稿


管理者にだけ表示を許可する

トラックバック URL
http://marsee101.blog19.fc2.com/tb.php/3189-84127aa6
この記事にトラックバックする(FC2ブログユーザー)