FC2カウンター FPGAの部屋 Vivado HLS

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

AXI4 Stream版白線追従走行用畳み込みニューラルネットワークIPその1(C シミュレーション)

白線追従走行用畳み込みニューラルネットワークの製作18(Vivado HLSでCシミュレーション)
白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)
で作成した白線追従走行用畳み込みニューラルネットワークをAXI4 Streamで入力するように変更した。これは、”Vivado HLS で画像のサイズを縮小して白黒変換2(resize_gray)”のAXI4 Stream 入力を受けて、白線追従走行用畳み込みニューラルネットワークにそのAXI4 Stream データを入力して処理する。

straight_conv_nn2_axis プロジェクトを Ubuntu 16.04 上のVivado HLS 2016.4 で作成した。
wlt_cnn_139_170908.png

C シミュレーションを行った。結果を示す。
wlt_cnn_140_170908.png
出力結果を貼っておく。

INFO: [SIM 2] *************** CSIM start ***************
INFO: [SIM 4] CSIM will launch GCC as the compiler.
Compiling ../../../straight_conv_nn2_axis_tb.cpp in debug mode
Generating csim.exe
*straight0.bmp
outs[0] = -6.218750 outs[1] = 3.812500 outs[2] = -3.078125
*straight1.bmp
outs[0] = -5.625000 outs[1] = 2.500000 outs[2] = -1.796875
*straight2.bmp
outs[0] = -3.796875 outs[1] = 4.015625 outs[2] = -5.890625
*straight3.bmp
outs[0] = -3.484375 outs[1] = 0.875000 outs[2] = -2.140625
*straight4.bmp
outs[0] = -0.765625 outs[1] = 2.218750 outs[2] = -6.156250
*straight5.bmp
outs[0] = -5.468750 outs[1] = 3.046875 outs[2] = -2.828125
*straight6.bmp
outs[0] = -6.500000 outs[1] = 5.062500 outs[2] = -4.234375
*straight7.bmp
outs[0] = -5.140625 outs[1] = 2.187500 outs[2] = -1.312500
*straight8.bmp
outs[0] = 1.359375 outs[1] = 1.546875 outs[2] = -8.156250
*straight9.bmp
outs[0] = -5.390625 outs[1] = 2.515625 outs[2] = -1.375000
*straight10.bmp
outs[0] = 1.718750 outs[1] = 1.640625 outs[2] = -8.796875
*left_turn0.bmp
outs[0] = 5.671875 outs[1] = -0.515625 outs[2] = -9.937500
*left_turn1.bmp
outs[0] = 5.093750 outs[1] = -3.734375 outs[2] = -3.078125
*left_turn2.bmp
outs[0] = 6.500000 outs[1] = -6.875000 outs[2] = -0.593750
*left_turn3.bmp
outs[0] = 6.078125 outs[1] = -6.546875 outs[2] = -0.515625
*left_turn4.bmp
outs[0] = 6.984375 outs[1] = -9.109375 outs[2] = 1.859375
*left_turn5.bmp
outs[0] = 7.250000 outs[1] = -9.593750 outs[2] = 2.109375
*left_turn6.bmp
outs[0] = 6.359375 outs[1] = -3.046875 outs[2] = -5.593750
*left_turn7.bmp
outs[0] = 8.843750 outs[1] = -8.890625 outs[2] = -1.203125
*left_turn8.bmp
outs[0] = 8.453125 outs[1] = -8.781250 outs[2] = -0.656250
*left_turn9.bmp
outs[0] = 5.343750 outs[1] = -1.062500 outs[2] = -7.953125
*left_turn10.bmp
outs[0] = 7.609375 outs[1] = -6.062500 outs[2] = -3.421875
*right_turn0.bmp
outs[0] = -1.578125 outs[1] = -0.890625 outs[2] = 0.843750
*right_turn1.bmp
outs[0] = 3.828125 outs[1] = -6.937500 outs[2] = 3.937500
*right_turn2.bmp
outs[0] = 3.296875 outs[1] = -5.375000 outs[2] = 2.562500
*right_turn3.bmp
outs[0] = 2.796875 outs[1] = -4.234375 outs[2] = 1.421875
*right_turn4.bmp
outs[0] = 3.562500 outs[1] = -4.625000 outs[2] = 0.843750
*right_turn5.bmp
outs[0] = 2.890625 outs[1] = -3.906250 outs[2] = 0.328125
*right_turn6.bmp
outs[0] = -2.109375 outs[1] = -0.312500 outs[2] = -1.296875
*right_turn7.bmp
outs[0] = 0.281250 outs[1] = -2.843750 outs[2] = 2.375000
*right_turn8.bmp
outs[0] = 0.671875 outs[1] = -5.812500 outs[2] = 6.656250
*right_turn9.bmp
outs[0] = 1.562500 outs[1] = -4.765625 outs[2] = 3.437500
*right_turn10.bmp
outs[0] = 3.515625 outs[1] = -7.093750 outs[2] = 4.437500
INFO: [SIM 1] CSim done with 0 errors.
INFO: [SIM 3] *************** CSIM finish ***************


right_turn2.bmp、right_turn3.bmp、right_turn4.bmp が左旋回にミスっているが、下の図を見ると左旋回とも取れる画像になっているので仕方ないかもしれない。右旋回のミスは多いかもしれない?
wlt_cnn_141_170908.jpg

right_turn2.bmp、right_turn3.bmp、right_turn4.bmp はどのようなシチュエーションなのかを示す。

2: 角度 -5 度、左車輪逸脱車体1/4
3: 角度 -10 度、左車輪逸脱車体1/4
4: 角度 0 度、左車輪逸脱車体1/2


staight_conv_nn2_axis.cpp を貼っておく。

// straight_conv_nn2_axis.cpp
// 2017/09/05 by marsee
// 畳み込み層のカーネル数 2
// AXI4 Stream入力
//

#include <ap_fixed.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>

#include "conv1_weight.h"
#include "conv1_bias.h"
#include "af1_weight.h"
#include "af1_bias.h"
#include "af2_weight.h"
#include "af2_bias.h"

#define REDUSED_ROW        45
#define REDUSED_COULMN    60
#define NUM_OF_KERNELS    2
#define COULMN_PIXELS    56
#define ROW_PIXELS        10
#define ALL_PIXELS        560
#define NUM_OF_OUTPUT    3

int straight_conv_nn2_axis(hls::stream<ap_axiu<32,1,1,1> >& ins, ap_fixed<137, AP_TRN_ZERO, AP_SAT> outs[NUM_OF_OUTPUT]){
#pragma HLS INTERFACE s_axilite port=return
#pragma HLS INTERFACE s_axilite port=outs
#pragma HLS INTERFACE axis register both port=ins
    ap_ufixed<80, AP_TRN_ZERO, AP_SAT> buf[ROW_PIXELS][COULMN_PIXELS];
    ap_fixed<106, AP_TRN_ZERO, AP_SAT> conv_out[NUM_OF_KERNELS][ROW_PIXELS-4][COULMN_PIXELS-4];
    ap_fixed<106, AP_TRN_ZERO, AP_SAT> pool_out[NUM_OF_KERNELS][(ROW_PIXELS-4)/2][(COULMN_PIXELS-4)/2];
    ap_fixed<137, AP_TRN_ZERO, AP_SAT> dot1[100];
    ap_fixed<137, AP_TRN_ZERO, AP_SAT> dot2[NUM_OF_OUTPUT];
    ap_axiu<32,1,1,1> pix;

    do {
#pragma HLS LOOP_TRIPCOUNT min=1 max=1 avg=1
    // user が 1になった時にフレームがスタートする
        ins >> pix;
    } while(pix.user == 0);

    // 10 x 56 に整形
    buf_copy1: for(int i=0; i<REDUSED_ROW; i++){
        buf_copy2: for(int j=0; j<REDUSED_COULMN; j++){
            if (!(i==0 && j==0))    // 最初の入力はすでに入力されている
                ins >> pix;    // AXI4-Stream からの入力

            if((i>=33 && i<33+ROW_PIXELS) && (j>=2 && j<2+COULMN_PIXELS)){
                buf[i-33][j-2] = (ap_ufixed<80, AP_TRN_ZERO, AP_SAT>)((ap_ufixed<168, AP_TRN_ZERO, AP_SAT>)(pix.data & 0xff) / 256);
                //printf("%1x", (((unsigned int)pix.data&0xff)+8)/16);
                //if(j==2+COULMN_PIXELS-1)
                //    printf("\n");
            }
        }
    }

    // Convolutional Neural Network 5x5 kernel, Stride = 1, Padding = 0
    // + ReLU
    CONV1: for(int i=0; i<NUM_OF_KERNELS; i++){    // カーネルの個数
        CONV2: for(int j=0; j<ROW_PIXELS-4; j++){
            CONV3: for(int k=0; k<COULMN_PIXELS-4; k++){
                conv_out[i][j][k] = 0;
                CONV4: for(int m=0; m<5; m++){
                    CONV5: for(int n=0; n<5; n++){
                        conv_out[i][j][k] += buf[j+m][k+n] * conv1_weight[i][0][m][n];
                    }
                }
                conv_out[i][j][k] += conv1_bias[i];

                if(conv_out[i][j][k]<0)    // ReLU
                    conv_out[i][j][k] = 0;
            }
        }
    }

    // Pooling Kernel = 2 x 2, Stride = 2
    POOL1: for(int i=0; i<NUM_OF_KERNELS; i++){
        POOL2: for(int j=0; j<ROW_PIXELS-4; j += 2){
            POOL3: for(int k=0; k<COULMN_PIXELS-4; k += 2){
                POOL4: for(int m=0; m<2; m++){
                    POOL5: for(int n=0; n<2; n++){
                        if(m==0 && n==0){
                            pool_out[i][j/2][k/2] = conv_out[i][j][k];
                        } else if(pool_out[i][j/2][k/2] < conv_out[i][j+m][k+n]){
                            pool_out[i][j/2][k/2] = conv_out[i][j+m][k+n];
                        }
                    }
                }
            }
        }
    }

    af1_dot1: for(int col=0; col<100; col++){
        dot1[col] = 0;
        af1_dot2: for(int i=0; i<NUM_OF_KERNELS; i++){
            af1_dot3: for(int j=0; j<(ROW_PIXELS-4)/2; j++){
                af1_dot4: for(int k=0; k<(COULMN_PIXELS-4)/2; k++){
                    dot1[col] += pool_out[i][j][k]*af1_weight[i*((ROW_PIXELS-4)/2)*((COULMN_PIXELS-4)/2)+j*((COULMN_PIXELS-4)/2)+k][col];
                }
            }
        }
        dot1[col] += af1_bias[col];

        if(dot1[col] < 0)    // ReLU
            dot1[col] = 0;
    }

    af2_dot1: for(int col=0; col<NUM_OF_OUTPUT; col++){
        dot2[col] = 0;
        af2_dot2: for(int row=0; row<100; row++){
            dot2[col] += dot1[row]*af2_weight[row][col];
        }
        dot2[col] += af2_bias[col];

        outs[col] = dot2[col];
    }

    return(0);
}


staight_conv_nn2_axis_tb.cpp を貼っておく。

// straight_conv_nn2_axis_tb.cpp
// 2017/09/06 by marsee
//

#include <iostream>
#include "hls_opencv.h"
#include "ap_axi_sdata.h"
#include "hls_video.h"

#define MAX_HEIGHT  600
#define MAX_WIDTH   800

typedef hls::stream<ap_axiu<32,1,1,1> > AXI_STREAM;
typedef hls::Mat<MAX_HEIGHT, MAX_WIDTH, HLS_8UC3> RGB_IMAGE;
typedef hls::Mat<MAX_HEIGHT, MAX_WIDTH, HLS_8UC1> GRAY_IMAGE;

using namespace cv;

#define NUM_OF_OUTPUT   3

#define MAX_LOOP_COUNT    11
//#define MAX_LOOP_COUNT  1   // for C/RTL Co-Simulation

int straight_conv_nn2_axis(AXI_STREAM& ins, ap_fixed<137, AP_TRN_ZERO, AP_SAT> outs[NUM_OF_OUTPUT]);
int resize_gray(AXI_STREAM& ins, AXI_STREAM& outs);
int main_output_loop(char *buf);

int main () {
    char buf[200];

    sprintf(buf, "%s""straight");
    main_output_loop(buf);

    sprintf(buf, "%s""left_turn");
    main_output_loop(buf);

    sprintf(buf, "%s""right_turn");
    main_output_loop(buf);

    return(0);
}

int main_output_loop(char *buf){
    char bmp_file_name[200];
    ap_fixed<137, AP_TRN_ZERO, AP_SAT> outs[NUM_OF_OUTPUT];
    AXI_STREAM src_axi, dst_axi;
    Mat src;

    for(int i=0; i<MAX_LOOP_COUNT; i++){
        sprintf(bmp_file_name, "%s%d.bmp", buf, i);

        // OpenCV で 画像を読み込む
        src = imread(bmp_file_name);

        // Mat フォーマットから AXI4 Stream へ変換
        cvMat2AXIvideo(src, src_axi);

        // resize_gray() 関数をコール
        resize_gray(src_axi, dst_axi);

        straight_conv_nn2_axis(dst_axi, outs);

        printf("*%s\n", bmp_file_name);
        for(int i=0; i<NUM_OF_OUTPUT; i++)
            printf("outs[%d] = %f ", i, (float)outs[i]);
        printf("\n");
    }

    return(0);
}

int resize_gray(AXI_STREAM& ins, AXI_STREAM& outs){

    RGB_IMAGE org_img(600800);
    GRAY_IMAGE org_img_g(600800);
    GRAY_IMAGE resize_img_g(4560);
    RGB_IMAGE resize_img(4560);

    hls::AXIvideo2Mat(ins, org_img);
    hls::CvtColor<HLS_BGR2GRAY>(org_img, org_img_g);
    hls::Resize(org_img_g, resize_img_g);
    hls::CvtColor<HLS_GRAY2BGR>(resize_img_g, resize_img);
    hls::Mat2AXIvideo(resize_img, outs);

    return(0);
}

  1. 2017年09月08日 05:33 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

Vivado HLS で画像のサイズを縮小して白黒変換2(resize_gray)

Vivado HLS で画像のサイズを縮小して白黒変換(resize_gray)”を少し修正した。resize_grey はOpenCV やHLS ビデオライブラリを使用して画像をリサイズして白黒変換するのだが、その色のビット・フィールドのアサインはBGR になっている。現在の自作カメラ・インターフェイス IP などのハードウェアの色ビットの割り当てはRGB になっているので、色のビット・フィールドを入れ替える必要がある。そのため、resize_gray の色ビット・フィールドをRGB に入れ替えようと思う。

新しい resize_gray.cpp を貼っておく。

// resize_gray.cpp
// 2017/08/31 by marsee
// 2017/09/06 : BRG to RGB
//

#include "resize_gray.h"

int resize_gray(AXI_STREAM& ins, AXI_STREAM& outs){
#pragma HLS INTERFACE axis register both port=outs
#pragma HLS INTERFACE axis register both port=ins
#pragma HLS DATAFLOW
#pragma HLS INTERFACE s_axilite port=return

    RGB_IMAGE org_img(600800);
    GRAY_IMAGE org_img_g(600800);
    GRAY_IMAGE resize_img_g(4560);
    RGB_IMAGE resize_img(4560);

    hls::AXIvideo2Mat(ins, org_img);
    hls::CvtColor<HLS_RGB2GRAY>(org_img, org_img_g);
    hls::Resize(org_img_g, resize_img_g);
    hls::CvtColor<HLS_GRAY2RGB>(resize_img_g, resize_img);
    hls::Mat2AXIvideo(resize_img, outs);

    return(0);
}


次に、resize_gray_tb.cpp を貼っておく。

// resize_gray_tb.cpp
// 2017/08/31 by marsee
// 2017/09/06 : BRG to RGB
//

#include <iostream>
#include "hls_opencv.h"
#include "resize_gray.h"

using namespace cv;

#define INPUT_IMAGE        "straight0.bmp"
#define OUTPUT_IMAGE    "test_straight0.bmp"
#define OUTPUT_IMAGE_CV    "test_straight0_cv.bmp"

void resize_gray(AXI_STREAM& ins, AXI_STREAM& outs);
void opencv_resize_gray(Mat& src, Mat& dst);

int main (int argc, char** argv) {
    // OpenCV で 画像を読み込む
    Mat src = imread(INPUT_IMAGE);
    AXI_STREAM src_axi, dst_axi;

    // BGR から RGBへ変換
    Mat src_rgb;
    cvtColor(src, src_rgb, CV_BGR2RGB);

    // Mat フォーマットから AXI4 Stream へ変換
    cvMat2AXIvideo(src_rgb, src_axi);

    // resize_gray() 関数をコール
    resize_gray(src_axi, dst_axi);

    // AXI4 Stream から Mat フォーマットへ変換
    // dst は宣言時にサイズとカラー・フォーマットを定義する必要がある
    Mat dst_rgb(4560, CV_8UC3);
    AXIvideo2cvMat(dst_axi, dst_rgb);
    Mat dst;
    cvtColor(dst_rgb, dst, CV_RGB2BGR);

    // Mat フォーマットからファイルに書き込み
    imwrite(OUTPUT_IMAGE, dst);

    // opencv_resize_gray() をコール
    Mat dst_cv(4560, CV_8UC3);
    opencv_resize_gray(src, dst_cv);
    imwrite(OUTPUT_IMAGE_CV, dst_cv);

    // dst と dst_cv が同じ画像かどうか?比較する
    for (int y=0; y<45; y++){
        Vec3b* dst_ptr = dst.ptr<Vec3b>(y);
        Vec3b* dst_cv_ptr = dst_cv.ptr<Vec3b>(y);
        for (int x=0; x<60; x++){
            Vec3b dst_bgr = dst_ptr[x];
            Vec3b dst_cv_bgr = dst_cv_ptr[x];

            // bgr のどれかが間違っていたらエラー
            if (std::pow(dst_bgr[0]-dst_cv_bgr[0], 2.0) > 1 || std::pow(dst_bgr[1]-dst_cv_bgr[1], 2.0) > 1
                    || std::pow(dst_bgr[2]-dst_cv_bgr[2], 2.0) > 1){
                printf("x = %d, y = %d,  Error dst=%d,%d,%d dst_cv=%d,%d,%d\n", x, y,
                        dst_bgr[0], dst_bgr[1], dst_bgr[0], dst_cv_bgr[0], dst_cv_bgr[1], dst_cv_bgr[2]);
                //return 1;
            }
        }
    }
    printf("Test with 0 errors.\n");

    return 0;
}

void opencv_resize_gray(Mat& src, Mat& dst){
    Mat gray(src.rows, src.cols, CV_8UC1);
    Mat img0g(4560, CV_8UC1);

    cvtColor(src, gray, CV_BGR2GRAY);
    resize(gray, img0g, img0g.size(), 00, INTER_LINEAR);
    cvtColor(img0g, dst, CV_GRAY2BGR);
}


合成結果は、”Vivado HLS で画像のサイズを縮小して白黒変換(resize_gray)”と全く同じだった。

C/RTL協調シミュレーションも”Vivado HLS で画像のサイズを縮小して白黒変換(resize_gray)”と全く同じだったが、Export RTL は値が違っていた。
wlt_cnn_138_170907.png

BGR の時のExport RTL の結果を示す。
wlt_cnn_109_170901.png

RGB の時のほうがSLICE とLUT が増えている。
  1. 2017年09月07日 05:21 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

Vivado HLS で実装した畳み込みニューラルネットワークの指示子による性能差2

Vivado HLS で実装した畳み込みニューラルネットワークの指示子による性能差”の続き。

前回は、指示子なしの場合の性能とリソース使用量と目いっぱい指示子を入れたときの差を検証した。今回は更に性能が向上したのでご紹介する。

本当は、1クロックで1出力できるのが良いのだが、(何に使うの?というご指摘はもっともだと思うが、それは置いておいて)やってみよう。
conv_out の指示子のARRAY_PARTITION complete dim=1 を dim=3 に変更してみた。dim はどの次元をパーティションするかを支持するオプションで 1 だと 1 次元目、3 だと 3 次元目となる。0 だとすべての次元をバラバラにするのだが、これをしているとコンパイルに時間がかかりすぎる。
wlt_cnn_135_170906.png

これで C コードの合成を行った。結果を示す。
wlt_cnn_136_170906.png

白線追従走行用畳み込みニューラルネットワークのチューニング”では、Latency が 26924クロックだったが、今回は 20065 クロックになっている。Loop を見ると、CONV1_CONV2_CONV3 の Initiation achieved が 14 クロックから 3 クロックに改善されている。
リソース使用量はBRAM_18K が 4 個から 2 個に減った。DSP48E も 27 個から 24 個に減少している。FF は 9909 個から 10981 個に増えている。LUT も 15033 個から 15748 個に増えている。下に”白線追従走行用畳み込みニューラルネットワークのチューニング”の時のC コードの合成結果を貼っておく。
wlt_cnn_129_170904.png

次に、Export RTL を行った。結果を示す。
wlt_cnn_137_170906.png

遅延が 11.385 ns でやはり 100 MHz では動作しないようだ。これは約 87 MHz に相当する。
DSP が 4 個に減ってしまっている。これは大丈夫なのだろうか?
  1. 2017年09月06日 03:59 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

Vivado HLS で実装した畳み込みニューラルネットワークの指示子による性能差

Vivado HLS で実装した白線追従用の畳み込みニューラルネットワークで指示子を入れていないときと入れたときの性能差を比べてみよう。

Vivado HLS で実装した白線追従用の畳み込みニューラルネットワークで指示子を入れていないときの実装は、”白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)”で、指示子を入れたときの実装は”白線追従走行用畳み込みニューラルネットワークのチューニング”だ。

指示子を入れていない、”白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)”のLatency は187374 クロックだった。
wlt_cnn_88_170830.png

指示子を入れたときの実装の”白線追従走行用畳み込みニューラルネットワークのチューニング”では、26924 クロックだった。
wlt_cnn_130_170905.png

性能差は、187374 / 26924 ≒ 6.96 倍だった。

次に、Loop ごとの使用クロックを見てみよう。
指示子を入れていない、”白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)”のLoop ごとの使用クロックを示す。指示子を入れていないので、各Loop の使用クロックがそのまま表示されている。CONVとaf1_dot1 のループ数が多いのが分かる。
wlt_cnn_133_170905.png

指示子を入れたときの実装の”白線追従走行用畳み込みニューラルネットワークのチューニング”では、各ループがPIPELINE指示子によって、展開されてまとめられているのが分かる。使用クロック数も少なくなっている。
wlt_cnn_131_170905.png

最後にリソース使用量を見ていこう。
指示子を入れていない、”白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)”のリソース使用量を示す。
BRAM_18K は 13 個、DSP48E が 9 個、FF は716 個、LUT は 1476 個使用している。
wlt_cnn_134_170905.png

指示子を入れたときの実装の”白線追従走行用畳み込みニューラルネットワークのチューニング”のリソース使用量を示す。
BRAM_18K は 4 個、DSP48E が 27 個、FF は9909 個、LUT は 15033 個使用している。
wlt_cnn_132_170905.png

指示子を入れていない実装に対して、指示子を入れた実装は、BRAM_18K が約 0.31 倍、DSP48E が 3 倍、FF が約 13.8 倍、LUT が約 21.0 倍、LUT が約 10.2 倍になった。
BRAM_18K 以外は、指示子を入れていない実装のほうが指示子を入れた実装よりもリソース使用量が少なかった。

と言う訳で、性能とリソース使用量はトレードオフの関係にあるということができると思う。白線追従の用途では、指示子を入れない実装の処理速度で十分だ。
  1. 2017年09月05日 05:09 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

白線追従走行用畳み込みニューラルネットワークのチューニング

白線追従走行用畳み込みニューラルネットワークの製作18(Vivado HLSでCシミュレーション)
白線追従走行用畳み込みニューラルネットワークの製作19(Cコードの合成、IP化)
で書いた straight_conv_nn2 プロジェクトの straight_conv_nn2.cpp をチューニングしてみた。C ソースコードはそのままに、指示子を挿入して、速度が出るようにやってみたが、結構いい加減に指示子を挿入している。

それでは、最初に今の straight_conv_nn2.cpp を貼っておく。全部貼れないので、一部だけ。それぞれの畳み込みニューラルネットワークの重みとバイアスの固定小数点数の配列は、指示子が入れられないので、straight_conv_nn2.cpp に持ってきた。そこは省略する。

int straight_conv_nn(ap_ufixed<80, AP_TRN_ZERO, AP_SAT> in[ALL_PIXELS], ap_fixed<127, AP_TRN_ZERO, AP_SAT> out[NUM_OF_OUTPUT]){
#pragma HLS ARRAY_PARTITION variable=af1_weight complete dim=1
#pragma HLS ARRAY_PARTITION variable=af2_weight complete dim=1
#pragma HLS ARRAY_PARTITION variable=af2_bias complete dim=1
#pragma HLS ARRAY_PARTITION variable=af1_bias complete dim=1
#pragma HLS ARRAY_PARTITION variable=conv1_bias complete dim=1
#pragma HLS ARRAY_PARTITION variable=conv1_weight complete dim=1
    ap_ufixed<80, AP_TRN_ZERO, AP_SAT> buf[ROW_PIXELS][COULMN_PIXELS];
#pragma HLS ARRAY_PARTITION variable=buf complete dim=1
    ap_fixed<106, AP_TRN_ZERO, AP_SAT> conv_out[NUM_OF_KERNELS][ROW_PIXELS-4][COULMN_PIXELS-4];
#pragma HLS ARRAY_PARTITION variable=conv_out complete dim=1
    ap_fixed<106, AP_TRN_ZERO, AP_SAT> pool_out[NUM_OF_KERNELS][(ROW_PIXELS-4)/2][(COULMN_PIXELS-4)/2];
#pragma HLS ARRAY_PARTITION variable=pool_out complete dim=1
    ap_fixed<137, AP_TRN_ZERO, AP_SAT> dot1[100];
#pragma HLS ARRAY_PARTITION variable=dot1 complete dim=1
    ap_fixed<137, AP_TRN_ZERO, AP_SAT> dot2[NUM_OF_OUTPUT];
#pragma HLS ARRAY_PARTITION variable=dot2 complete dim=1

    buf_copy1: for(int i=0; i<ROW_PIXELS; i++)
        buf_copy2: for(int j=0; j<COULMN_PIXELS; j++)
#pragma HLS PIPELINE II=1
            buf[i][j] = in[i*COULMN_PIXELS+j];

    // Convolutional Neural Network 5x5 kernel, Stride = 1, Padding = 0
    // + ReLU
    CONV1: for(int i=0; i<NUM_OF_KERNELS; i++){    // カーネルの個数
        CONV2: for(int j=0; j<ROW_PIXELS-4; j++){
            CONV3: for(int k=0; k<COULMN_PIXELS-4; k++){
#pragma HLS PIPELINE II=1
                conv_out[i][j][k] = 0;
                CONV4: for(int m=0; m<5; m++){
                    CONV5: for(int n=0; n<5; n++){
                        conv_out[i][j][k] += buf[j+m][k+n] * conv1_weight[i][0][m][n];
                    }
                }
                conv_out[i][j][k] += conv1_bias[i];

                if(conv_out[i][j][k]<0)    // ReLU
                    conv_out[i][j][k] = 0;
            }
        }
    }

    // Pooling Kernel = 2 x 2, Stride = 2
    POOL1: for(int i=0; i<NUM_OF_KERNELS; i++){
        POOL2: for(int j=0; j<ROW_PIXELS-4; j += 2){
            POOL3: for(int k=0; k<COULMN_PIXELS-4; k += 2){
#pragma HLS PIPELINE II=1
                POOL4: for(int m=0; m<2; m++){
                    POOL5: for(int n=0; n<2; n++){
                        if(m==0 && n==0){
                            pool_out[i][j/2][k/2] = conv_out[i][j][k];
                        } else if(pool_out[i][j/2][k/2] < conv_out[i][j+m][k+n]){
                            pool_out[i][j/2][k/2] = conv_out[i][j+m][k+n];
                        }
                    }
                }
            }
        }
    }

    af1_dot1: for(int col=0; col<100; col++){
        dot1[col] = 0;
        af1_dot2: for(int i=0; i<NUM_OF_KERNELS; i++){
            af1_dot3: for(int j=0; j<(ROW_PIXELS-4)/2; j++){
                af1_dot4: for(int k=0; k<(COULMN_PIXELS-4)/2; k++){
#pragma HLS PIPELINE II=1
                    dot1[col] += pool_out[i][j][k]*af1_weight[i*((ROW_PIXELS-4)/2)*((COULMN_PIXELS-4)/2)+j*((COULMN_PIXELS-4)/2)+k][col];
                }
            }
        }
        dot1[col] += af1_bias[col];

        if(dot1[col] < 0)    // ReLU
            dot1[col] = 0;
    }

    af2_dot1: for(int col=0; col<NUM_OF_OUTPUT; col++){
        dot2[col] = 0;
        af2_dot2: for(int row=0; row<100; row++){
#pragma HLS PIPELINE II=1
            dot2[col] += dot1[row]*af2_weight[row][col];
        }
        dot2[col] += af2_bias[col];

        out[col] = dot2[col];
    }

    return(0);
}


Windows 10 Pro 上の Vivado HLS 2016.4 のstraight_conv_nn2_test プロジェクトを示す。
wlt_cnn_128_170904.png

C コードの合成結果を示す。
wlt_cnn_129_170904.png

Estimated は 11.89 ns で 10 ns をオーバーしている。
Latency は 26924 クロックだった。100 MHz のクロックを使用すると 269.24 us で処理できる。
その代わり、リソース使用量は、BRAM_18K は 4 個、DSP48E が 27 個、FF が 9909 個で 28 %、LUT は 15033 個で 85 % を消費している。

Export RTL の結果を見てみよう。
wlt_cnn_130_170904.png

SLiCE は 3555 個、LUT 10845 個、FF 9040 個、DSP 5 個、BRAM 4 個だった。
CP achieved post-implementation の結果は 12.007 ns だった。
  1. 2017年09月04日 05:08 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

画像をリサイズするためにDMA Read IPをVivado HLSで製作した2(dmar4resize_gray)

画像をリサイズするためにDMA Read IPをVivado HLSで製作した1(dmar4resize_gray)”の続き。

前回は、フレームバッファからDMA Read して AXI4 Stream 出力して resize_gray にAXI4 Stream 入力するIP (dmar4resize_gray)のC シミュレーションを行った。Ubuntu 16.04 上のVivado HLS 2016.4 はC シミュレーションがうまく行かなかったが、Windows 10 Pro 上のVivado HLS 2016.4 はC シミュレーションがうまく行った。
今回は、C コードの合成、C/RTL協調シミュレーション、Export RTL を行う。

C コードの合成を行った。まずは、Ubuntu 16.04 上のVivado HLS 2016.4 の結果から示す。
wlt_cnn_121_170901.png
wlt_cnn_122_170901.png

Latency は 480010 クロックで、これは、800 x 600 ピクセルの画像をDMAしているので、余計なクロックは 10 クロックのみである。
リソース使用量はBRAM_18K は 2 個、DSP48E が 0 個、FF が 845 個、LUT が 1047 個だった。

次に、Windows 10 Pro 上のVivado HLS 2016.4 のC コードの合成結果を示す。
wlt_cnn_123_170901.png

Ubuntu 16.04 上のVivado HLS 2016.4 の結果と同じだった。

Ubuntu 16.04 上のVivado HLS 2016.4 でC/RTL協調シミュレーションを行った。
wlt_cnn_124_170901.png

エラーになってしまった。エラー内容を示す。

ERROR: [COSIM 212-303] Aborting co-simulation: RTL simulation failed.
ERROR: [COSIM 212-344] Rtl simulation failed.
ERROR: [COSIM 212-4] *** C/RTL co-simulation finished: FAIL ***
could not read "C:/Users/Masaaki/Documents/VIvado_HLS/ZYBO/test/dmar4resize_gray/solution1/sim/tv/rtldatafile/sim/report/cosim.log": no such file or directory
while executing
"source C:/Users/Masaaki/Documents/VIvado_HLS/ZYBO/test/dmar4resize_gray/solution1/cosim.tcl"
invoked from within
"hls::main C:/Users/Masaaki/Documents/VIvado_HLS/ZYBO/test/dmar4resize_gray/solution1/cosim.tcl"
("uplevel" body line 1)
invoked from within
"uplevel 1 hls::main {*}$args"
(procedure "hls_proc" line 5)
invoked from within
"hls_proc $argv"
Finished C/RTL cosimulation.


Windows 10 Pro 上のVivado HLS 2016.4 でC/RTL協調シミュレーションを行った。
wlt_cnn_125_170901.png

やはり、同様のエラーだった。

C/RTL協調シミュレーションはあきらめて、Export RTL を行った。
Ubuntu 16.04 上のVivado HLS 2016.4
wlt_cnn_126_170901.png

SLICE 216 個、LUT 488 個、FF 752 個、DSP 0 個、BRAM 1 個、SRL 21 個使用していた。

Windows 10 Pro 上のVivado HLS 2016.4
wlt_cnn_127_170901.png

結果はUbuntu 16.04 上のVivado HLS 2016.4 と同じだった。
  1. 2017年09月03日 05:20 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

画像をリサイズするためにDMA Read IPをVivado HLSで製作した1(dmar4resize_gray)

Vivado HLS で画像のサイズを縮小して白黒変換(resize_gray)”でAXI4 Stream 入力の画像をリサイズして白黒変換するIP (resize_gray))を作成した。今回は、フレームバッファからDMA Read して AXI4 Stream 出力して resize_gray にAXI4 Stream 入力するIP (dmar4resize_gray)を作成する。

dmar4resize_gray は、ダブルバッファリングを行うDMAw4Gabor の RorL 信号を受けて、現在書き込んでいるフレームバッファを避け、もう片方のフレームバッファから画像データを取得するDMA Read IP となっている。

まずはVirtualBox 上のUbuntu 16.04 の Vivado HLS 2016.4 で作ってみた。
dmar4resize_gray.h と dmar4resize_gray.cpp それに、dmar4resize_gray_tb.cpp を作成した。そして、bmp_header.h と straight0.bmp と left_turn4.bmp を用意した。
wlt_cnn_111_170901.png

C シミュレーションを行った。エラーになってしまった。
wlt_cnn_112_170901.png

エラー内容を示す。

INFO: [SIM 2] *************** CSIM start ***************
INFO: [SIM 4] CSIM will launch GCC as the compiler.
Compiling ../../../dmar4resize_gray_tb.cpp in debug mode
csim.mk:73: ターゲット 'obj/dmar4resize_gray_tb.o' のレシピで失敗しました
../../../dmar4resize_gray_tb.cpp: In function ‘int main()’:
../../../dmar4resize_gray_tb.cpp:98:61: error: cast from ‘int*’ to ‘unsigned int’ loses precision [-fpermissive]
../../../dmar4resize_gray_tb.cpp:99:20: error: cast from ‘int*’ to ‘unsigned int’ loses precision [-fpermissive]
../../../dmar4resize_gray_tb.cpp:103:61: error: cast from ‘int*’ to ‘unsigned int’ loses precision [-fpermissive]
../../../dmar4resize_gray_tb.cpp:104:20: error: cast from ‘int*’ to ‘unsigned int’ loses precision [-fpermissive]
make: *** [obj/dmar4resize_gray_tb.o] エラー 1
CRITICAL WARNING: [SIM 100] 'csim_design' failed: compilation error(s).
INFO: [SIM 3] *************** CSIM finish ***************


どうやら 64 ビットアドレスなので、int * が unsigned int にキャストできない様だ。キャストすると 32 ビット分の情報が抜けてしまう。けど、Zynq は32ビットアドレスなので、64 ビットアドレスの必要が無い。エラーメッセージにある -fpermissive オプションを追加することにした。
やり方を説明する。
最初にProject メニューからProject Settings... を選択する。

Project Settings ダイアログが表示される。左のペインからSimulation をクリックし、TestBench Files で dmar4resize_gray_tb.cpp を選択する。
右のEdit CFLAGS... ボタンをクリックする。
wlt_cnn_113_170901.png

Edit CFLAGS Dialog で CFLAGS Value に -fpermissive を入力した。
wlt_cnn_114_170901.png

TestBench Files の dmar4resize_gray_tb.cpp の CFLAGS に -fpermissive オプションが追加された。
wlt_cnn_115_170901.png

もう一度、C シミュレーションを行った。
wlt_cnn_116_170901.png

C シミュレーションは一応成功しているが、ワーニングが出ている。ワーニングを示す。

WARNING: Hls::stream 'hls::stream >.1' contains leftover data, which may result in RTL simulation hanging.


AXI4 Stream のデータが無いといっているのかな?
~/Vivado_HLS/ZYBO/dmar4resize_gray/solution1/csim/build ディレクトリを見た。
wlt_cnn_117_170901.png

dma_result0.bmp と dma_result1.bmp が真っ暗なのが分かる。


これはおかしいので、Windows でもやってみた。Windows 10 Pro 上でVivado HLS 2016.4 を使用している。
wlt_cnn_118_170901.png

C シミュレーションを行ったが、エラーもワーニングも出ていない。
wlt_cnn_119_170901.png

C:\Users\Masaaki\Documents\VIvado_HLS\ZYBO\test\dmar4resize_gray\solution1\csim\build フォルダを見ると、dma_result0.bmp と dma_result1.bmp がきちんとコピーされていた。
wlt_cnn_120_170901.png

VirtualBox 上のUbuntu 16.04 の Vivado HLS 2016.4 ではC シミュレーションがうまく動かないが、Windows 10 Pro 上でVivado HLS 2016.4 では C シミュレーションがうまく行った。

ソースコードを貼っておく。
dmar4resize_gray.h を貼っておく。

// dmar4resize_gray.h
// 2017/09/01 by marsee
//

#ifndef __DMAR4RESIZE_GRAY_H__
#define __DMAR4RESIZE_GRAY_H__

#define HORIZONTAL_PIXEL_WIDTH    800
#define VERTICAL_PIXEL_WIDTH    600

#define ALL_PIXEL_VALUE    (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)

#define MAX_FRAME_NUMBER    2

#define MEMCPY_LENGTH    (HORIZONTAL_PIXEL_WIDTH*4)

#endif


dmar4resize_gray.cpp を貼っておく。

// dmar4resize_gray.cpp
// 2017/09/01 by marsee
//
// if RorL=0 then frame_buffer1 read
// if RorL=1 then frame_buffer0 read
//

#include <stdio.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>

#include "dmar4resize_gray.h"

int dmar4resize_gray(volatile int *ins, hls::stream<ap_axis<32,1,1,1> >& outs,
        unsigned int frame_buffer0, unsigned int frame_buffer1,
        ap_uint<1> & RorL){
#pragma HLS INTERFACE ap_none port=RorL
#pragma HLS INTERFACE s_axilite port=frame_buffer0
#pragma HLS INTERFACE s_axilite port=frame_buffer1
#pragma HLS INTERFACE m_axi depth=5000000 port=ins offset=off
#pragma HLS INTERFACE axis port=outs
#pragma HLS INTERFACE s_axilite port=return

    ap_axis<32,1,1,1> pix;
    int dma_index;

    if(RorL == (ap_uint<1>)0// 1つ前のフレームバッファを読みだす
        dma_index = frame_buffer1/sizeof(int);
    else
        dma_index = frame_buffer0/sizeof(int);

    for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
        for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE II=1
            pix.data = ins[dma_index+(y*HORIZONTAL_PIXEL_WIDTH)+x];

            if (y==0 && x==0)
                pix.user = 1;
            else
                pix.user = 0;

            if (x == (HORIZONTAL_PIXEL_WIDTH-1))
                pix.last = 1;
            else
                pix.last = 0;

            outs << pix;
        }
    }

    return 0;
}


dmar4resize_gray_tb.cpp を貼っておく。

// dmar4resize_gray_tb.cpp
// 2017/09/01 by marsee
//
// if RorL=0 then frame_buffer1 read
// if RorL=1 then frame_buffer0 read
//

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <iostream>
#include <fstream>
#include <ap_axi_sdata.h>

#include "dmar4resize_gray.h"
#include "bmp_header.h"

int dmar4resize_gray(volatile int *ins, hls::stream<ap_axis<32,1,1,1> >& outs,
        unsigned int frame_buffer0, unsigned int frame_buffer1,
        ap_uint<1> & RorL);

int main()
{
    using namespace std;

    hls::stream<ap_axis<32,1,1,1> > outs;
    ap_axis<32,1,1,1> pix;
    ap_axis<32,1,1,1> vals;

    BITMAPFILEHEADER bmpfhr; // BMPファイルのファイルヘッダ(for Read)
    BITMAPINFOHEADER bmpihr; // BMPファイルのINFOヘッダ(for Read)
    FILE *fbmpr, *fbmpr2, *fbmpw;
    int *rd_bmp, *hw_lapd;
    int blue, green, red;
    ap_uint<2> active_frame = 0;
    ap_uint<1> RorL;
    char output_file[200];

    if ((fbmpr = fopen("straight0.bmp""rb")) == NULL){ // test.bmp をオープン
        fprintf(stderr, "Can't open straight0.bmp by binary read mode\n");
        exit(1);
    }
    if ((fbmpr2 = fopen("left_turn4.bmp""rb")) == NULL){ // test.bmp をオープン
        fprintf(stderr, "Can't open left_turn4.bmp by binary read mode\n");
        exit(1);
    }
    // bmpヘッダの読み出し
    fread(&bmpfhr.bfType, sizeof(char), 2, fbmpr);
    fread(&bmpfhr.bfSize, sizeof(long), 1, fbmpr);
    fread(&bmpfhr.bfReserved1, sizeof(short), 1, fbmpr);
    fread(&bmpfhr.bfReserved2, sizeof(short), 1, fbmpr);
    fread(&bmpfhr.bfOffBits, sizeof(long), 1, fbmpr);
    fread(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpr);

    fread(&bmpfhr.bfType, sizeof(char), 2, fbmpr2);
    fread(&bmpfhr.bfSize, sizeof(long), 1, fbmpr2);
    fread(&bmpfhr.bfReserved1, sizeof(short), 1, fbmpr2);
    fread(&bmpfhr.bfReserved2, sizeof(short), 1, fbmpr2);
    fread(&bmpfhr.bfOffBits, sizeof(long), 1, fbmpr2);
    fread(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpr2);

    // ピクセルを入れるメモリをアロケートする
    if ((rd_bmp =(int *)malloc(MAX_FRAME_NUMBER * sizeof(int) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate rd_bmp memory\n");
        exit(1);
    }

    int *buf;
    if ((buf =(int *)malloc(MAX_FRAME_NUMBER * sizeof(int) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate buf memory\n");
        exit(1);
    }

    // rd_bmp にBMPのピクセルを代入。その際に、行を逆転する必要がある
    for (int y=0; y<bmpihr.biHeight; y++){
        for (int x=0; x<bmpihr.biWidth; x++){
            blue = fgetc(fbmpr);
            green = fgetc(fbmpr);
            red = fgetc(fbmpr);
            rd_bmp[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] = (blue & 0xff) | ((green & 0xff)<<8) | ((red & 0xff)<<16);
        }
    }
    fclose(fbmpr);

    for (int y=0; y<bmpihr.biHeight; y++){
        for (int x=0; x<bmpihr.biWidth; x++){
            blue = fgetc(fbmpr2);
            green = fgetc(fbmpr2);
            red = fgetc(fbmpr2);
            rd_bmp[bmpihr.biHeight*bmpihr.biWidth+((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] = (blue & 0xff) | ((green & 0xff)<<8) | ((red & 0xff)<<16);
        }
    }
    fclose(fbmpr2);

    RorL = 0;
    dmar4resize_gray((volatile int *)0, outs, (unsigned int)rd_bmp,
        (unsigned int)rd_bmp+(bmpihr.biWidth * bmpihr.biHeight) * sizeof(int),
        RorL);

    RorL = 1;
    dmar4resize_gray((volatile int *)0, outs, (unsigned int)rd_bmp,
        (unsigned int)rd_bmp+(bmpihr.biWidth * bmpihr.biHeight) * sizeof(int),
        RorL);

    // outs ストリームのデータを buf に入力する
    for (int k=0; k<MAX_FRAME_NUMBER; k++){
        for(int j=0; j < bmpihr.biHeight; j++){
            for(int i=0; i < bmpihr.biWidth; i++){
                outs >> vals;
                ap_int<32> val = vals.data;
                buf[(k*bmpihr.biWidth*bmpihr.biHeight)+(j*bmpihr.biWidth)+i] = (int)val;
            }
        }
    }

    // DMAされたデータをBMPフィルに書き込む
    for (int i=0; i<MAX_FRAME_NUMBER; i++){
        switch (i){
            case 0:
                strcpy(output_file,"dma_result0.bmp");
                break;
            case 1:
                strcpy(output_file,"dma_result1.bmp");
                break;
            case 2:
                strcpy(output_file,"dma_result2.bmp");
                break;
        }
        if ((fbmpw=fopen(output_file, "wb")) == NULL){
            fprintf(stderr, "Can't open %s by binary write mode\n", output_file);
            exit(1);
        }
        // BMPファイルヘッダの書き込み
        fwrite(&bmpfhr.bfType, sizeof(char), 2, fbmpw);
        fwrite(&bmpfhr.bfSize, sizeof(long), 1, fbmpw);
        fwrite(&bmpfhr.bfReserved1, sizeof(short), 1, fbmpw);
        fwrite(&bmpfhr.bfReserved2, sizeof(short), 1, fbmpw);
        fwrite(&bmpfhr.bfOffBits, sizeof(long), 1, fbmpw);
        fwrite(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpw);

        // RGB データの書き込み、逆順にする
        int offset = i * bmpihr.biWidth * bmpihr.biHeight;
        for (int y=0; y<bmpihr.biHeight; y++){
            for (int x=0; x<bmpihr.biWidth; x++){
                blue = buf[offset+((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] & 0xff;
                green = (buf[offset+((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] >> 8) & 0xff;
                red = (buf[offset+((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x]>>16) & 0xff;

                fputc(blue, fbmpw);
                fputc(green, fbmpw);
                fputc(red, fbmpw);
            }
        }
        fclose(fbmpw);
    }
    free(rd_bmp);
    return(0);
}

  1. 2017年09月02日 04:39 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0
»