FC2カウンター FPGAの部屋

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

SDSoCのチュートリアルをやってみた4(ハードウェア/ソフトウェア イベントのトレース)

SDSoCのチュートリアルをやってみた3(タスクのパイプライン処理最適化)”の続き。

SDSoC 環境ユーザー ガイド SDSoC 環境の概要 UG1028 (v2016.2) 2016 年 7 月 13 日”の66ページの”第7章  チュートリアル : ハードウェア/ソフトウェアイベントのトレース”をやってみよう。
SDSoC Environment Tutorial: Introduction UG1028 (v2016.3) November 30, 2016”では、43ページの”Lab 7: Hardware Debug”だった。

さて、zc702 のスタンドアロン・プロジェクト zc702_test をMatrix Multiplication テンプレートで作成した。
SDx_v2016_3_tut_39_170119.png

ZYBO の空のスタンドアロン・プロジェクト mmult_trace を作成した。
zc702_test のソースファイルを mmult_trace にコピー&ペーストした。
mmult_accel 関数をハードウェア関数に登録した。
SDx_v2016_3_tut_40_170119.png

mmult_accel.h の #define N 32 を #define N 16 に変更した。(ZYBO ではリソースが足りないため)
SDx_v2016_3_tut_41_170119.png

mmult.cpp の #define NUM_TESTS 1024 を 10 に変更した。これはトレースるのにあまり大きな数だとトレースしきれないからだろう?
SDx_v2016_3_tut_42_170119.png

Enable event tracing にチェックを入れてからビルド・ボタンをクリックしてビルドした。
SDx_v2016_3_tut_43_170119.png

ビルドが終了した。成功だ。
SDx_v2016_3_tut_44_170119.png

トレースするので、mmult_trace を右クリックし、右クリックメニューからRun As -> 4 Trace Applicatin (SDSoC Debugger) を選択した。
SDx_v2016_3_tut_45_170119.png

すると、ZYBO がコンフィグレーションされて、ソフトウェアが走ったようだ。この前までにZYBO をJTAG モードにして電源ON して多く必要がある。
トレース結果が表示された。
SDx_v2016_3_tut_46_170119.png

現在の画面で右下のアクティブなウインドウをダブルクリックして最大化した。
SDx_v2016_3_tut_47_170119.png

チュートリアルよりも大分まばらだが、トレース・イベントがグラフィカルに表示されている。
オレンジ色がソフトウェア・イベント、緑色がアクセラレータ・イベント、青色がデータ転送・イベントだそうだ。
しかしなぜこんなに間が空いてしまっているのだろうか?無駄な気がするが?その他のソフトウェア処理が重いのだろうか?これではあまり性能が上がらないと思う。

左のProject Explorer をよく見ると、mmult_trace_Traces フォルダができていた。その中のTrace[1] にSDSoC_AXI_Trace_1-19_15-18 が出来ていた。その下のAXI Event Analysis -> AXI Status View が上の図だ。Tmf Statistics Analysis -> Statistics をダブルクリックして開けてみた。
SDx_v2016_3_tut_49_170119.png

統計情報のようだ。

AXI Status View をイベント・テキストの下に持ってきた。これでチュートリアルの図と同じになった。
SDx_v2016_3_tut_50_170119.png

最後にVivado プロジェクトの結果のレポートを示す。
SDx_v2016_3_tut_51_170120.png

リソースがかなり消費されている。

ブロックデザインを示す。
SDx_v2016_3_tut_52_170120.png

トレース用のIP が多い。
  1. 2017年01月20日 04:46 |
  2. SDSoC
  3. | トラックバック:0
  4. | コメント:0

SDSoCのチュートリアルをやってみた3(タスクのパイプライン処理最適化)

SDSoCのチュートリアルをやってみた2(システム パフォーマンスの見積もり)”の続き。

SDSoC Environment Tutorial: Introduction UG1028 (v2016.3) November 30, 2016”の33ページ”Chapter 5 Accelerator Optimization”をやってみよう。
なお、”SDSoC 環境ユーザー ガイド SDSoC 環境の概要 UG1028 (v2016.2) 2016 年 7 月 13 日”では、63 ページの”第6章 チュートリアル : タスクのパイプライン処
理最適化”となる。

最初にZYBO 用のファイルは無いのだが、zc702 のファイルを加工してみよう。
ZYBO 用の空の async_wait_zybo プロジェクトを作成した。system configuration は Linuxとした。

C:\HDL\Xilinx\SDx\2016.3\samples\mmult_pipelined から mmult.cpp, mmult_accel.cpp, mmult_accel.h を async_wait_zybo プロジェクトの src フォルダにコピー&ペーストした。
SDx_v2016_3_tut_25_170119.png

Active build configuration を Release に設定し、HW function に mmult_accel を指定して、ビルド・ボタンをクリックした。
SDx_v2016_3_tut_26_170119.png

エラーが出た。やはり、Zynq-7010 ではリソースが足りないようだ。
SDx_v2016_3_tut_27_170119.png

mmult_accel.h を開いて #define N 32 を #define N 16 に書き換えた。
SDx_v2016_3_tut_28_170119.png

もう一度、ビルド・ボタンをクリックしてビルドを行ったら成功した。
SDx_v2016_3_tut_29_170119.png

このチュートリアルでは、Figure 2 に示すように通常はシーケンシャルにうハードウェアのアクセラレーションを行う。
SDx_v2016_3_tut_30_170119.png
SDSoC Environment Tutorial: Introduction UG1028 (v2016.3) November 30, 2016”の35ページのFigure 2: Sequential Execution of Matrix Multiply Calls を引用

パイプラインされたアクセレーターの実行のために、async(id), と wait(id) プラグマを使用してコードを書き直す必要があるそうだ。
その記述を示す。
SDx_v2016_3_tut_31_170119.png

pipeline_depth がパイプラインの数を示していて、最初にパイプライン数のmmult_accel() を発行して、その後は1つのパイプラインが終わったら、次のmmult_accel() を発行する。発行が終了したら、SDS wait(1) でパイプライン数だけの完了を待つ。そのようなプログラムになっているようだ。
その概念図は、Figure 3 に示されている。
SDx_v2016_3_tut_32_170119.png
SDSoC Environment Tutorial: Introduction UG1028 (v2016.3) November 30, 2016”の36ページのFigure 3: Pipelined Execution of Matrix Multiply Calls を引用

パイプライン実行のためには、引数の配列をコピーするためのマルチバッファが必要とのことだ。これは、mmult_accel.cpp の float _A[N][N], _B[N][N] のことだろうと思っている。
SDx_v2016_3_tut_33_170119.png

ビルドした SDカードのイメージをZYBO にSFTP して起動した。
./async_wait_zybo 1 を実行した。これは順次実行だ。
SDx_v2016_3_tut_34_170119.png

値が安定しない。SW/HW が 1.05 倍から2.73 倍でばらついている。

./async_wait_zybo 2 を実行した。これは2つのパイプラインによるパイプライン実行だ。
SDx_v2016_3_tut_35_170119.png

やはり、こちらも値が安定しない。

残念な結果になってしまったが、Vivado のレポートを示す。
SDx_v2016_3_tut_36_170119.png

Vivado のブロックデザインを示す。
SDx_v2016_3_tut_37_170119.png

Vivado HLSを示す。
SDx_v2016_3_tut_38_170119.png
  1. 2017年01月19日 12:32 |
  2. SDSoC
  3. | トラックバック:0
  4. | コメント:0

Zybot をステレオカメラにする3(Zybot 改造中)

Zybot をステレオカメラに改造中です。

ZYBO を2枚搭載して、それぞれにカメラを付けてZYBO 同士のHDMI コネクタをケーブルで接続しました。片方ZYBO のカメラの画像をもう一方のZYBO に転送して、以前、やっていたステレオカメラにします。カメラ用のマウントは3Dプリンタで作製した”Zybot をステレオカメラにする2(カメラ・マウントの作製)”のマウントを使用しています。
Zybot_1_170118.jpg

Zybot_2_170118.jpg

Zybot_3_170118.jpg

バッテリーは今まではリチウムイオン電池のジャンプスターター1個でしたが、+5Vのモバイルバッテリーを追加して、ZYBOの電源などはそこから取ろうと思っています。
問題は無線LANで、今までWLI-UTX-AG300を使っていて、これにスイッチングハブを付けてZYBO 2台のLANコネクタに接続してみたのですが、通信できませんでした。WLI-UTX-AG300を2つというのも考えたのですが、大きすぎます。そこで、ZYBOのUSB コネクタに付けられないかな?と思い、WN-G150U を買ってみました。果たしてZYBO が無線LAN親機につながるでしょうか?
超ド級の迫力のZybot になってしまいました。。。
果たして走るのでしょうか?
  1. 2017年01月18日 16:10 |
  2. Zybot
  3. | トラックバック:0
  4. | コメント:0

SDSoCのチュートリアルをやってみた2(システム パフォーマンスの見積もり)

SDSoCのチュートリアルをやってみた1(システムのデバック)”の続き。

前回は、ソフトウェアとハードウェア両方を含んだスタンドアロンのシステムをSDSoCのデバックモードでデバックすることができた。今回は、”SDSoC 環境ユーザー ガイド SDSoC 環境の概要 UG1028 (v2016.2) 2016 年 7 月 13 日”の54 ページの”チュートリアル : システム パフォーマンスの見積もり”をやってみよう。

これもZynq のボードを使用するので、ZYBOをパソコンにUSBケーブルで接続し、ZYBO の電源をON しておく。

SDxプロジェクトは前回の debug_test_bm を使用する。

debug_test_bm プロジェクトを展開して project.sdx をダブルクリックして開く。
Estimate performance にチェックを入れて、トンカチ ボタンをクリックしてデバックでビルドする。
SDx_v2016_3_tut_19_170115.png

Performance and resource estimation report for the 'debug_test_bm' project が表示された。
SDx_v2016_3_tut_20_170115.png

Click Here をクリックした。
Run application to get its performance ダイアログが表示された。
SDx_v2016_3_tut_21_170115.png

ZYBO がコンフィギュレーションされて、ソフトウェアだけのバージョンが実行されるそうだ。ハードウェアの見積もりと比較されて表示される。
SDx_v2016_3_tut_22_170115.png

main の性能差は2.25 倍ハードウェア・アクセラレーションした場合が速い。
main 関数の中の madd 関数は、ハードウェア・アクセラレーションした場合が、79.32 倍速いという結果になった。

上の図で、Summary の最初のPeformance estimates for 'main' function になっているが、これをmain 以外にすることもできるそうだ。これは、project.sdx の Root function を書き換えると変更できるそうだ。その場合は、Clean project を行ってから、ビルドするそうだ。(”SDSoC Environment Tutorial Introduction UG1028 (v2016.3) November 30, 2016”の 20 ページの”Changing Scope of Overall Speedup Comparison”を参照した)
SDx_v2016_3_tut_23_170115.png

今のビルドはデバックで行っているが、リリースでビルドした場合の性能差を示す。
SDx_v2016_3_tut_24_170115.png

main の性能差は1.78 倍ハードウェア・アクセラレーションした場合が速い。
main 関数の中の madd 関数は、ハードウェア・アクセラレーションした場合が、15.09 倍速いという結果になった。

やはり、デバックよりもリリースの方がハードウェアとソフトウェアの性能差が縮まっている。
  1. 2017年01月17日 05:06 |
  2. SDSoC
  3. | トラックバック:0
  4. | コメント:0

SDSoCのチュートリアルをやってみた1(システムのデバック)

SDSoCのデバック方法やパフォーマンス測定のただし方法などを知らなかったので、SDSoCのチュートリアルをやってみることにした。引用するのは、”SDSoC 環境ユーザー ガイド SDSoC 環境の概要 UG1028 (v2016.2) 2016 年 7 月 13 日”で、”SDSoC Environment Tutorial Introduction UG1028 (v2016.3) November 30, 2016”も参考にしながら進めていこう。
UG1028 の日本語訳は意味不明のところがあったので、英語版も大いに参考にさせて頂いた。

それでは、SDSoCのデバック方法からやってみよう。
日本語版UG1028 の 46 ページの”チュートリアル : システムのデバッグ”をやってSDSoCのデバック方法を体験した。
SDx 2016.3 を使用して、プロジェクトはスタンドアロン・プロジェクトを使用し、ZYBO 実機を使用してデバックする。

Micro USB コードでパソコンと接続した。

JTAG 起動モードとし、ZYBO を電源ON した。

SDSoCで File メニューからNew → Xilinx SDx Project を選択した。

Create a New SDxProject ダイアログで、Project name に debug_test_bm と入力した。
SDx_v2016_3_tut_1_170115.png

Choose Hardware Platform で、zybo を選択した。(私のChoose Hardware Platform には、カスタム・プラットフォームを入れているので、他の人よりも数が多い)
SDx_v2016_3_tut_2_170115.png

Choose Software Platform and Target CPU で System configuration を Standalone OS(Zynq 7000) に設定した。
SDx_v2016_3_tut_3_170115.png

Templates で、Matrix Multiplication and Addition (area reduced) を選択した。Finish ボタンをクリックした。
SDx_v2016_3_tut_4_170115.png

debug_test_bm プロジェクトが生成された。すでにハードウェアにオフロードする関数も設定されている。この環境でデバックすることができるようだ。
SDx_v2016_3_tut_5_170115.png

debug_test_bm プロジェクトを右クリックして、右クリックメニューから Build Project を選択した。
SDx_v2016_3_tut_6_170115.png

ビルドが成功した。ビルド後の debug_test_bm プロジェクトのDebug フォルダの debug_test_bm.elf を右クリックし、右クリックメニューからDebug As -> Launch on Hardware (SDSoC Debugger) を選択した。
SDx_v2016_3_tut_7_170115.png

パースペクティブをデバックに変更するというおなじみのダイアログが出た。Yes ボタンをクリックした。
SDx_v2016_3_tut_8_170115.png

SDx がデバックモードになって、main 関数の最初の行で止まっていた。
なお、この時点で、ZYBO はコンフィギュレーションされて、DONE のLEDが点灯している。
SDx_v2016_3_tut_9_170115.png

結果を表示するためのターミナルをSDx で起動する。
Window メニューからShow View -> Others... を選択した。
SDx_v2016_3_tut_10_170115.png

Show View ダイアログで、Terminal の下のTerminal を選択した。
SDx_v2016_3_tut_11_170115.png

右下にTerminal ウインドウが追加された。
SDx_v2016_3_tut_12_170115.png

Connect アイコンをクリックして、Terminal Settings を表示させる。
Connection Type を Serial に、Port をCOM4 (これはそれぞれの環境によって異なる)に、Baud Rate を 115200 に設定した。
SDx_v2016_3_tut_13_170115.png

Tera Term を起動していたので、すでに使われていると出てしまっているが、Tera Term を落としたら接続できた。
SDx_v2016_3_tut_14_170115.png

Step Over アイコンをクリックした。
SDx_v2016_3_tut_15_170115.png

SDx_v2016_3_tut_16_170115.png

main.cpp の行が1行進んで、右の上の Variables ウインドウでも test_passed 変数が更新されて、黄色に変わっている。
SDx_v2016_3_tut_17_170115.png

Resume アイコンをクリックすると、ソフトウェアが終了して、結果が右下のTerminal ウインドウに表示された。
SDx_v2016_3_tut_18_170115.png

これでSDx 2016.3 でのデバック方法が分かった。ハードウェアとソフトウェアが協調して動作する環境でデバックすることができた。
  1. 2017年01月16日 05:35 |
  2. SDSoC
  3. | トラックバック:0
  4. | コメント:0

AXI4-Stream向きのコードで書いたラプラシアンフィルタをVivado HLSでテスト3

AXI4-Stream向きのコードで書いたラプラシアンフィルタをVivado HLSでテスト2”の続き。

前回、lap_fb[] の最初で最後の行のオール 0 を書いたらDMA Write がシングル転送になってしまった。つまり、DMA Write の書き込みの順序をいじるとバーストしなくなるんじゃないか?という疑問がわく。そこで、DMA Read の順番も、DMA Write の順番も守るようにした。DMA Read と Write の順番を守るということは、y を行数+1 回すことにして、DMA Read は最後の1回の実行を中止し、DMA Write は最初の1回の実行を停止することにした。

Vivado HLS 2016.4 で lap_filter6 プロジェクトを作成した。
lap_filter4_17_160115.png

lap_filter6.c を貼っておく。

/* * lap_filter6.c * *  Created on: 2017/01/10 *      Author: Masaaki */

#include <stdio.h>
#include <string.h>

//#define HORIZONTAL_PIXEL_WIDTH    64
//#define VERTICAL_PIXEL_WIDTH    48
#define HORIZONTAL_PIXEL_WIDTH    800
#define VERTICAL_PIXEL_WIDTH    600
#define ALL_PIXEL_VALUE    (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)

int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);

int lap_filter_axim(int cam_fb[ALL_PIXEL_VALUE], int lap_fb[ALL_PIXEL_VALUE])
{
#pragma HLS INTERFACE s_axilite port=return
#pragma HLS INTERFACE m_axi depth=480000 port=lap_fb
#pragma HLS INTERFACE m_axi depth=480000 port=cam_fb

    int line_buf[3][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=3 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P

    int lap_fil_val;
    int pix, lap;

    int pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete

    for (int y=0; y<=VERTICAL_PIXEL_WIDTH; y++){
        for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
            if (y < VERTICAL_PIXEL_WIDTH)
                pix = cam_fb[y*HORIZONTAL_PIXEL_WIDTH+x];

            for (int k=0; k<3; k++){
                for (int m=0; m<2; m++){
#pragma HLS UNROLL
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int y_val = conv_rgb2y(pix);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                        pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                        pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2 || y==VERTICAL_PIXEL_WIDTH) // 行の最初の2列は無効データなので0とする、1行目も0、最後の行も0
                lap = 0;

            if (y != 0)
                lap_fb[(y-1)*HORIZONTAL_PIXEL_WIDTH+x] = lap;
        }
    }

    return 0;
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}


C シミュレーションを行った。
lap_filter4_18_160115.png

C コードの合成を行った。
lap_filter4_19_160115.png

やはり、Estimated が 11.37 ns でTarget を外れてしまっている。Latency は480821 で悪くはない。

C/RTL協調シミュレーションを行った。
lap_filter4_20_160115.png

1121430 クロックかかってしまった。だめだ、遅くなっている。

C/RTL協調シミュレーションの波形を示す。
DMA Read から。
lap_filter4_21_160115.png

ARLEN が 00 でシングル転送になってしまっている。

DMA Write を示す。
lap_filter4_22_160115.png

こちらも AWLEN が 00 でシングル転送だ。

どうやら、DMA を行う文に if 文を使用するとバーストを使えるかどうか?の判断ができなくてシングル転送になるのではないだろうか?
  1. 2017年01月15日 05:22 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0

AXI4-Stream向きのコードで書いたラプラシアンフィルタをVivado HLSでテスト2

AXI4-Stream向きのコードで書いたラプラシアンフィルタをVivado HLSでテスト1”の続き。

前回は、AXI4-Stream向きのコードをAXI4 Master として実装して性能を評価したところ、理論的な限界性能だった。今回は、どのように書いたら理論的な限界性能が出るのかを探ってみる。とりあえず、Writeを変えてみよう。

現在は、0 を 2 行書いているが、これを今まで通りに、0 が 1 行書かれていて、ラプラシアンフィルタ結果、最後に 0 が 1 行という今までやってきたフォーマットで書いてみたい。そのために、lap_filter4.c の lap_fb[] に書き込むところで、最初に最後の行に 0 を書いて、その後は、0 行に 0 を書いて、その後、ラプラシアンフィルタ結果を書くことにした。
そのC ソースコードを lap_filter5.c とした。下に示す。

/* * lap_filter4.c * *  Created on: 2017/01/10 *      Author: Masaaki */

#include <stdio.h>
#include <string.h>

//#define HORIZONTAL_PIXEL_WIDTH    64
//#define VERTICAL_PIXEL_WIDTH    48
#define HORIZONTAL_PIXEL_WIDTH    800
#define VERTICAL_PIXEL_WIDTH    600
#define ALL_PIXEL_VALUE    (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)

int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);

int lap_filter_axim(int cam_fb[ALL_PIXEL_VALUE], int lap_fb[ALL_PIXEL_VALUE])
{
#pragma HLS INTERFACE s_axilite port=return
#pragma HLS INTERFACE m_axi depth=480000 port=lap_fb
#pragma HLS INTERFACE m_axi depth=480000 port=cam_fb

    int line_buf[3][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=3 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P

    int lap_fil_val;
    int pix, lap;

    int pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete

    for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
        for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
            pix = cam_fb[y*HORIZONTAL_PIXEL_WIDTH+x];

            for (int k=0; k<3; k++){
                for (int m=0; m<2; m++){
#pragma HLS UNROLL
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int y_val = conv_rgb2y(pix);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                        pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                        pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2// 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap = 0;

            if (y == 0)
                lap_fb[(VERTICAL_PIXEL_WIDTH-1)*HORIZONTAL_PIXEL_WIDTH+x] = lap;
            else
                lap_fb[(y-1)*HORIZONTAL_PIXEL_WIDTH+x] = lap;
        }
    }

    return 0;
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}


lap_fitlter_tb.c も lap_filter5.c に対応するように書き換えた。
そこで、C シミュレーションを行った。なお、Console は C/RTL 協調シミュレーション終了時になっている。
lap_filter4_12_160114.png

C コードの合成を行った。
lap_filter4_13_160114.png

Estimated が 11.37 ns で 10 ns を満足していない。
Latency は 480019 クロックで良さそうだ。

C/RTL協調シミュレーションを行った。
lap_filter4_14_160114.png

1120051 クロックと 2 倍以上に増えてしまっている。なぜだろうか?

C/RTL協調シミュレーションの波形を見よう。
まずはRead から。
lap_filter4_15_160114.png

ARLEN は 0f で 16 バーストなのだが、RREADY が 0 , 1 を繰り返して遅くなってしまっている。

Write を示す。
lap_filter4_16_160114.png

AWLEN が 00 でシングル転送だ。先ほどのRead が遅い原因はこれのようだ。

ほんの少し書き換えただけで、最高性能にほど遠くなってしまった。
やはり、AXI4-Stream として書いたコード最高性能にならないのだろうか?DMA の部分に if などの条件が入っているとバースト長が 16 バーストにならないのだろうか?
つまり、読む順番と書く順番は守る必要があるのかな?

最後に、lap_filter_tb.c を貼っておく。

// Testbench of laplacian_filter.c
// lap_filter_tb.c
// BMPデータをハードウェアとソフトウェアで、ラプラシアン・フィルタを掛けて、それを比較する
// m_axi offset=slave version
// 2015/08/26 by marsee
//

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/time.h>

#include "bmp_header.h"

int laplacian_fil_soft(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y_soft(int rgb);
int lap_filter_axim(int *cam_fb, int *lap_fb);    // hardware
void laplacian_filter_soft(int *cam_fb, int *lap_fb, long width, long height); // software

int main()
{
    int *s, *h;
    long x, y;
    BITMAPFILEHEADER bmpfhr; // BMPファイルのファイルヘッダ(for Read)
    BITMAPINFOHEADER bmpihr; // BMPファイルのINFOヘッダ(for Read)
    FILE *fbmpr, *fbmpw;
    int *rd_bmp, *hw_lapd, *sw_lapd;
    int blue, green, red;
    char blue_c, green_c, red_c;
    struct timeval start_time_hw, end_time_hw;
    struct timeval start_time_sw, end_time_sw;

    if ((fbmpr = fopen("test.bmp""rb")) == NULL){ // test.bmp をオープン
        fprintf(stderr, "Can't open test.bmp by binary read mode\n");
        exit(1);
    }
    // bmpヘッダの読み出し
    fread(&bmpfhr.bfType, sizeof(char), 2, fbmpr);
    fread(&bmpfhr.bfSize, sizeof(long), 1, fbmpr);
    fread(&bmpfhr.bfReserved1, sizeof(short), 1, fbmpr);
    fread(&bmpfhr.bfReserved2, sizeof(short), 1, fbmpr);
    fread(&bmpfhr.bfOffBits, sizeof(long), 1, fbmpr);
    fread(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpr);

    // ピクセルを入れるメモリをアロケートする
    if ((rd_bmp =(int *)malloc(sizeof(int) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate rd_bmp memory\n");
        exit(1);
    }
    if ((hw_lapd =(int *)malloc(sizeof(int) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate hw_lapd memory\n");
        exit(1);
    }
    if ((sw_lapd =(int *)malloc(sizeof(int) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate sw_lapd memory\n");
        exit(1);
    }

    // rd_bmp にBMPのピクセルを代入。その際に、行を逆転する必要がある
    for (y=0; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            blue = fgetc(fbmpr);
            green = fgetc(fbmpr);
            red = fgetc(fbmpr);
            rd_bmp[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] = (blue & 0xff) | ((green & 0xff)<<8) | ((red & 0xff)<<16);
        }
    }
    fclose(fbmpr);

    //gettimeofday(&start_time_hw, NULL);
    lap_filter_axim((int *)rd_bmp, (int *)hw_lapd);    // ハードウェアのラプラシアン・フィルタ
    //gettimeofday(&end_time_hw, NULL);

    //gettimeofday(&start_time_sw, NULL);
    laplacian_filter_soft(rd_bmp, sw_lapd, bmpihr.biWidth, bmpihr.biHeight);    // ソフトウェアのラプラシアン・フィルタ
    //gettimeofday(&end_time_sw, NULL);

    // ハードウェアとソフトウェアのラプラシアン・フィルタの値のチェック
    for (y=0, h=hw_lapd, s=sw_lapd; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            if (*h != *s){
                printf("ERROR HW and SW results mismatch x = %ld, y = %ld, HW = %d, SW = %d\n", x, y, *h, *s);
                return(1);
            } else {
                h++;
                s++;
            }
        }
    }
    printf("Success HW and SW results match\n");
    /*if (end_time_hw.tv_usec < start_time_hw.tv_usec) {        printf("lap_filter2 HW time = %ld.%06ld sec\n", end_time_hw.tv_sec - start_time_hw.tv_sec - 1, 1000000 + end_time_hw.tv_usec - start_time_hw.tv_usec);    } else {        printf("lap_filter2 HW time = %ld.%06ld sec\n", end_time_hw.tv_sec - start_time_hw.tv_sec, end_time_hw.tv_usec - start_time_hw.tv_usec);    }    if (end_time_sw.tv_usec < start_time_sw.tv_usec) {        printf("lap_filter2 SW time = %ld.%06ld sec\n", end_time_sw.tv_sec - start_time_sw.tv_sec - 1, 1000000 + end_time_sw.tv_usec - start_time_sw.tv_usec);    } else {        printf("lap_filter2 SW time = %ld.%06ld sec\n", end_time_sw.tv_sec - start_time_sw.tv_sec, end_time_sw.tv_usec - start_time_sw.tv_usec);    } */

    // ハードウェアのラプラシアンフィルタの結果を temp_lap.bmp へ出力する
    if ((fbmpw=fopen("temp_lap.bmp""wb")) == NULL){
        fprintf(stderr, "Can't open temp_lap.bmp by binary write mode\n");
        exit(1);
    }
    // BMPファイルヘッダの書き込み
    fwrite(&bmpfhr.bfType, sizeof(char), 2, fbmpw);
    fwrite(&bmpfhr.bfSize, sizeof(long), 1, fbmpw);
    fwrite(&bmpfhr.bfReserved1, sizeof(short), 1, fbmpw);
    fwrite(&bmpfhr.bfReserved2, sizeof(short), 1, fbmpw);
    fwrite(&bmpfhr.bfOffBits, sizeof(long), 1, fbmpw);
    fwrite(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpw);

    // RGB データの書き込み、逆順にする
    for (y=0; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            blue = hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] & 0xff;
            green = (hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] >> 8) & 0xff;
            red = (hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x]>>16) & 0xff;

            fputc(blue, fbmpw);
            fputc(green, fbmpw);
            fputc(red, fbmpw);
        }
    }
    fclose(fbmpw);
    free(rd_bmp);
    free(hw_lapd);
    free(sw_lapd);

    return(0);
}

void laplacian_filter_soft(int *cam_fb, int *lap_fb, long width, long height)
{
    int line_buf[3][800];

    int lap_fil_val;
    int pix, lap;

    int pix_mat[3][3];

    for (int y=0; y<height; y++){
        for (int x=0; x<width; x++){
            pix = cam_fb[y*width+x];

            for (int k=0; k<3; k++){
                for (int m=0; m<2; m++){
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int y_val = conv_rgb2y(pix);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                        pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                        pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2// 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap = 0;

            if (y == 0)
                lap_fb[(height-1)*width+x] = lap;
            else
                lap_fb[(y-1)*width+x] = lap;
        }
    }
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y_soft(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil_soft(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}

  1. 2017年01月14日 04:59 |
  2. Vivado HLS
  3. | トラックバック:0
  4. | コメント:0
»