TW201723892A

TW201723892A - 多媒體影像檢索方法

Info

Publication number: TW201723892A
Application number: TW104144649A
Authority: TW
Inventors: 黃紹華; 姚秉志; 陳冠霖; 鍾耀興; 黃啓榮; 沈立得; 張舜傑; 葉政育; 朱召平; 古甯允; 林子閎; 葉明哲
Original assignee: 國立臺北科技大學
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2017-07-01

Abstract

本發明提供一種多媒體影像檢索方法。使用攝影機與麥克風錄製影像檔時，使用一種語音辨識軟體將麥克風所錄的語音轉成文字檔，然後將影像檔與文字檔合成為資料夾，儲存到檔案庫中。若欲檢索某一影像檔，則進入檔案庫中對所有的資料夾進行檢索，檢索的方法是以關鍵字搜尋文字檔，於是很容易檢索到相關的影像檔。

Description

多媒體影像檢索方法

本發明有關於多媒體影像檢索方法，尤其是指為多媒體影像建立文字檔以便於檢索的方法。

使用攝影機或智慧手機拍錄影像而儲存於個人電腦或雲端伺服器中，以供日後檢索觀看研究，是現代人生活的一部分。這些儲存的影像越來越多後，使用者就不容易檢索到所需要的影像。

請見圖1，使用者1使用攝影機2與麥克風3錄製影像檔4，然後儲存到檔案庫5中。檔案庫5在個人電腦或雲端伺服器中。使用者1想要回顧影像檔4時，則使用搜尋引擎6(例如Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等)對檔案庫5進行檢索。若影像檔4的數量不多，可以逐一檢視而挑出所需要的影像檔4。但若影像檔4中影像太多時，就無能為力了。

本發明的目的在提出一種多媒體影像檢索方法。使用攝影機與麥克風錄製影像檔時，使用一種語音辨識軟體將麥克風所錄的語音轉成文字檔，然後將影像檔與文字檔合成為資料夾，儲存到檔案庫中。若欲檢索某一影像檔，則使用一種搜尋演算法檢索檔案庫，對所有的資料夾進行檢索。檢索的方法是以關鍵字搜尋文字檔，於是很容易檢索到相關的影像檔。

本發明多媒體影像檢索方法，包含步驟如下： a.使用者使用一攝影機與一麥克風錄製一影像檔時，使用一種語音辨識軟體將該麥克風所錄的語音轉成一文字檔，然後將該影像檔與該文字檔合成為一資料夾，儲存到一檔案庫中；b.當使用者欲從該檔案庫檢索所需的影像檔時，打開一搜索引擎，輸入一關鍵字；c.進入該檔案庫，查詢是否尚有資料夾未檢查；d.若資料夾未檢查完畢，則進入資料夾檢索，檢索其文字檔內容，與該關鍵字比對，若符合，則取出其影像檔而呈現給使用者，回到步驟c，繼續查詢其他資料夾；若不符合，則離開該資料夾，回到步驟c，繼續查詢其他資料夾；e.在步驟c中，若已查完所有資料夾，則結束檢索。

1‧‧‧使用者

2‧‧‧攝影機

3‧‧‧麥克風

4‧‧‧影像檔

5‧‧‧檔案庫

6‧‧‧搜尋引擎

7‧‧‧語音辨識軟體

8‧‧‧資料夾

9‧‧‧文字檔

10‧‧‧影像檔

11‧‧‧資料夾

12‧‧‧文字檔

13‧‧‧影像檔

14‧‧‧資料夾

15‧‧‧文字檔

16‧‧‧影像檔

17‧‧‧搜尋演算法

圖1為傳統使用攝影機與麥克風錄製影像檔，儲存到檔案庫中，然後使用搜尋引擎對檔案庫進行檢索的示意圖。

圖2為本發明多媒體影像檢索方法中建立文字檔示意圖。。

圖3為本發明多媒體影像檢索方法中攝影機與麥克風不在同一個裝置中的示意圖。

圖4為本發明多媒體影像檢索方法中的建立文字檔流程圖。

圖5為本發明多媒體影像檢索方法中檢索影像檔示意圖。

圖6為本發明多媒體影像檢索方法中搜尋演算法的流程圖。

請見圖2，為本發明多媒體影像檢索方法中建立文字檔示意圖。使用者1使用攝影機2與麥克風3錄製影像檔10，並使用一種語音辨識軟體7(例如Google語音辨識、蘋果的Siri語音辨識、YouTube上語音識別自動製作字幕之技術)將麥克風3所錄的語音轉成文字檔9，然後將影像檔10與文字檔9合成為資料夾8，儲存到檔案庫5中。其中攝影機2與麥克風3可以在同一個裝置中，例如智慧型手機，或者是攝影機2與麥克風3各自獨立。

請見圖3，攝影機2與麥克風3不在同一個裝置中，使用者1使用攝影機2拍攝影像檔13。另外用麥克風3錄取使用者特別輸入的語音，經由語音辨識軟體7轉成文字檔12，然後將影像檔13與文字檔12合成為資料夾11，儲存到檔案庫5中。

請見圖4，為本發明多媒體影像檢索方法中的建立文字檔流程圖。步驟1為錄製影像檔，步驟2為語音偵測，若有語音，則進入步驟4，使用語音辨識軟體將語音轉成文字檔，然後進入步驟5，合成影像檔與文字檔為資料夾，儲存到檔案庫中。步驟2中若無語音，則進入步驟3，要求使用者輸入語音而錄音，然後進入步驟4，使用語音辨識軟體將語音轉成文字檔，接著進入步驟5，合成影像檔與文字檔為資料夾，儲存到檔案庫中。若只是拍照取得影像檔，如步驟1'所示，則進入步驟3，要求使用者輸入語音而錄音，進入步驟4，使用語音辨識軟體將語音轉成文字檔，進入步驟5，合成影像檔與文字檔為資料夾，儲存到檔案庫中。

請見圖5，為本發明多媒體影像檢索方法中檢索影像檔示意圖。使用者1使用一種搜尋演算法17檢索檔案庫5，對所有的資料夾8、11、14進行檢索。檢索的方法是以關鍵字搜尋文字檔9、12、15，這樣就很容易從影像檔10、13、16檢索到所需的影像檔。

同請見圖6，為本發明多媒體影像檢索方法中搜尋演算法17的流程圖。步驟1，進入搜索引擎，輸入關鍵字。步驟2，進入檔案庫。步驟3，查詢是否尚有資料夾未檢查，若未檢查完畢，則進入資料夾檢索(步驟4)，檢索其文字檔內容(步驟5)，與關鍵字比對(步驟6)，若符合，則取出其影像檔而呈現給使用者(步驟7)，回到步驟3，繼續查詢其他資料夾；若不符合，則離開該資料夾(步驟8)，回到步驟3，繼續查詢其他資料夾。在步驟3中，若已查完所有資料夾，則結束檢索(步驟9)。

本發明的精神與範圍決定於下面的申請專利範圍，不受限於上述實施例。