TW201723892A - 多媒體影像檢索方法 - Google Patents

多媒體影像檢索方法 Download PDF

Info

Publication number
TW201723892A
TW201723892A TW104144649A TW104144649A TW201723892A TW 201723892 A TW201723892 A TW 201723892A TW 104144649 A TW104144649 A TW 104144649A TW 104144649 A TW104144649 A TW 104144649A TW 201723892 A TW201723892 A TW 201723892A
Authority
TW
Taiwan
Prior art keywords
file
folder
image
microphone
image file
Prior art date
Application number
TW104144649A
Other languages
English (en)
Inventor
黃紹華
姚秉志
陳冠霖
鍾耀興
黃啓榮
沈立得
張舜傑
葉政育
朱召平
古甯允
林子閎
葉明哲
Original Assignee
國立臺北科技大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺北科技大學 filed Critical 國立臺北科技大學
Priority to TW104144649A priority Critical patent/TW201723892A/zh
Publication of TW201723892A publication Critical patent/TW201723892A/zh

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種多媒體影像檢索方法。使用攝影機與麥克風錄製影像檔時,使用一種語音辨識軟體將麥克風所錄的語音轉成文字檔,然後將影像檔與文字檔合成為資料夾,儲存到檔案庫中。若欲檢索某一影像檔,則進入檔案庫中對所有的資料夾進行檢索,檢索的方法是以關鍵字搜尋文字檔,於是很容易檢索到相關的影像檔。

Description

多媒體影像檢索方法
本發明有關於多媒體影像檢索方法,尤其是指為多媒體影像建立文字檔以便於檢索的方法。
使用攝影機或智慧手機拍錄影像而儲存於個人電腦或雲端伺服器中,以供日後檢索觀看研究,是現代人生活的一部分。這些儲存的影像越來越多後,使用者就不容易檢索到所需要的影像。
請見圖1,使用者1使用攝影機2與麥克風3錄製影像檔4,然後儲存到檔案庫5中。檔案庫5在個人電腦或雲端伺服器中。使用者1想要回顧影像檔4時,則使用搜尋引擎6(例如Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等)對檔案庫5進行檢索。若影像檔4的數量不多,可以逐一檢視而挑出所需要的影像檔4。但若影像檔4中影像太多時,就無能為力了。
本發明的目的在提出一種多媒體影像檢索方法。使用攝影機與麥克風錄製影像檔時,使用一種語音辨識軟體將麥克風所錄的語音轉成文字檔,然後將影像檔與文字檔合成為資料夾,儲存到檔案庫中。若欲檢索某一影像檔,則使用一種搜尋演算法檢索檔案庫,對所有的資料夾進行檢索。檢索的方法是以關鍵字搜尋文字檔,於是很容易檢索到相關的影像檔。
本發明多媒體影像檢索方法,包含步驟如下: a.使用者使用一攝影機與一麥克風錄製一影像檔時,使用一種語音辨識軟體將該麥克風所錄的語音轉成一文字檔,然後將該影像檔與該文字檔合成為一資料夾,儲存到一檔案庫中;b.當使用者欲從該檔案庫檢索所需的影像檔時,打開一搜索引擎,輸入一關鍵字;c.進入該檔案庫,查詢是否尚有資料夾未檢查;d.若資料夾未檢查完畢,則進入資料夾檢索,檢索其文字檔內容,與該關鍵字比對,若符合,則取出其影像檔而呈現給使用者,回到步驟c,繼續查詢其他資料夾;若不符合,則離開該資料夾,回到步驟c,繼續查詢其他資料夾;e.在步驟c中,若已查完所有資料夾,則結束檢索。
1‧‧‧使用者
2‧‧‧攝影機
3‧‧‧麥克風
4‧‧‧影像檔
5‧‧‧檔案庫
6‧‧‧搜尋引擎
7‧‧‧語音辨識軟體
8‧‧‧資料夾
9‧‧‧文字檔
10‧‧‧影像檔
11‧‧‧資料夾
12‧‧‧文字檔
13‧‧‧影像檔
14‧‧‧資料夾
15‧‧‧文字檔
16‧‧‧影像檔
17‧‧‧搜尋演算法
圖1為傳統使用攝影機與麥克風錄製影像檔,儲存到檔案庫中,然後使用搜尋引擎對檔案庫進行檢索的示意圖。
圖2為本發明多媒體影像檢索方法中建立文字檔示意圖。。
圖3為本發明多媒體影像檢索方法中攝影機與麥克風不在同一個裝置中的示意圖。
圖4為本發明多媒體影像檢索方法中的建立文字檔流程圖。
圖5為本發明多媒體影像檢索方法中檢索影像檔示意圖。
圖6為本發明多媒體影像檢索方法中搜尋演算法的流程圖。
請見圖2,為本發明多媒體影像檢索方法中建立文字檔示意圖。使用者1使用攝影機2與麥克風3錄製影像檔10,並使用一種語音辨識軟體7(例如Google語音辨識、蘋果的Siri語音辨識、YouTube上語音識別自動製作字幕之技術)將麥克風3所錄的語音轉成文字檔9,然後將影 像檔10與文字檔9合成為資料夾8,儲存到檔案庫5中。其中攝影機2與麥克風3可以在同一個裝置中,例如智慧型手機,或者是攝影機2與麥克風3各自獨立。
請見圖3,攝影機2與麥克風3不在同一個裝置中,使用者1使用攝影機2拍攝影像檔13。另外用麥克風3錄取使用者特別輸入的語音,經由語音辨識軟體7轉成文字檔12,然後將影像檔13與文字檔12合成為資料夾11,儲存到檔案庫5中。
請見圖4,為本發明多媒體影像檢索方法中的建立文字檔流程圖。步驟1為錄製影像檔,步驟2為語音偵測,若有語音,則進入步驟4,使用語音辨識軟體將語音轉成文字檔,然後進入步驟5,合成影像檔與文字檔為資料夾,儲存到檔案庫中。步驟2中若無語音,則進入步驟3,要求使用者輸入語音而錄音,然後進入步驟4,使用語音辨識軟體將語音轉成文字檔,接著進入步驟5,合成影像檔與文字檔為資料夾,儲存到檔案庫中。若只是拍照取得影像檔,如步驟1'所示,則進入步驟3,要求使用者輸入語音而錄音,進入步驟4,使用語音辨識軟體將語音轉成文字檔,進入步驟5,合成影像檔與文字檔為資料夾,儲存到檔案庫中。
請見圖5,為本發明多媒體影像檢索方法中檢索影像檔示意圖。使用者1使用一種搜尋演算法17檢索檔案庫5,對所有的資料夾8、11、14進行檢索。檢索的方法是以關鍵字搜尋文字檔9、12、15,這樣就很容易從影像檔10、13、16檢索到所需的影像檔。
同請見圖6,為本發明多媒體影像檢索方法中搜尋演算法17的流程圖。步驟1,進入搜索引擎,輸入關鍵字。步驟2,進入檔案庫。步驟3,查詢是否尚有資料夾未檢查,若未檢查完畢,則進入資料夾檢索(步驟4),檢索其文字檔內容(步驟5),與關鍵字比對(步驟6),若符合,則取出其影像檔而呈現給使用者(步驟7),回到步驟3,繼續查詢其他資料夾;若不符合,則離開該資料夾(步驟8),回到步驟3,繼續查詢其他資料夾。 在步驟3中,若已查完所有資料夾,則結束檢索(步驟9)。
本發明的精神與範圍決定於下面的申請專利範圍,不受限於上述實施例。
1‧‧‧使用者
2‧‧‧攝影機
3‧‧‧麥克風
5‧‧‧檔案庫
7‧‧‧語音辨識軟體
8‧‧‧資料夾
9‧‧‧文字檔
10‧‧‧影像檔

Claims (3)

  1. 一種多媒體影像檢索方法,包含步驟如下:a.使用者使用一攝影機與一麥克風錄製一影像檔時,使用一種語音辨識軟體將該麥克風所錄的語音轉成一文字檔,然後將該影像檔與該文字檔合成為一資料夾,儲存到一檔案庫中;b.當使用者欲從該檔案庫檢索所需的影像檔時,打開一搜索引擎,輸入一關鍵字;c.進入該檔案庫,查詢是否尚有資料夾未檢查;d.若資料夾未檢查完畢,則進入資料夾檢索,檢索其文字檔內容,與該關鍵字比對,若符合,則取出其影像檔而呈現給使用者,回到步驟c,繼續查詢其他資料夾;若不符合,則離開該資料夾,回到步驟c,繼續查詢其他資料夾;e.在步驟c中,若已查完所有資料夾,則結束檢索。
  2. 如申請專利範圍第1項之多媒體影像檢索方法,其中該攝影機與該麥克風不在同一個裝置中,使用者使用該攝影機拍攝該影像檔;另外用該麥克風錄取使用者特別輸入的語音,經由該語音辨識軟體轉成該文字檔,然後將影像檔與該文字檔合成為該資料夾,儲存到該檔案庫中。
  3. 如申請專利範圍第1項之多媒體影像檢索方法,其中該攝影機與該麥克風在一智慧型手機中。
TW104144649A 2015-12-31 2015-12-31 多媒體影像檢索方法 TW201723892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW104144649A TW201723892A (zh) 2015-12-31 2015-12-31 多媒體影像檢索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104144649A TW201723892A (zh) 2015-12-31 2015-12-31 多媒體影像檢索方法

Publications (1)

Publication Number Publication Date
TW201723892A true TW201723892A (zh) 2017-07-01

Family

ID=60048078

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104144649A TW201723892A (zh) 2015-12-31 2015-12-31 多媒體影像檢索方法

Country Status (1)

Country Link
TW (1) TW201723892A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI663594B (zh) * 2018-04-19 2019-06-21 陳伯豪 根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器及系統

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI663594B (zh) * 2018-04-19 2019-06-21 陳伯豪 根據視訊或音訊之聲音提供語言學習資訊之行動裝置、伺服器及系統

Similar Documents

Publication Publication Date Title
KR102140177B1 (ko) 환경 콘텍스트를 이용한 질문 답변
US8326879B2 (en) System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US8484017B1 (en) Identifying media content
US20140074466A1 (en) Answering questions using environmental context
US20070250526A1 (en) Using speech to text functionality to create specific user generated content metadata for digital content files (eg images) during capture, review, and/or playback process
US10127231B2 (en) System and method for rich media annotation
US8634947B1 (en) System and method for identifying digital files
CN104599692B (zh) 录音方法及装置,录音内容搜索方法及装置
WO2016184051A1 (zh) 图片搜索方法、装置、设备及非易失性计算机存储介质
US10402407B2 (en) Contextual smart tags for content retrieval
US20130138438A1 (en) Systems and methods for capturing, publishing, and utilizing metadata that are associated with media files
US20160118063A1 (en) Deep tagging background noises
US20160210353A1 (en) Data lookup and operator for excluding unwanted speech search results
CN103455642A (zh) 一种多媒体文件检索的方法和装置
US20110075884A1 (en) Automatic Retrieval of Object Interaction Relationships
US20140122513A1 (en) System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
WO2019200040A1 (en) System and method of ai assisted search
US10114891B2 (en) Method and system of audio retrieval and source separation
JP4894253B2 (ja) メタデータ生成装置およびメタデータ生成方法
US20140372455A1 (en) Smart tags for content retrieval
US20140078331A1 (en) Method and system for associating sound data with an image
TW201723892A (zh) 多媒體影像檢索方法
US20170228399A1 (en) Method of searching for multimedia image
US9959446B2 (en) Appending a user identifier to an image