TWI312945B - Method and apparatus for multimedia data management - Google Patents
Method and apparatus for multimedia data management Download PDFInfo
- Publication number
- TWI312945B TWI312945B TW095120209A TW95120209A TWI312945B TW I312945 B TWI312945 B TW I312945B TW 095120209 A TW095120209 A TW 095120209A TW 95120209 A TW95120209 A TW 95120209A TW I312945 B TWI312945 B TW I312945B
- Authority
- TW
- Taiwan
- Prior art keywords
- multimedia
- data
- search
- image
- image data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000013523 data management Methods 0.000 title 1
- 239000000463 material Substances 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000012512 characterization method Methods 0.000 claims 1
- 239000000835 fiber Substances 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
1312945 九、發明說明: 【發明所屬之技術領域】 本發明是有關於多媒體資料(multimedia data)之語音 註解(speech annotation)及檢索(retrieval),特別是關於一 , 種管理多媒體資料的方法與裝置,利用音節模擬影像 (syllable-transformed image)於多媒體資料之語音註解及 : 檢索。 籲 【先前技術】 隨著網際網路的爆炸性成長與數位影像擷取裝置如 數位攝影機(digital video camera)、數位相機(digital camera)與數位錄影機(digital video recorder)等的普及,使 用者獲得多媒體資料的方法越來越多,也越來越簡單。 使用者所擁有的多媒體資料的增加速度自然地越來越 快。相對地,管理多媒體資料也變得困難與耗時。 雖然時下已有一些管理多媒體資料的系統或方法^但 多數疋利用文子(text)或語言轉文字(langUage_t〇_text)的 方式來描述、索引(index)及搜尋(retrieval)多媒體資料。 時下的多媒趙資料的註解(annotation)或搜尋技術大致可 分為下列四種··以文字註解與搜尋、語音轉文字 (speech-to-text)的註解與搜尋、圖形分析搜尋、以及語音 註解(speech annotation)與搜查。 6 文字註解與搜尋方式較不用特殊需求。但會有輸入文 字較為冗長的賴,崎簡树可能受赚祕提供的 關鍵》司以文子„主解方式的文獻如美國專利⑽3,船,此 專利文獻魏-齡触影_轉置贿人已編瑪及結 構化資料的引擎㈣bedded metadata响⑽in獅 capture dev㈣。在數位影像梅取裝置裡加入分析影像内容 的功能,透狐影軸容的分析,自動纽出内容相關的 額外資訊域影像資料_併儲存。此專利文獻的揭露 雖能動態地域位影像產生註解,但並未揭露影像的搜尋。 "。曰轉文字的轉與搜尋的方式需要語音辨識器,也 造成語言相_關。以語音轉文字的轉與搜尋方式的 文獻如美國專利637,18卜此專散獻揭露-觀多媒體 資料註解及取得的方法和裝置(method and apparatus for voice annotation ^ retrieval 〇fmukimedia _。在註解時 使用》。a輸人的方式’制驗音_技術將語音内容轉 成文字,然翻敎字註解產生反向索引表(reverse index table)。在搜尋時使驗音輸人的枝,經語切識技術產 生搜哥關鍵詞,再透過反向索引表找出符合的多媒體資料。 另-篇美國專利6,499,〇16文獻揭露一種利用以語音 基礎指令語t❿自動轉和呈郷像(aut_ie吻_叩 and presenting digital images using a speech-based command lang零⑼綠。纽_使聽音敎?_式,在搜 1312945 哥時則利用文字來搜尋。使用者在拍照時可透過數位相機 及時以語音錄下註解資訊,透過多段指令(c〇mmand):欽述 (statement)的語音輸入’為影像附加如地點和時間等描述, 然後使用者將影像與註解資訊送到伺服器處理,由伺服器 - 來辨賴音資訊,將語音轉成文字贿。根據文字註解, : 使用者可以下達關鍵字動態產生不同的相簿以供瀏覽。 美國專利6,813,618文獻揭露一種在數位圖相薄裡尋 • 找相關圖形材料的系統與方法(system and methQd acquisition of related graphical nmterial in a digital gmphies album)。此專利透過對文字註解的搜尋來達到以圖找圖的 目的。使用者可以透過網路找到與指定影像相關的影像。 利用圖形分析來進行搜尋的方式,則系統需要具備圖 形分析的能力,使用者雖然不必對每張圖片附加註解,不 過只能針對圖形搜尋,並且必須先找到作為搜尋條件的圖 • 形,甚且也難以精確分析圖形的内容。以圖形分析方式的 文獻如 An active learning framework for content-based information retrieval' Multimedia,IEEE Transactions on Vol. . 4, Issue 2, June 2002, PP 260-268.此篇論文以内容為基礎 之為 δίΙ|«索(content-based information retrieval)來建立樹狀 屬性表(attribute tree),以提供影像的標記。 1312945 以聲音搜尋的方式«種,包括直接轉搜尋條件與 註解的原始聲音資料、或者將聲音訊號經過辨識,將辨識 結果以N g咖组合來建立檢索向量,再進行語言檢索 等。前者《料量多時,逐—_會耗_當多的時間; - 後棚會❹丨的相紐的限制。 : 軸已存在上述四種料職資料的崎或搜尋技 術’但這些技術仍有前述可能發生的問題,並且都與語 • 言相關(l3ngUagede㈣邮),使用者因此無法自由自在地 使用想要的語言或聲音。 因此’如何讓使用者可以簡化管理步驟,快速找到 想要的多媒體資料,以及聲音以語言無關(language independent)的方式索引和搜尋是本發明的主要動機。 【發明内容】 φ 本發明有效解決上述習知技術的缺憾。其主要目的是 •k:供一種管理多媒體資料的方法與裝置。 ‘ 本發明主要是根據由音節轉換而成的圖案 (syllable-transformed pattern)與特徵影像分析 (eigen-image analysis) ’來搜尋語音註解的圖像。對具有 語音註解的數位圖像(digital ph〇to with speech annotation),根據辨識出的音節後選者(rec〇gnized syiiaWe 1312945 candidate)轉換而成的模擬影像圖案(image_Hke卿㈣, 提供了新穎的㈣與搜尋技術。在此技術巾,提供了 — 個將聲音賴為代碼時依據的鋪,藉此達到與語言無 關的搜尋。 ' 本發明之管理多媒體資料的方法包括主要三個步 驟。首先被棘轉之聲音概透過—自動語音辨識器 (speech職㈣產生辨識結果,並轉換成一個模擬影 像的資料。紐,细-影像概處理方法來建立一索 引資料庫。在搜尋時,以自然σ述語音搜尋此多媒體資 料。 依此’本發明之管理纽體資料的裝置包括一個多媒 體資料索!丨製雜組和—個多舰資料檢㈣組。多媒 體資料索?丨製作模崎觀取註狀聲音魏轉換成一 模擬影像資概,触纽碰影像#料的特徵參數並 完成-索引資料庫的建立。多媒體龍檢索模組以自然 口述語音來搜尋此多媒體資料。 、將本發明實施在1055張具有語音雜的數位圖像, 並相較於傳碰使料f、林_____ 索引方法,結果顯示本發明達到較佳的檢索準確性,並 且檢索時間也較短。 1312945 茲配合下列圖示、實施例之詳細說明及申請專利範 圍’將上述及本發明之其他目的與優點詳述於後。 【實施方式】 以下描述本發明之管理多媒體資料的方法與裝置。 在描述中,本發明提供之管理多媒體資料的裝置以模組 (module)的來描述其主要元件。一個模組,特別是它的 功能性(functionality),可以用硬體(hardware)、或軟體 • (software)、或硬體與軟體兩種模組的組合來實現。 第-A圖與第-B圖說明本發明之管理多媒體資料 的裳置與運作流程。此管理多舰資料的裝置包括第一 A圖之為多舰資健作索引模組,以及第—b圖之搜 尋此多媒體資料模心參考第_ A圖,此多媒體資料索 引製作餘首先職_骑之㈣製⑼透過一 自動扣日辨識器1G3產生-辨識結果,例如音節矩陣 _疏赚ix)113。然後,轉換此辨識結果為一模擬影 像資料105,並__影像特徵處理方法來完成—索引 資料庫的建立。參考第—B圖,在搜尋時,此多媒體資 料檢索模组以自然口述語音鱗衫媒體資料。 _第二圖為多·資料如製作模_—個詳細方塊 以及一特徵操取與索引 。〜圖此多媒體貝料索引製作模組包括自動語音辨識 器103' -影像模擬模組2〇1、 1312945 建^^‘組205。自動語音辨識器⑽辨識被棟取註解之 特徵1〇1,產生一辨識結果。影像模擬模組201首 、十算出此辨識結果之她度分數,雜根據此相似度 分數,將此辨識結果轉換成一模擬影像資料。特徵棟取 "、’、建立模組205揭取此模擬影像資料的特徵參 數,然後將此特徵參數作量化並完成索引資料庫的建 立。此索引資料庫的建立解決了因為模擬影像資料量 大,逐一比對相當耗費時間的問題。 第三圖詳細說明第一 B圖之自然口述語音搜尋多媒 體貝料的步驟流程。參考第三圖,多媒體資料檢索模組 百先以聲音輸人搜尋條件,並轉換此搜尋條件成一索引 資料。然後比對此索引資料與索引資料庫裡的索引資 訊。依此,找iU符合此搜尋條件之相對朗多媒體資料 自動語音辨識的主要目的是希望自然口述語音能夠 透過電腦來觸,㈣使電職行相職駐作。當聲 音訊號藉由類比到數位的轉換裝置輸入,並以數值方式 儲存至電腦時’語音辨識n會將輸人制試聲音樣本與 事先建立好的語音辨載型,進行比對以找出_個被認 為最“像”該聲音樣本的辨識結果。如此,可以知道輸入 的自然口述語音代表何意。 在使用自動語音辨識之前,利用機率與統計的方 1312945 法’配合收集到的語音和文字語料,事先建立好辨識時 所需的辨識模型,包括語言模型和聲學模型。 第四圖綱自動語音韻的方法。當顺器收到聲 音訊斜,如標號所示,首先對此聲音訊號做參數 的擷取’例如常用的梅爾倒頻譜參數。然後,利用動二 搜尋方法,配合事先建立好的語言模型和聲學模型,進 行自動語音辨識階段,如標號403所示。最後得到辨識 結果。 基於此語音辨識結果,得以了解圖片的語音註解内 容。但就時下的語音辨識技術,仍存在語音辨識誤差 (speech recognition error)。此誤差的產生包括統計方法 上的偏差,以至於在辨識模型上發生混淆;以及一般人 發聲上存在著一些容易混淆的發音,例如:勹和女的發 音混淆、一和七的發音混淆。 因此,本發明使用以發音音節為基礎之語音辨識器 (syllable-based recognizer) ’有效地利用此語音辨識器定 義出的所有發音音節,來建立索引資料庫,並且利用語 s辨識器定義出的所有發音音節,建立一個混淆矩陣 (confusion matrix) ’將音節結果轉換成對應的音節發音 分數,用來量測各發音與其他發音的混淆。為避免誤 差,本發明取辨識前n名最佳結果作為候選,稱之為 13 1312945 η-最佳音節候選者(n_best syllable candidate),η為一自然 數。 將每一個音節看成類似於影像上的像素,呈現的結 果就如同是一張影像一般,在色彩上呈現深淺、相似度 鴿 : 遠近的關係。但是,因為音節間彼此的距離並不線性的 :* 關係’所以本發明利用多元尺度量測方法 (multidimensional scaling ’ MDS),如第五圖所示,先建 φ 立資料間兩兩之距離矩陣,再將辨識音節結杲根據多維 度空間描述距離,透過矩陣空間的座標轉換,呈線性的 距離關係,讓相似度(距離關係)以影像之色階深淺表示 (gray level) ’藉此轉換成模擬影像資料。 第六圖為一真實範例的示意圖,說明轉換後的模擬 影像之間視覺上的性質卜丨如心哪卿卜在第六圖裡, s吾音註解檔file)裡,音節弘呢之已辨 * 識n_最佳音節候選者的模擬影像比音節ge之已辨識n- 最佳音節輯者的模《彡像更她於查詢音節(query _able)geng之已辨識〜最佳音節候選者的模擬影像。 ' 從第'、圖’雖然對於音節geng在語音註解樓會發生語 β觸錯誤,細本發明糊音節無賴擬影像作搜 哥的技術仍然可以在查詢與語音註解稽之間,正確地四 配到查詢音節。換言之’ _本發明之搜尋技術,語音 註解擋裡的音節geng可以正確地匹配到查詢音節 14 1312945 geng
以下第七圖中,以-範例說明本發明從辨識 第七A圖之發音音節)來建立索引的程序。如第UP
:二首先:選出:姻節候選者轉換成-模擬影 像貧科H個音節候選者為—張影像將影像作切 割’如第七C圖所示。對切割後的影像資料再作影像特 徵值分析(Eigen_Image),所得_罐擬職特徵 :個多維度向量雜,如第七D騎心最後將相似的 影像特徵值的音節模擬影像聚成(cluster)同-串碼a (code職I)序列’如第七_所示。所有碼字序列則= 立成碼本(codebook)。 曰*主解及以聲音輸人的搜尋條件,經上述步驟皆 可轉成-串碼字序列。本發明利用資訊檢索方法統計1
frequency and inverse docUment frequency ’何),建立向量式索引,此一向量維度 的索引就代表每舰_容的:#訊。#使用者以聲音輸 入搜尋條件’朗樣程序被轉換成—個向量維度 (dimension)的資料,檢索時將此查詢語音向量與資料庫 内素引的向1: ’兩兩作向量内積比朗運算,回覆給使 用者符合搜尋條件的多媒體資料。 影像特徵值分析軸料f料作主成分分析 15 1312945 (principle component analysis,PCA) ’ 優點為擷取音節 轉換後之模擬影像資料的具代表性特徵(extract significant feature) ’以及降低雜訊資料干擾。主成分分 析有多種實現方式。不失-般性’以下之範例說明的影 像資料作主成分分析的兩個主要步驟為共變異矩陣估 : 計(covariance matrix estimation)和奇異值分解分析 : (singular value decomposition,SVD)。 φ 奇異值分解分析的主要目的是將影像向量的所有維 度投射(project)到單一且更具鑑別性資訊空間(single latent information space),同時顯著降低資料維度 (significantly reduced dimensionality)= 如第八圖所示,共變異矩陣估計的運算包括正規化 影像(image normalization)、取影像平均值(taking image mean)、取得減去影像平均值(obtaining differemial _ image)、建立依影像取維度的矩陣(dimensi〇n_by_image matrix construction)妒和建立共變異矩陣(c〇variance matrix construction)。奇異值分解分析的運算包括求取妒 • 之自相關矩陣(autocorrelation matrix computation)、降低 維度和資料雜訊(reducing dimensionality and data noise)、建立特徵影像的轉換基底(transform basis construction of eigen-image)U、以基底 U 轉換新影像 (eigen-image transformation)。 16 1312945 ϋ結果齡,本發明在儲存上雜少的資料維 又、較快的檢索速度。檢索率約有16為的提升。 综上所述,本發明提供_種管理多媒體資料的方法 和裝置’包括對多媒體資料附加語音註解以及利用音節 模擬影像之纽方式製作封與檢索多舰資料。將梅 取語音資料的聲音雜根縣音辨_觸出的音節 矩陣。且利用音節相似度計算方法,估計出音節發音分 數’將辨·果之音節輯參考音節發音分數轉換為模 擬影像:越。最後個影像纽方法來建立索引, 經由比對註解與搜尋語音之索引,可以有較好的準破率 找出想要的多媒體資料。 基於多媒體資料之語音註解,建立索引時,首先梅 取註解之聲音倾,經由自動語音觸器產生η名音節 辨識後選者。紐·音節難影像資料轉換,將此η 名音節辨識後選者轉換成模擬影像像素之資料。再透過 影像特徵值分析,擷取影像内具代表性的特徵並且去除 雜Λ干擾。接著利用群集分析將音節之影像特徵值聚 類,建立碼字(codeword)及碼本(c〇deb〇〇k) β最後,每句 輪入語音訊號都可經過上述流程轉換成一連串的編 碼,利用資訊檢索上常用的i/xW/統計方式建立索引。 17 1312945 檢索時,輸人的語音查詢_樣的處職程來建立 向量索引,再與資料庫内所建立物丨資訊做相似度比 對找出符。搜等條件的語音註解及其對應之多媒體資 料内容。 ^ 准以上所述者,僅為本發明之實施例而已,當不能 依此限疋本發明實施之範圍。即大凡本發明申請專利範圍 % 所作之均等變化與修飾,皆應仍屬本發明專利涵蓋之範圍 内。
18 1312945 【圖式簡單說明】 第- A圖與第-B圖說明本發明之管理多媒體資料的方 法的步驟流程。 第二圖為多媒體資料索引製作模組的—個詳細方塊示 圖。 意 第三圖詳細說明第—B圖之自細述語音搜 料的步驟流程。 第四圖說明自動語音辨識的方法。 第五圖是tf音辨識H定義出之發音音__個範例。 第六圖說明本發明利用多元 弋度里測方法,將音節資料 間兩兩之距離矩陣為非線性關係 度福述。 尋多媒體資 ’投影到線性可分的維 第七圖以一範例說明本發明從辨識結 程序。 ° 果來建立索引的 第八_-步制共„矩_計和奇異值分解分析 的運算 【主要元件符號說明】 101聲音特徵 '~~—-~~~__ I05 模%料 模組 103自動語音辨識器 ---------- ⑴音節矩陣 4〇1參掘申 碼) 19
Claims (1)
1312945 十、申請專利範圍: j嘴年> 私丨日修次i正替换買| ^―-·^·*· -··_ ”广’ 一一一…-—^.,^.4 1. 一種管理多媒體資料的方法,該方法包含下列步驟: 將被擷取註解之聲音特徵透過一自動語音辨識器產生 一辨識結果; • 轉換該辨識結果為一模擬影像資料,並利用一影像特 徵處理方法來建立一索引資料庫;以及 ' 在搜尋時,以自然口述語音搜尋該多媒體資料。 2.如申請專利範圍第1項所述之管理多媒體資料的方 9 法’其中該模擬影像資料的轉換包括下列步驟: 計算出該辨識結果之相似度分數;以及 根據此相似度分數,將該辨識結果轉換成該模擬影像 資料。 3.如申請專利範圍第丨項所述之管理多媒體資料的方 法’其中該索引資料庫的建立包括下列步驟: 梅取該模擬影像資料的特徵參數;以及 量化該特徵參數及完成該索引資料庫的建立。
4,如申請專利範圍第1項所述之管理多媒體資料的方 法’其中該自然口述語音搜尋該多媒體資料包括下列 步驟: 以聲音輸入搜尋條件,並轉換該搜尋條件成一索引 資料; 然後比對該索引資料與該索引資料庫裡的索引資訊; 以及 找出符合該搜尋條件之相對應的該多媒體資料。 20 丄312945 5 : .如申請專利範圍第3項所述之管理多媒體資料的方 去’其中該擷取該模擬影像資料的特徵參數更包括: 從該辨識結果選出n名最佳音節候選者轉換成該模 擬影像資料,並以—名音節候選者為-張影像將該模 擬衫像資料作切割,η為自然數;以及 對切割後的影像資料再作影像特徵值分析。 6.如申請專利範圍第5項所述之管理多媒體資料的方
/、中。亥里化§亥特徵參數及完成該索引資料庫的建 立更包括: ' 量化該影像特徵值分析所得的音節模擬影像特徵值 為一個多維度向量資料;以及 將相似的該影像特徵值資料聚成同-串碼字序列, 所有碼字相财域—碼本。 之語音辨識器 t申請專利朗第1項所述之管理多媒體資料的方 其中該自動語音觸料-種讀音音節為基礎
項所述之管理多媒體資料的方 處理方法鱗該顺影像資料作 8.如申請專利範圍第 法’其中該影像特徵 主成分分析。 ㈣貧科的裝置,«置包含· 一多媒體觸作料模組,將被解 徵透過—自絲音_器產生—觸結果解^ 該辨識結果為-模擬影料料, 像 理方法來完成赴—料資料庫;以及像杨 21 1312945 搜尋此多媒體資料模組以自然口述語音搜尋該多 媒體資料。 ίο.如申s月專利範圍第9項所述之管理多媒體資料的裝 置/、中該夕媒體資料索引製作模組更包括: • U自動°° s辨識器,辨識該被揭取註解之聲音特 二 徵,產生該辨識結果; : 讀類細,計算i該職絲之-相似度分 數’然後雜軸似度錄’將該纖結果轉換成一 • 权擬影像資料;以及 -特徵與钟建域&,触雜郷像資料的 特徵參數’然後將該特徵參數作量化並完成該索引資 料庫的建立。 11.如申請專概圍第9項所述之管理多媒體資料的裝 置,其中該索引資料庫内每一索引係由一争碼字序列 建立而成。 12·如申請專利範圍第9項所述之管理多媒體資料的裝 # 1,其令該自動語音韻器為-種以發音音節為基礎 之語音辨識器。 13·如申請專利範圍第12項所述之管理多媒體資料的裝 22 1 置,其中該模擬影像資料係經由該辨識結果選出n名 , 最佳之該發音音節轉換成,η為自然數。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW095120209A TWI312945B (en) | 2006-06-07 | 2006-06-07 | Method and apparatus for multimedia data management |
JP2006195626A JP4699954B2 (ja) | 2006-06-07 | 2006-07-18 | マルチメディアデータ管理方法とその装置 |
US11/565,628 US7739110B2 (en) | 2006-06-07 | 2006-12-01 | Multimedia data management by speech recognizer annotation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW095120209A TWI312945B (en) | 2006-06-07 | 2006-06-07 | Method and apparatus for multimedia data management |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200745880A TW200745880A (en) | 2007-12-16 |
TWI312945B true TWI312945B (en) | 2009-08-01 |
Family
ID=38895783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW095120209A TWI312945B (en) | 2006-06-07 | 2006-06-07 | Method and apparatus for multimedia data management |
Country Status (3)
Country | Link |
---|---|
US (1) | US7739110B2 (zh) |
JP (1) | JP4699954B2 (zh) |
TW (1) | TWI312945B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI514868B (zh) * | 2010-12-14 | 2015-12-21 | Axis Ab | 改良視訊影像流中影像之影像品質的方法及數位視訊攝影機 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8688674B2 (en) | 2008-02-14 | 2014-04-01 | Beats Music, Llc | Fast search in a music sharing environment |
US20090265165A1 (en) * | 2008-04-21 | 2009-10-22 | Sony Ericsson Mobile Communications Ab | Automatic meta-data tagging pictures and video records |
US8086611B2 (en) * | 2008-11-18 | 2011-12-27 | At&T Intellectual Property I, L.P. | Parametric analysis of media metadata |
US8290780B2 (en) * | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US9489577B2 (en) * | 2009-07-27 | 2016-11-08 | Cxense Asa | Visual similarity for video content |
US20110257972A1 (en) * | 2010-04-15 | 2011-10-20 | Markus Agevik | System and method for location tracking using audio input |
US20110307255A1 (en) * | 2010-06-10 | 2011-12-15 | Logoscope LLC | System and Method for Conversion of Speech to Displayed Media Data |
CN103021403A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
US10019514B2 (en) * | 2015-03-19 | 2018-07-10 | Nice Ltd. | System and method for phonetic search over speech recordings |
CN110347866B (zh) * | 2019-07-05 | 2023-06-23 | 联想(北京)有限公司 | 信息处理方法、装置、存储介质及电子设备 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPS59121098A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
JPS6391699A (ja) * | 1986-10-03 | 1988-04-22 | 株式会社リコー | 音声認識方式 |
US5532936A (en) * | 1992-10-21 | 1996-07-02 | Perry; John W. | Transform method and spectrograph for displaying characteristics of speech |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
KR100324988B1 (ko) * | 1994-06-13 | 2002-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 신호해석장치 |
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
US5835667A (en) | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
WO1999046734A1 (en) * | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6833865B1 (en) | 1998-09-01 | 2004-12-21 | Virage, Inc. | Embedded metadata engines in digital capture devices |
US6684185B1 (en) * | 1998-09-04 | 2004-01-27 | Matsushita Electric Industrial Co., Ltd. | Small footprint language and vocabulary independent word recognizer using registration by word spelling |
US6185527B1 (en) | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6397181B1 (en) | 1999-01-27 | 2002-05-28 | Kent Ridge Digital Labs | Method and apparatus for voice annotation and retrieval of multimedia data |
US6499016B1 (en) | 2000-02-28 | 2002-12-24 | Flashpoint Technology, Inc. | Automatically storing and presenting digital images using a speech-based command language |
US7415537B1 (en) * | 2000-04-07 | 2008-08-19 | International Business Machines Corporation | Conversational portal for providing conversational browsing and multimedia broadcast on demand |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US7054850B2 (en) * | 2000-06-16 | 2006-05-30 | Canon Kabushiki Kaisha | Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements |
US6813618B1 (en) | 2000-08-18 | 2004-11-02 | Alexander C. Loui | System and method for acquisition of related graphical material in a digital graphics album |
GB0023930D0 (en) * | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
WO2002090915A1 (en) * | 2001-05-10 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Background learning of speaker voices |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
US7366656B2 (en) * | 2003-02-20 | 2008-04-29 | Ramot At Tel Aviv University Ltd. | Method apparatus and system for processing acoustic signals |
US7599554B2 (en) * | 2003-04-14 | 2009-10-06 | Koninklijke Philips Electronics N.V. | Method and apparatus for summarizing a music video using content analysis |
US7409407B2 (en) * | 2004-05-07 | 2008-08-05 | Mitsubishi Electric Research Laboratories, Inc. | Multimedia event detection and summarization |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
TWI258731B (en) * | 2004-11-04 | 2006-07-21 | Univ Nat Cheng Kung | Chinese speech synthesis unit selection module and method |
US8626506B2 (en) * | 2006-01-20 | 2014-01-07 | General Motors Llc | Method and system for dynamic nametag scoring |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
-
2006
- 2006-06-07 TW TW095120209A patent/TWI312945B/zh not_active IP Right Cessation
- 2006-07-18 JP JP2006195626A patent/JP4699954B2/ja not_active Expired - Fee Related
- 2006-12-01 US US11/565,628 patent/US7739110B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI514868B (zh) * | 2010-12-14 | 2015-12-21 | Axis Ab | 改良視訊影像流中影像之影像品質的方法及數位視訊攝影機 |
Also Published As
Publication number | Publication date |
---|---|
US20070288237A1 (en) | 2007-12-13 |
JP2007328311A (ja) | 2007-12-20 |
US7739110B2 (en) | 2010-06-15 |
TW200745880A (en) | 2007-12-16 |
JP4699954B2 (ja) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI312945B (en) | Method and apparatus for multimedia data management | |
WO2021232725A1 (zh) | 基于语音交互的信息核实方法、装置、设备和计算机存储介质 | |
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
WO2020043123A1 (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN109509470A (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
CN113836277A (zh) | 用于数字助理的机器学习系统 | |
KR102029276B1 (ko) | 환경 콘텍스트를 이용한 질문 답변 | |
CN109686383A (zh) | 一种语音分析方法、装置及存储介质 | |
CN109920409B (zh) | 一种声音检索方法、装置、系统及存储介质 | |
US20200342909A1 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN113837072A (zh) | 一种融合多维信息的说话人情绪感知方法 | |
Xia et al. | Audiovisual speech recognition: A review and forecast | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
JPH11250106A (ja) | 内容基盤の映像情報を利用した登録商標の自動検索方法 | |
CN117010907A (zh) | 一种基于语音和图像识别的多模态客户服务方法及系统 | |
WO2013035670A1 (ja) | 物体検索システムおよび物体検索方法 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN112233648A (zh) | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 | |
Córdova-Esparza et al. | Audio-visual database for spanish-based speech recognition systems | |
Hsieh et al. | Developing an Interview Recording System with Speaker Recognition and Emotion Classification | |
Desai et al. | Emotion Recognition in Speech Using Convolutional Neural Networks (CNNs) | |
Shen et al. | MaRU: A Manga Retrieval and Understanding System Connecting Vision and Language | |
Radzikowski | Audio style transfer in non-native speech recognition | |
CN118262744A (zh) | 歌曲评分模型训练方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |