TWI312945B - Method and apparatus for multimedia data management - Google Patents

Method and apparatus for multimedia data management Download PDF

Info

Publication number
TWI312945B
TWI312945B TW095120209A TW95120209A TWI312945B TW I312945 B TWI312945 B TW I312945B TW 095120209 A TW095120209 A TW 095120209A TW 95120209 A TW95120209 A TW 95120209A TW I312945 B TWI312945 B TW I312945B
Authority
TW
Taiwan
Prior art keywords
multimedia
data
search
image
image data
Prior art date
Application number
TW095120209A
Other languages
English (en)
Other versions
TW200745880A (en
Inventor
Chung-Hsien Wu
Yu-Sheng Lai
Chien-Lin Huang
Chia-Hua Kang
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW095120209A priority Critical patent/TWI312945B/zh
Priority to JP2006195626A priority patent/JP4699954B2/ja
Priority to US11/565,628 priority patent/US7739110B2/en
Publication of TW200745880A publication Critical patent/TW200745880A/zh
Application granted granted Critical
Publication of TWI312945B publication Critical patent/TWI312945B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Description

1312945 九、發明說明: 【發明所屬之技術領域】 本發明是有關於多媒體資料(multimedia data)之語音 註解(speech annotation)及檢索(retrieval),特別是關於一 , 種管理多媒體資料的方法與裝置,利用音節模擬影像 (syllable-transformed image)於多媒體資料之語音註解及 : 檢索。 籲 【先前技術】 隨著網際網路的爆炸性成長與數位影像擷取裝置如 數位攝影機(digital video camera)、數位相機(digital camera)與數位錄影機(digital video recorder)等的普及,使 用者獲得多媒體資料的方法越來越多,也越來越簡單。 使用者所擁有的多媒體資料的增加速度自然地越來越 快。相對地,管理多媒體資料也變得困難與耗時。 雖然時下已有一些管理多媒體資料的系統或方法^但 多數疋利用文子(text)或語言轉文字(langUage_t〇_text)的 方式來描述、索引(index)及搜尋(retrieval)多媒體資料。 時下的多媒趙資料的註解(annotation)或搜尋技術大致可 分為下列四種··以文字註解與搜尋、語音轉文字 (speech-to-text)的註解與搜尋、圖形分析搜尋、以及語音 註解(speech annotation)與搜查。 6 文字註解與搜尋方式較不用特殊需求。但會有輸入文 字較為冗長的賴,崎簡树可能受赚祕提供的 關鍵》司以文子„主解方式的文獻如美國專利⑽3,船,此 專利文獻魏-齡触影_轉置贿人已編瑪及結 構化資料的引擎㈣bedded metadata响⑽in獅 capture dev㈣。在數位影像梅取裝置裡加入分析影像内容 的功能,透狐影軸容的分析,自動纽出内容相關的 額外資訊域影像資料_併儲存。此專利文獻的揭露 雖能動態地域位影像產生註解,但並未揭露影像的搜尋。 "。曰轉文字的轉與搜尋的方式需要語音辨識器,也 造成語言相_關。以語音轉文字的轉與搜尋方式的 文獻如美國專利637,18卜此專散獻揭露-觀多媒體 資料註解及取得的方法和裝置(method and apparatus for voice annotation ^ retrieval 〇fmukimedia _。在註解時 使用》。a輸人的方式’制驗音_技術將語音内容轉 成文字,然翻敎字註解產生反向索引表(reverse index table)。在搜尋時使驗音輸人的枝,經語切識技術產 生搜哥關鍵詞,再透過反向索引表找出符合的多媒體資料。 另-篇美國專利6,499,〇16文獻揭露一種利用以語音 基礎指令語t❿自動轉和呈郷像(aut_ie吻_叩 and presenting digital images using a speech-based command lang零⑼綠。纽_使聽音敎?_式,在搜 1312945 哥時則利用文字來搜尋。使用者在拍照時可透過數位相機 及時以語音錄下註解資訊,透過多段指令(c〇mmand):欽述 (statement)的語音輸入’為影像附加如地點和時間等描述, 然後使用者將影像與註解資訊送到伺服器處理,由伺服器 - 來辨賴音資訊,將語音轉成文字贿。根據文字註解, : 使用者可以下達關鍵字動態產生不同的相簿以供瀏覽。 美國專利6,813,618文獻揭露一種在數位圖相薄裡尋 • 找相關圖形材料的系統與方法(system and methQd acquisition of related graphical nmterial in a digital gmphies album)。此專利透過對文字註解的搜尋來達到以圖找圖的 目的。使用者可以透過網路找到與指定影像相關的影像。 利用圖形分析來進行搜尋的方式,則系統需要具備圖 形分析的能力,使用者雖然不必對每張圖片附加註解,不 過只能針對圖形搜尋,並且必須先找到作為搜尋條件的圖 • 形,甚且也難以精確分析圖形的内容。以圖形分析方式的 文獻如 An active learning framework for content-based information retrieval' Multimedia,IEEE Transactions on Vol. . 4, Issue 2, June 2002, PP 260-268.此篇論文以内容為基礎 之為 δίΙ|«索(content-based information retrieval)來建立樹狀 屬性表(attribute tree),以提供影像的標記。 1312945 以聲音搜尋的方式«種,包括直接轉搜尋條件與 註解的原始聲音資料、或者將聲音訊號經過辨識,將辨識 結果以N g咖组合來建立檢索向量,再進行語言檢索 等。前者《料量多時,逐—_會耗_當多的時間; - 後棚會❹丨的相紐的限制。 : 軸已存在上述四種料職資料的崎或搜尋技 術’但這些技術仍有前述可能發生的問題,並且都與語 • 言相關(l3ngUagede㈣邮),使用者因此無法自由自在地 使用想要的語言或聲音。 因此’如何讓使用者可以簡化管理步驟,快速找到 想要的多媒體資料,以及聲音以語言無關(language independent)的方式索引和搜尋是本發明的主要動機。 【發明内容】 φ 本發明有效解決上述習知技術的缺憾。其主要目的是 •k:供一種管理多媒體資料的方法與裝置。 ‘ 本發明主要是根據由音節轉換而成的圖案 (syllable-transformed pattern)與特徵影像分析 (eigen-image analysis) ’來搜尋語音註解的圖像。對具有 語音註解的數位圖像(digital ph〇to with speech annotation),根據辨識出的音節後選者(rec〇gnized syiiaWe 1312945 candidate)轉換而成的模擬影像圖案(image_Hke卿㈣, 提供了新穎的㈣與搜尋技術。在此技術巾,提供了 — 個將聲音賴為代碼時依據的鋪,藉此達到與語言無 關的搜尋。 ' 本發明之管理多媒體資料的方法包括主要三個步 驟。首先被棘轉之聲音概透過—自動語音辨識器 (speech職㈣產生辨識結果,並轉換成一個模擬影 像的資料。紐,细-影像概處理方法來建立一索 引資料庫。在搜尋時,以自然σ述語音搜尋此多媒體資 料。 依此’本發明之管理纽體資料的裝置包括一個多媒 體資料索!丨製雜組和—個多舰資料檢㈣組。多媒 體資料索?丨製作模崎觀取註狀聲音魏轉換成一 模擬影像資概,触纽碰影像#料的特徵參數並 完成-索引資料庫的建立。多媒體龍檢索模組以自然 口述語音來搜尋此多媒體資料。 、將本發明實施在1055張具有語音雜的數位圖像, 並相較於傳碰使料f、林_____ 索引方法,結果顯示本發明達到較佳的檢索準確性,並 且檢索時間也較短。 1312945 茲配合下列圖示、實施例之詳細說明及申請專利範 圍’將上述及本發明之其他目的與優點詳述於後。 【實施方式】 以下描述本發明之管理多媒體資料的方法與裝置。 在描述中,本發明提供之管理多媒體資料的裝置以模組 (module)的來描述其主要元件。一個模組,特別是它的 功能性(functionality),可以用硬體(hardware)、或軟體 • (software)、或硬體與軟體兩種模組的組合來實現。 第-A圖與第-B圖說明本發明之管理多媒體資料 的裳置與運作流程。此管理多舰資料的裝置包括第一 A圖之為多舰資健作索引模組,以及第—b圖之搜 尋此多媒體資料模心參考第_ A圖,此多媒體資料索 引製作餘首先職_骑之㈣製⑼透過一 自動扣日辨識器1G3產生-辨識結果,例如音節矩陣 _疏赚ix)113。然後,轉換此辨識結果為一模擬影 像資料105,並__影像特徵處理方法來完成—索引 資料庫的建立。參考第—B圖,在搜尋時,此多媒體資 料檢索模组以自然口述語音鱗衫媒體資料。 _第二圖為多·資料如製作模_—個詳細方塊 以及一特徵操取與索引 。〜圖此多媒體貝料索引製作模組包括自動語音辨識 器103' -影像模擬模組2〇1、 1312945 建^^‘組205。自動語音辨識器⑽辨識被棟取註解之 特徵1〇1,產生一辨識結果。影像模擬模組201首 、十算出此辨識結果之她度分數,雜根據此相似度 分數,將此辨識結果轉換成一模擬影像資料。特徵棟取 "、’、建立模組205揭取此模擬影像資料的特徵參 數,然後將此特徵參數作量化並完成索引資料庫的建 立。此索引資料庫的建立解決了因為模擬影像資料量 大,逐一比對相當耗費時間的問題。 第三圖詳細說明第一 B圖之自然口述語音搜尋多媒 體貝料的步驟流程。參考第三圖,多媒體資料檢索模組 百先以聲音輸人搜尋條件,並轉換此搜尋條件成一索引 資料。然後比對此索引資料與索引資料庫裡的索引資 訊。依此,找iU符合此搜尋條件之相對朗多媒體資料 自動語音辨識的主要目的是希望自然口述語音能夠 透過電腦來觸,㈣使電職行相職駐作。當聲 音訊號藉由類比到數位的轉換裝置輸入,並以數值方式 儲存至電腦時’語音辨識n會將輸人制試聲音樣本與 事先建立好的語音辨載型,進行比對以找出_個被認 為最“像”該聲音樣本的辨識結果。如此,可以知道輸入 的自然口述語音代表何意。 在使用自動語音辨識之前,利用機率與統計的方 1312945 法’配合收集到的語音和文字語料,事先建立好辨識時 所需的辨識模型,包括語言模型和聲學模型。 第四圖綱自動語音韻的方法。當顺器收到聲 音訊斜,如標號所示,首先對此聲音訊號做參數 的擷取’例如常用的梅爾倒頻譜參數。然後,利用動二 搜尋方法,配合事先建立好的語言模型和聲學模型,進 行自動語音辨識階段,如標號403所示。最後得到辨識 結果。 基於此語音辨識結果,得以了解圖片的語音註解内 容。但就時下的語音辨識技術,仍存在語音辨識誤差 (speech recognition error)。此誤差的產生包括統計方法 上的偏差,以至於在辨識模型上發生混淆;以及一般人 發聲上存在著一些容易混淆的發音,例如:勹和女的發 音混淆、一和七的發音混淆。 因此,本發明使用以發音音節為基礎之語音辨識器 (syllable-based recognizer) ’有效地利用此語音辨識器定 義出的所有發音音節,來建立索引資料庫,並且利用語 s辨識器定義出的所有發音音節,建立一個混淆矩陣 (confusion matrix) ’將音節結果轉換成對應的音節發音 分數,用來量測各發音與其他發音的混淆。為避免誤 差,本發明取辨識前n名最佳結果作為候選,稱之為 13 1312945 η-最佳音節候選者(n_best syllable candidate),η為一自然 數。 將每一個音節看成類似於影像上的像素,呈現的結 果就如同是一張影像一般,在色彩上呈現深淺、相似度 鴿 : 遠近的關係。但是,因為音節間彼此的距離並不線性的 :* 關係’所以本發明利用多元尺度量測方法 (multidimensional scaling ’ MDS),如第五圖所示,先建 φ 立資料間兩兩之距離矩陣,再將辨識音節結杲根據多維 度空間描述距離,透過矩陣空間的座標轉換,呈線性的 距離關係,讓相似度(距離關係)以影像之色階深淺表示 (gray level) ’藉此轉換成模擬影像資料。 第六圖為一真實範例的示意圖,說明轉換後的模擬 影像之間視覺上的性質卜丨如心哪卿卜在第六圖裡, s吾音註解檔file)裡,音節弘呢之已辨 * 識n_最佳音節候選者的模擬影像比音節ge之已辨識n- 最佳音節輯者的模《彡像更她於查詢音節(query _able)geng之已辨識〜最佳音節候選者的模擬影像。 ' 從第'、圖’雖然對於音節geng在語音註解樓會發生語 β觸錯誤,細本發明糊音節無賴擬影像作搜 哥的技術仍然可以在查詢與語音註解稽之間,正確地四 配到查詢音節。換言之’ _本發明之搜尋技術,語音 註解擋裡的音節geng可以正確地匹配到查詢音節 14 1312945 geng
以下第七圖中,以-範例說明本發明從辨識 第七A圖之發音音節)來建立索引的程序。如第UP
:二首先:選出:姻節候選者轉換成-模擬影 像貧科H個音節候選者為—張影像將影像作切 割’如第七C圖所示。對切割後的影像資料再作影像特 徵值分析(Eigen_Image),所得_罐擬職特徵 :個多維度向量雜,如第七D騎心最後將相似的 影像特徵值的音節模擬影像聚成(cluster)同-串碼a (code職I)序列’如第七_所示。所有碼字序列則= 立成碼本(codebook)。 曰*主解及以聲音輸人的搜尋條件,經上述步驟皆 可轉成-串碼字序列。本發明利用資訊檢索方法統計1
frequency and inverse docUment frequency ’何),建立向量式索引,此一向量維度 的索引就代表每舰_容的:#訊。#使用者以聲音輸 入搜尋條件’朗樣程序被轉換成—個向量維度 (dimension)的資料,檢索時將此查詢語音向量與資料庫 内素引的向1: ’兩兩作向量内積比朗運算,回覆給使 用者符合搜尋條件的多媒體資料。 影像特徵值分析軸料f料作主成分分析 15 1312945 (principle component analysis,PCA) ’ 優點為擷取音節 轉換後之模擬影像資料的具代表性特徵(extract significant feature) ’以及降低雜訊資料干擾。主成分分 析有多種實現方式。不失-般性’以下之範例說明的影 像資料作主成分分析的兩個主要步驟為共變異矩陣估 : 計(covariance matrix estimation)和奇異值分解分析 : (singular value decomposition,SVD)。 φ 奇異值分解分析的主要目的是將影像向量的所有維 度投射(project)到單一且更具鑑別性資訊空間(single latent information space),同時顯著降低資料維度 (significantly reduced dimensionality)= 如第八圖所示,共變異矩陣估計的運算包括正規化 影像(image normalization)、取影像平均值(taking image mean)、取得減去影像平均值(obtaining differemial _ image)、建立依影像取維度的矩陣(dimensi〇n_by_image matrix construction)妒和建立共變異矩陣(c〇variance matrix construction)。奇異值分解分析的運算包括求取妒 • 之自相關矩陣(autocorrelation matrix computation)、降低 維度和資料雜訊(reducing dimensionality and data noise)、建立特徵影像的轉換基底(transform basis construction of eigen-image)U、以基底 U 轉換新影像 (eigen-image transformation)。 16 1312945 ϋ結果齡,本發明在儲存上雜少的資料維 又、較快的檢索速度。檢索率約有16為的提升。 综上所述,本發明提供_種管理多媒體資料的方法 和裝置’包括對多媒體資料附加語音註解以及利用音節 模擬影像之纽方式製作封與檢索多舰資料。將梅 取語音資料的聲音雜根縣音辨_觸出的音節 矩陣。且利用音節相似度計算方法,估計出音節發音分 數’將辨·果之音節輯參考音節發音分數轉換為模 擬影像:越。最後個影像纽方法來建立索引, 經由比對註解與搜尋語音之索引,可以有較好的準破率 找出想要的多媒體資料。 基於多媒體資料之語音註解,建立索引時,首先梅 取註解之聲音倾,經由自動語音觸器產生η名音節 辨識後選者。紐·音節難影像資料轉換,將此η 名音節辨識後選者轉換成模擬影像像素之資料。再透過 影像特徵值分析,擷取影像内具代表性的特徵並且去除 雜Λ干擾。接著利用群集分析將音節之影像特徵值聚 類,建立碼字(codeword)及碼本(c〇deb〇〇k) β最後,每句 輪入語音訊號都可經過上述流程轉換成一連串的編 碼,利用資訊檢索上常用的i/xW/統計方式建立索引。 17 1312945 檢索時,輸人的語音查詢_樣的處職程來建立 向量索引,再與資料庫内所建立物丨資訊做相似度比 對找出符。搜等條件的語音註解及其對應之多媒體資 料内容。 ^ 准以上所述者,僅為本發明之實施例而已,當不能 依此限疋本發明實施之範圍。即大凡本發明申請專利範圍 % 所作之均等變化與修飾,皆應仍屬本發明專利涵蓋之範圍 内。
18 1312945 【圖式簡單說明】 第- A圖與第-B圖說明本發明之管理多媒體資料的方 法的步驟流程。 第二圖為多媒體資料索引製作模組的—個詳細方塊示 圖。 意 第三圖詳細說明第—B圖之自細述語音搜 料的步驟流程。 第四圖說明自動語音辨識的方法。 第五圖是tf音辨識H定義出之發音音__個範例。 第六圖說明本發明利用多元 弋度里測方法,將音節資料 間兩兩之距離矩陣為非線性關係 度福述。 尋多媒體資 ’投影到線性可分的維 第七圖以一範例說明本發明從辨識結 程序。 ° 果來建立索引的 第八_-步制共„矩_計和奇異值分解分析 的運算 【主要元件符號說明】 101聲音特徵 '~~—-~~~__ I05 模%料 模組 103自動語音辨識器 ---------- ⑴音節矩陣 4〇1參掘申 碼) 19

Claims (1)

1312945 十、申請專利範圍: j嘴年> 私丨日修次i正替换買| ^―-·^·*· -··_ ”广’ 一一一…-—^.,^.4 1. 一種管理多媒體資料的方法,該方法包含下列步驟: 將被擷取註解之聲音特徵透過一自動語音辨識器產生 一辨識結果; • 轉換該辨識結果為一模擬影像資料,並利用一影像特 徵處理方法來建立一索引資料庫;以及 ' 在搜尋時,以自然口述語音搜尋該多媒體資料。 2.如申請專利範圍第1項所述之管理多媒體資料的方 9 法’其中該模擬影像資料的轉換包括下列步驟: 計算出該辨識結果之相似度分數;以及 根據此相似度分數,將該辨識結果轉換成該模擬影像 資料。 3.如申請專利範圍第丨項所述之管理多媒體資料的方 法’其中該索引資料庫的建立包括下列步驟: 梅取該模擬影像資料的特徵參數;以及 量化該特徵參數及完成該索引資料庫的建立。
4,如申請專利範圍第1項所述之管理多媒體資料的方 法’其中該自然口述語音搜尋該多媒體資料包括下列 步驟: 以聲音輸入搜尋條件,並轉換該搜尋條件成一索引 資料; 然後比對該索引資料與該索引資料庫裡的索引資訊; 以及 找出符合該搜尋條件之相對應的該多媒體資料。 20 丄312945 5 : .如申請專利範圍第3項所述之管理多媒體資料的方 去’其中該擷取該模擬影像資料的特徵參數更包括: 從該辨識結果選出n名最佳音節候選者轉換成該模 擬影像資料,並以—名音節候選者為-張影像將該模 擬衫像資料作切割,η為自然數;以及 對切割後的影像資料再作影像特徵值分析。 6.如申請專利範圍第5項所述之管理多媒體資料的方
/、中。亥里化§亥特徵參數及完成該索引資料庫的建 立更包括: ' 量化該影像特徵值分析所得的音節模擬影像特徵值 為一個多維度向量資料;以及 將相似的該影像特徵值資料聚成同-串碼字序列, 所有碼字相财域—碼本。 之語音辨識器 t申請專利朗第1項所述之管理多媒體資料的方 其中該自動語音觸料-種讀音音節為基礎
項所述之管理多媒體資料的方 處理方法鱗該顺影像資料作 8.如申請專利範圍第 法’其中該影像特徵 主成分分析。 ㈣貧科的裝置,«置包含· 一多媒體觸作料模組,將被解 徵透過—自絲音_器產生—觸結果解^ 該辨識結果為-模擬影料料, 像 理方法來完成赴—料資料庫;以及像杨 21 1312945 搜尋此多媒體資料模組以自然口述語音搜尋該多 媒體資料。 ίο.如申s月專利範圍第9項所述之管理多媒體資料的裝 置/、中該夕媒體資料索引製作模組更包括: • U自動°° s辨識器,辨識該被揭取註解之聲音特 二 徵,產生該辨識結果; : 讀類細,計算i該職絲之-相似度分 數’然後雜軸似度錄’將該纖結果轉換成一 • 权擬影像資料;以及 -特徵與钟建域&,触雜郷像資料的 特徵參數’然後將該特徵參數作量化並完成該索引資 料庫的建立。 11.如申請專概圍第9項所述之管理多媒體資料的裝 置,其中該索引資料庫内每一索引係由一争碼字序列 建立而成。 12·如申請專利範圍第9項所述之管理多媒體資料的裝 # 1,其令該自動語音韻器為-種以發音音節為基礎 之語音辨識器。 13·如申請專利範圍第12項所述之管理多媒體資料的裝 22 1 置,其中該模擬影像資料係經由該辨識結果選出n名 , 最佳之該發音音節轉換成,η為自然數。
TW095120209A 2006-06-07 2006-06-07 Method and apparatus for multimedia data management TWI312945B (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW095120209A TWI312945B (en) 2006-06-07 2006-06-07 Method and apparatus for multimedia data management
JP2006195626A JP4699954B2 (ja) 2006-06-07 2006-07-18 マルチメディアデータ管理方法とその装置
US11/565,628 US7739110B2 (en) 2006-06-07 2006-12-01 Multimedia data management by speech recognizer annotation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095120209A TWI312945B (en) 2006-06-07 2006-06-07 Method and apparatus for multimedia data management

Publications (2)

Publication Number Publication Date
TW200745880A TW200745880A (en) 2007-12-16
TWI312945B true TWI312945B (en) 2009-08-01

Family

ID=38895783

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095120209A TWI312945B (en) 2006-06-07 2006-06-07 Method and apparatus for multimedia data management

Country Status (3)

Country Link
US (1) US7739110B2 (zh)
JP (1) JP4699954B2 (zh)
TW (1) TWI312945B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI514868B (zh) * 2010-12-14 2015-12-21 Axis Ab 改良視訊影像流中影像之影像品質的方法及數位視訊攝影機

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688674B2 (en) 2008-02-14 2014-04-01 Beats Music, Llc Fast search in a music sharing environment
US20090265165A1 (en) * 2008-04-21 2009-10-22 Sony Ericsson Mobile Communications Ab Automatic meta-data tagging pictures and video records
US8086611B2 (en) * 2008-11-18 2011-12-27 At&T Intellectual Property I, L.P. Parametric analysis of media metadata
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9489577B2 (en) * 2009-07-27 2016-11-08 Cxense Asa Visual similarity for video content
US20110257972A1 (en) * 2010-04-15 2011-10-20 Markus Agevik System and method for location tracking using audio input
US20110307255A1 (en) * 2010-06-10 2011-12-15 Logoscope LLC System and Method for Conversion of Speech to Displayed Media Data
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
CN110347866B (zh) * 2019-07-05 2023-06-23 联想(北京)有限公司 信息处理方法、装置、存储介质及电子设备

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS59121098A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5532936A (en) * 1992-10-21 1996-07-02 Perry; John W. Transform method and spectrograph for displaying characteristics of speech
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
WO1999046734A1 (en) * 1998-03-11 1999-09-16 Entropic, Inc. Face synthesis system and methodology
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6833865B1 (en) 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6185527B1 (en) 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6397181B1 (en) 1999-01-27 2002-05-28 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6499016B1 (en) 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US7054850B2 (en) * 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
US6813618B1 (en) 2000-08-18 2004-11-02 Alexander C. Loui System and method for acquisition of related graphical material in a digital graphics album
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
WO2002090915A1 (en) * 2001-05-10 2002-11-14 Koninklijke Philips Electronics N.V. Background learning of speaker voices
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7366656B2 (en) * 2003-02-20 2008-04-29 Ramot At Tel Aviv University Ltd. Method apparatus and system for processing acoustic signals
US7599554B2 (en) * 2003-04-14 2009-10-06 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
US7409407B2 (en) * 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI514868B (zh) * 2010-12-14 2015-12-21 Axis Ab 改良視訊影像流中影像之影像品質的方法及數位視訊攝影機

Also Published As

Publication number Publication date
US20070288237A1 (en) 2007-12-13
JP2007328311A (ja) 2007-12-20
US7739110B2 (en) 2010-06-15
TW200745880A (en) 2007-12-16
JP4699954B2 (ja) 2011-06-15

Similar Documents

Publication Publication Date Title
TWI312945B (en) Method and apparatus for multimedia data management
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN112000818B (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
WO2020043123A1 (zh) 命名实体识别方法、命名实体识别装置、设备及介质
CN109509470A (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
CN113836277A (zh) 用于数字助理的机器学习系统
KR102029276B1 (ko) 환경 콘텍스트를 이용한 질문 답변
CN109686383A (zh) 一种语音分析方法、装置及存储介质
CN109920409B (zh) 一种声音检索方法、装置、系统及存储介质
US20200342909A1 (en) Methods and systems of automatically generating video content from scripts/text
CN113837072A (zh) 一种融合多维信息的说话人情绪感知方法
Xia et al. Audiovisual speech recognition: A review and forecast
CN114281948A (zh) 一种纪要确定方法及其相关设备
JPH11250106A (ja) 内容基盤の映像情報を利用した登録商標の自動検索方法
CN117010907A (zh) 一种基于语音和图像识别的多模态客户服务方法及系统
WO2013035670A1 (ja) 物体検索システムおよび物体検索方法
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN112233648A (zh) 结合rpa及ai的数据的处理方法、装置、设备及存储介质
Córdova-Esparza et al. Audio-visual database for spanish-based speech recognition systems
Hsieh et al. Developing an Interview Recording System with Speaker Recognition and Emotion Classification
Desai et al. Emotion Recognition in Speech Using Convolutional Neural Networks (CNNs)
Shen et al. MaRU: A Manga Retrieval and Understanding System Connecting Vision and Language
Radzikowski Audio style transfer in non-native speech recognition
CN118262744A (zh) 歌曲评分模型训练方法、计算机设备和存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees