TWI807428B - 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質 - Google Patents

一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質 Download PDF

Info

Publication number
TWI807428B
TWI807428B TW110135178A TW110135178A TWI807428B TW I807428 B TWI807428 B TW I807428B TW 110135178 A TW110135178 A TW 110135178A TW 110135178 A TW110135178 A TW 110135178A TW I807428 B TWI807428 B TW I807428B
Authority
TW
Taiwan
Prior art keywords
voice
memo
mentioned
voice record
recording
Prior art date
Application number
TW110135178A
Other languages
English (en)
Other versions
TW202230199A (zh
Inventor
辛知恩
黃吉煥
丁藝琳
林大鉉
李壽美
吳香男
張丁勳
鄭楠圭
金建旻
金德洙
金泫振
孫大槿
宋連修
李東烈
李鎭明
全柔珍
崔鍾旻
Original Assignee
南韓商納寶股份有限公司
日商連股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200122847A external-priority patent/KR102427213B1/ko
Priority claimed from KR1020200127519A external-priority patent/KR102503586B1/ko
Priority claimed from KR1020200133224A external-priority patent/KR102437752B1/ko
Priority claimed from KR1020200137324A external-priority patent/KR102446300B1/ko
Application filed by 南韓商納寶股份有限公司, 日商連股份有限公司 filed Critical 南韓商納寶股份有限公司
Publication of TW202230199A publication Critical patent/TW202230199A/zh
Application granted granted Critical
Publication of TWI807428B publication Critical patent/TWI807428B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

本發明公開一同管理對於語音檔的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質。語音記錄管理方法包括如下的步驟:將語音轉換成文本來生成語音記錄;對在上述語音的錄音或再生過程中寫入的備忘錄與上述語音記錄進行匹配並管理;以及將上述語音記錄與上述備忘錄相關聯來提供。

Description

一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
以下的說明涉及管理將語音轉換成文本的語音記錄的技術。
通常,在移動語音轉換技術中,在移動設備中對語音進行錄音,當對語音的錄音結束時,將錄音區間的語音轉換成文本並將其顯示在顯示器上。
作為上述語音轉換技術的一例,在韓國公開專利公報第10-2014-0062217號(公開日期2014年05月23日)中公開了執行語音錄音及文本轉換的技術。
發明所欲解決之問題
本發明提供可對將錄音的語音轉換成文本的記錄與和錄音的語音有關的備忘錄進行匹配並管理的方法和系統。
本發明提供可通過雙屏顯示(dual view)方式一同呈現語音記錄和備忘錄的方法和系統。
本發明提供可通過說話者或關鍵字等多種過濾基準對語音記錄和備忘錄進行分組來提供的方法和系統。
本發明提供可通過與提供基於語音的介面的人工智慧設備聯動來自動管理語音記錄的系統和方法。
本發明提供在對對話語音進行錄音的過程中,可利用用戶輸入的與對應對話的脈絡有關的多個單詞來提高語音識別率的方法和系統。
本發明提供當在將語音轉換成文本的語音記錄中搜索單詞時可通過包含發音類似的單詞來進行搜索的方法和系統。
解決問題之技術手段
本發明提供語音記錄管理方法,上述語音記錄管理方法在電腦裝置中執行,上述電腦裝置包括執行記憶體中所包含的電腦可讀指令的至少一個處理器,上述語音記錄管理方法包括:生成步驟,通過至少一個上述處理器,將語音轉換成文本來生成語音記錄;管理步驟,通過至少一個上述處理器,對在上述語音的錄音或再生過程中寫入的備忘錄與上述語音記錄進行匹配並管理;以及提供步驟,通過至少一個上述處理器,將上述語音記錄與上述備忘錄相關聯來提供。
根據一實施方式,上述提供步驟可包括如下的步驟,即,通過雙屏顯示方式一同顯示上述語音記錄和上述備忘錄。
根據再一實施方式,上述提供步驟可包括如下的步驟,即,以時間戳為基準,按時間匹配上述語音記錄與上述備忘錄來顯示。
根據另一實施方式,上述提供步驟可包括如下的步驟:在上述語音記錄的情況下,顯示時間戳,上述時間戳表示說話者發聲區間的每個文本的對應區間的起點;以及在上述備忘錄的情況下,顯示時間戳,上述時間戳表示各個備忘錄的備忘錄寫入時間點的語音錄音時間或語音再生時間。
根據還有一實施方式,上述提供步驟可包括如下的步驟:根據是否存在針對上述語音記錄中所包含的說話者發聲區間的文本的對應區間寫入的備忘錄來顯示備忘錄標籤;以及在選擇上述備忘錄標籤的情況下,顯示在對應文本的發聲區間寫入的備忘錄全文。
根據又一實施方式,上述生成步驟可包括如下的步驟,即,接收在客戶端中錄音的語音檔或從上述客戶端上傳的語音檔來將與說話者發聲區間對應的語音數據轉換成文本。
根據又一實施方式,在上述管理步驟中,能夠以上述語音記錄的時間戳為基準,對在上述語音的錄音或再生過程中寫入的備忘錄進行匹配並管理。
根據又一實施方式,在上述管理步驟中,可對在上述語音的說話者發聲區間寫入的備忘錄與上述說話者發聲區間的語音記錄進行匹配並管理。
根據又一實施方式,上述生成步驟可包括:使提供基於語音的介面的人工智慧設備與用戶帳戶聯動的聯動步驟;以及將從上述人工智慧設備接收的語音轉換成文本來生成語音記錄的步驟。
根據又一實施方式,上述聯動步驟可包括如下的步驟:根據上述人工智慧設備的請求發行聯動密鑰;以及隨著通過上述用戶帳戶輸入上述聯動密鑰,使上述用戶帳戶與上述人工智慧設備聯動。
根據又一實施方式,上述提供步驟可包括如下的步驟,即,與通過上述用戶帳戶指定的至少一個其他用戶共用上述語音記錄。
根據又一實施方式,上述生成步驟可包括如下的執行步驟,即,執行向用戶輸入的與上述語音有關的自定義關鍵字應用加權值的語音識別。
根據又一實施方式,在上述執行步驟中,可對上述自定義關鍵字應用提升(boosting)來執行上述語音識別。
根據又一實施方式,上述執行步驟可包括如下的步驟,即,從上述備忘錄中提取上述自定義關鍵字。
根據又一實施方式,上述執行步驟可包括如下的步驟,即,從上述用戶作為與上述語音記錄有關的資訊輸入的單詞或登錄為上述用戶頻繁使用的單詞的關鍵字中的至少一個提取上述自定義關鍵字。
根據又一實施方式,上述語音記錄管理方法還可包括搜索步驟,即,通過至少一個上述處理器,在上述語音記錄中搜索與搜索詞對應的單詞,在上述搜索步驟中,在上述語音記錄中包含作為發音與上述搜索詞類似的單詞的類似單詞來進行搜索。
根據又一實施方式,在上述搜索步驟中,可通過以分詞單位為基礎的單詞之間的比較,將與上述搜索詞之間的類似度達到規定比例以上的單詞作為上述類似單詞來搜索。
根據又一實施方式,上述語音記錄管理方法還可包括如下的步驟,即,通過至少一個上述處理器,將對於上述語音記錄的搜索結果中所包含的至少一個單詞修改成其他單詞。
本發明提供電腦可讀記錄介質,上述電腦可讀記錄介質記錄有用於在電腦中執行語音記錄管理方法的程式。
本發明提供電腦裝置,上述電腦裝置包括執行記憶體中所包含的電腦可讀指令的至少一個處理器,至少一個上述處理器包括:語音記錄生成部,將語音轉換成文本來生成語音記錄;備忘錄匹配管理部,對在上述語音的錄音或再生過程中寫入的備忘錄與上述語音記錄進行匹配並管理;以及語音記錄提供部,將上述語音記錄與上述備忘錄相關聯來提供。
對照先前技術之功效
根據本發明的實施例,可對將錄音的語音轉換成文本的記錄與和錄音的語音有關的備忘錄進行匹配並管理並通過雙屏顯示方式呈現,由此可以便利地搜索語音記錄和備忘錄。
根據本發明的實施例,可提供將語音記錄和備忘錄按說哈者或關鍵字分組的過濾功能,由此,可提高用戶利用服務的便利性。
根據本發明的實施例,將可用作共用設備的人工智慧設備與語音記錄管理服務聯動並通過語音識別技術來將現場語音自動記錄成文本,由此可以擴大服務的利用並提高用戶便利。
根據本發明的實施例,在對對話語音進行錄音的過程中,對用戶所輸入的與對應對話的脈絡有關的單詞應用提升(boosting),由此,在將錄音的語音轉換成文本的過程中可以更加準確地識別對應單詞。
根據本發明的實施例,當在將語音轉換成文本的語音記錄中搜索單詞時,可以包含發音類似的單詞來進行搜索,從而可以提高在語音記錄中的單詞搜索性能。
以下,參照附圖,詳細說明本發明的實施例。
本發明實施例的語音記錄管理系統可通過至少一個電腦裝置體現,本發明實施例的語音記錄管理方法可通過語音記錄管理系統中的至少一個電腦裝置執行。在此情況下,在電腦裝置中設置及驅動本發明一實施例的電腦程式,電腦裝置可根據所驅動的電腦程式的控制執行本發明實施例的語音記錄管理方法。上述電腦程式為了與電腦裝置結合來在電腦中執行語音記錄管理方法而可存儲於電腦可讀記錄介質。
圖1為示出本發明一實施例的網路環境的示意圖。圖1的網路環境示出包括電子設備110、120、130、140、多個伺服器150、160及網路170的示例。上述圖1為用於說明本發明的一例,電子設備的數量或伺服器的數量並不局限於圖1。並且,圖1的網路環境僅為可適用於本實施例的多個環境中的一個例,可適用於本實施例的環境並不局限於圖1的網路環境。
多個電子設備110、120、130、140可以為通過電腦系統體現的固定型終端或移動終端。例如,多個電子設備110、120、130、140包括智能手機(smart phone)、手機、導航儀、電腦、筆記本電腦、數字廣播終端、個人數據助理(PDA,Personal Digital Assistants)、可攜式多媒體播放器(PMP,Portable MultimediAPlayer)、平板電腦等。作為一例,圖1中示出智能手機的形狀作為電子設備110的示例,但是在本發明的實施例中,電子設備110實質上可以為利用無線或有線通信方式,通過網路170與其他電子設備120、130、140和/或伺服器150、160進行通信的各種物理電腦系統中的一個。
通信方式並不受限,可包括使用網路170可包括的通信網(例如,移動通信網、有線網路、無線網路、廣播網絡)的通信方式和多個設備之間的無線通信。例如,網路170可包括個人區域網(PAN,personal areAnetwork)、本地網路(LAN,local areAnetwork)、校園網(CAN,campus areAnetwork)、城域網(MAN,metropolitan areAnetwork)、廣域網(WAN,wide areAnetwork)、寬頻網(BBN,broadband network)、互聯網等網路中的任意一種以上網路。並且,網路170可包括具有匯流排網路、星型網路、環型網路、網狀網路、星型匯流排網路、樹形網路、分級(hierarchical)網路等的網路拓撲中的任意一種以上,但並不局限於此。
伺服器150、160可以為通過網路170與多個電子設備110、120、130、140進行通信來提供指令、代碼、檔、內容、服務等的電腦裝置或多個電腦裝置。例如,伺服器150可以為向通過網路170訪問的多個電子設備110、120、130、140提供服務(作為一例,語音記錄管理服務(或會議記錄管理服務)、內容提供服務、群呼服務(或語音會議服務)、短信服務、郵件服務、社交網路服務、地圖服務、翻譯服務、金融服務、支付服務、搜索服務)的系統。
圖2為示出本發明一實施例的電腦裝置的示意圖。以上說明的多個設備110、120、130、140或多個伺服器150、160可通過圖2所示的電腦裝置200體現。
如圖2所示,電腦裝置200可包括記憶體210、處理器220、通信介面230及輸入輸出介面240。記憶體210作為電腦可讀記錄介質,可包括如隨機存取記憶體(RAM,random access memory)、只讀記憶體(ROM,read only memory)、硬碟驅動器的非易失性大容量存儲裝置(permanent mass storage device)。其中,如只讀記憶體、固態硬碟的非易失性大容量存儲裝置為與記憶體210區分的單獨的永久存儲裝置,可形成在電腦裝置200。並且,記憶體210可存儲操作系統和至少一個程式代碼。上述軟體結構要素可從與記憶體210單獨的電腦可讀記錄介質加載到記憶體210。上述單獨的電腦可讀記錄介質可包括軟碟驅動器、磁片、磁帶、DVD/CD-ROM驅動器、存儲卡等電腦可讀記錄介質。在另一實施例中,軟體結構要素不是通過電腦可讀記錄介質,而是通過通信介面230加載到記憶體210。例如,軟體結構要素可給予通過網路170接收的檔設置的電腦程式來加載到電腦裝置200的記憶體210。
處理器220可執行基本的計算、邏輯及輸入輸出計算,由此可以處理電腦程式的指令。指令可通過記憶體210或通信介面230向處理器220提供。例如,處理器220可根據存儲於如記憶體210的存儲裝置的程式代碼來執行所接收的指令。
通信介面230可提供通過網路170來使電腦裝置200與其他裝置(作為一實施例,上述說明的存儲裝置)相互進行通信的功能。作為一實施例,電腦裝置200的處理器220可根據通信介面230的控制,通過網路170向其他裝置傳遞根據存儲於如記憶體210的存儲裝置的程式代碼生成的請求、指令、數據、檔等。相反,來自其他裝置的信號、指令、數據、檔等可經過網路170並通過電腦裝置200的通信介面230向電腦裝置200傳遞。通過通信介面230接收的信號、指令、數據等可以向處理器220或記憶體210傳遞,檔等可以存儲在電腦裝置200還可包括的存儲介質(上述永久存儲裝置)。
輸入輸出介面240可以為用於與輸入輸出裝置250的介面的單元。例如,輸入裝置可包括麥克風、鍵盤或滑鼠等裝置,而且,輸出裝置可包括如顯示器、揚聲器的裝置。作為另一實施例,輸入輸出介面240也可以為用於與如觸摸屏的用於輸入和輸出的功能集成為一體的裝置的介面的單元。輸入輸出裝置250也可以與電腦裝置200配置為一個裝置。
並且,在另一實施例中,電腦裝置200可包括比圖2的結構要素更少或更多的結構要素。但是,無需明確示出大部分現有技術的結構要素。例如,電腦裝置200可包括上述輸入輸出裝置250中的至少一部分或還可包括如收發器(transceiver)、資料庫等的其他結構要素。
以下,說明一同提供對於語音檔的記錄和備忘錄的方法及系統的具體實施例。
最近,隨著在移動設備中提供語音錄音功能和備忘錄功能,很多人在進行會議或多種聚會的情況下進行錄音,在此情況下,除錄音之外,對重要的內容或附加的內容等進行單獨記錄。
以往,語音錄音功能和備忘錄功能以個別功能提供,因此,很難一同確認語音錄音檔和備忘錄,從而普遍存在通過備忘錄來推測內容的情況。換句話說,由於分別單獨確認語音和備忘錄,因此,存在難以在掌握錄音內容的整體流程的同時確認備忘錄的限制。
為了解決這種問題,在本實施例中,提供對將錄音的語音轉換成文本的結果(以下,稱之為“語音記錄”)與和錄音的語音有關的備忘錄進行匹配並管理的語音記錄管理服務。
本實施例可通過將包括語音錄音及文本轉換的語音記錄功能與備忘錄功能合併成一個功能來提供,從而匹配語音記錄與備忘錄並管理。
圖3為示出本發明一實施例的電腦裝置的處理器可包括的結構要素的示意圖,圖4為示出本發明一實施例的電腦裝置可執行的方法的流程圖。
本實施例的電腦裝置200可通過設置於客戶端上的專用應用或訪問與電腦裝置200有關的網頁/移動網站來向客戶端提供語音記錄管理服務。在電腦裝置200可形成通過電腦體現的語音記錄管理系統。
如圖3所示,電腦裝置200的處理器220作為用於執行圖4的語音記錄管理方法的結構要素,可包括語音記錄生成部310、備忘錄匹配管理部320及語音記錄提供部330。根據實施例,處理器220的結構要素可以選擇性地包括在處理器220或從其排除。並且,根據實施例,處理器220的結構要素也可以為了處理器220的功能的表現而分離或合併。
這種處理器220及處理器220的結構要素以執行圖3的語音記錄管理方法所包括的步驟(步驟S410至步驟S430)的方式控制電腦裝置200。例如,處理器220及處理器220的結構要素可以執行記憶體210所包含的操作系統的代碼和基於至少一個程式代碼的指令(instruction)。
其中,處理器220的結構要素可以為根據存儲於電腦裝置200的程式代碼所提供的指令,通過處理器220執行的不同功能(different functions)的表現。例如,電腦裝置200以生成語音記錄的方式根據上述指令控制電腦裝置200的處理器220的功能性表現,可以利用語音記錄生成部310。
處理器220可以從加載有與電腦裝置200的控制有關的指令的記憶體210讀取需要的指令。在此情況下,所讀取的上述指令可以包含以使處理器220執行之後說明的多個步驟(步驟S410至步驟S430)的方式用於進行控制的指令。
之後說明的多個步驟(步驟S410至步驟S430)可以按與圖4所示的順序不同的順序執行,多個步驟(步驟S410至步驟S430)中的一部分可以省略或還可包括追加過程。
參照圖4,在步驟S410中,語音記錄生成部310可以將從客戶端接收的語音轉換成文本來生成語音記錄。在客戶端側設備中執行錄音功能並傳遞錄音的語音檔,或者可以傳遞存儲於設備上的語音檔。語音記錄生成部310可以利用已公知的語音識別技術來生成語音記錄,上述語音記錄為將與基於說話者的發聲區間對應的語音數據轉換成文本的結果。在此情況下,語音記錄生成部310可以使用在生成語音記錄的過程中分割各個說話者的發聲區間的說話者分割技術。在會議、採訪、交易、判決等多名說話者沒有規定順序地發聲的狀況下進行錄音的語音檔的情況下,語音記錄生成部310可分割每個說話者的發聲內容並自動記錄。
在步驟S420中,備忘錄匹配管理部320可從客戶端接收在客戶端中語音錄音的過程中或語音再生過程中寫入的備忘錄並匹配上述寫入的備忘錄與在步驟S410中生成的語音記錄並管理。備忘錄匹配管理部320能夠以在客戶端中進行錄音的時間為基準來對語音記錄與進行錄音的過程中寫入的備忘錄進行匹配。語音記錄可以包含表示說話者發聲區間的起點的時間戳,備忘錄匹配管理部320可一同管理以語音記錄的時間戳為基準來在對應區間寫入的備忘錄。與此相同,備忘錄匹配管理部320可針對存在語音記錄的語音檔,以在客戶端中再生語音的時間為基準,匹配語音記錄與在語音再生中寫入的記憶體並記錄。換句話說,備忘錄匹配管理部320可以匹配在特定時間點的發聲區間寫入的備忘錄與對應時間點的語音記錄並管理。
在步驟S430中,語音記錄提供部330在從客戶端接收與語音記錄有關的選擇指令的情況下,可以將對應語音記錄與和語音記錄匹配的記憶體關聯來提供。語音記錄提供部330可以將在語音錄音中或語音再生中寫入的備忘錄與語音記錄一同輕鬆且便利地確認的方式通過雙屏顯示方式一同顯示語音記錄和備忘錄。雙屏顯示方式為將語音記錄與備忘錄以兩列並排顯示的方式,上述雙屏顯示方式提供通過並排顯示將語音轉換成文本的語音記錄與在對應語音的錄音或再生時間內寫入的備忘錄來輕鬆探索對話記錄的介面。語音記錄提供部330除將語音記錄與備忘錄通過雙拼顯示的方式之外,也可通過根據客戶端的選擇來單獨顯示語音記錄和備忘錄中的一個的方式。
圖5至圖15示出本發明一實施例的用於管理語音記錄的用戶介面畫面的示意圖。
圖5至圖15作為設置於客戶端上的專用應用或與電腦裝置200有關的網頁/移動網站上的介面畫面,示出語音記錄管理畫面500的實施例。
首先,圖5至圖9示出用於說明生成語音記錄的過程的語音記錄管理畫面500的實施例。
參照圖5,語音記錄管理畫面500作為語音記錄管理服務的主畫面結構,可包括用於提供服務的主要菜單目錄,作為一實施例,可包括用於將語音記錄以檔夾為單位進行管理的檔夾目錄501。而且,語音記錄管理畫面500可包括用於生成新的語音記錄的“創建新筆記”菜單502。
在語音記錄管理畫面500中選擇“創建新筆記”菜單502的情況下,如圖6所示,處理器220提供語音記錄生成畫面610。語音記錄生成畫面610可包括用於輸入語音記錄的目錄的“題目”輸入欄611、用於輸入參與者資訊的“參與者”輸入欄612、用於語音錄音的“開始錄音”菜單613、用於上傳語音檔的“檔上傳”菜單614等。換句話說,處理器220為了生成語音記錄而可以提供錄音功能和文件上傳功能。
在語音記錄生成畫面610中選擇“開始錄音”菜單613的情況下,如圖7所示,處理器220提供語音錄音畫面720。語音錄音畫面720作為基本的錄音介面,可包括進行錄音的時間資訊、用於暫時停止錄音的暫時停止按鈕、用於結束錄音的結束按鈕等。
尤其,語音錄音畫面720可包括能夠在錄音過程中寫入備忘錄的備忘錄介面721及能夠在錄音過程中記錄書籤的書籤介面722。在此情況下,備忘錄介面721可包括基於文本的輸入功能、照片或視頻拍攝功能及檔添加功能等。用戶可通過備忘錄介面721來將在錄音過程中與對應語音有關的重要的內容或添加的內容等寫入到備忘錄,除備忘錄之外,可通過書籤介面722在重要區間的錄音時間點留有書籤。以錄音進行實踐為基準,可記錄在錄音過程中輸入的備忘錄或書籤,例如,開始寫入備忘錄的時間點的錄音進行時間可被記錄為備忘錄寫入時間,輸入書籤的時間點的錄音進行時間可被記錄為書籤指定時間。
對於語音記錄的書籤為利用書籤介面722的手動設定,但並不局限於此,也可體現自動設定功能。例如,可以在預先確定的主要關鍵字(作為一例,語音記錄的題目或標籤等)發聲的區間自動記錄書籤。
在語音記錄生成畫面610中選擇“檔上傳”菜單614的情況下,處理器220提供用於在客戶端中探索語音檔的檔探索畫面,如圖8所示,若在檔探索畫面中選擇特定檔,則提供執行所選擇檔的上傳的檔上傳畫面830。檔上傳畫面830可包含與所選擇檔有關的資訊(例如,檔案名稱、檔大小等)和表示檔上傳進行狀況的進度條831。
若完成通過語音錄音畫面720的語音錄音或完成通過檔上傳畫面830的檔上傳,則如圖9所示,處理器220可通過語音記錄生成畫面610顯示將語音轉換成文本的語音記錄生成過程的進行狀況915。在錄音的情況下,可在進行錄音的同時即時上傳語音檔或者當完成錄音時,一次性上傳所錄音的全部語音檔。
處理器220可針對完成語音記錄生成過程的語音檔即時匹配語音記錄與備忘錄(及書籤)來一同提供。
接著,圖10至圖15示出用於說明提供語音記錄的過程的語音記錄管理畫面500的例示。
參照圖10,在從語音記錄管理畫面500中提供的問價目錄中選擇特定語音記錄的情況下,處理器220可針對對應目錄的語言記錄,通過雙屏顯示方式一同顯示語音記錄區域1040和備忘錄區域1050。在語音記錄管理畫面500可一同提供在語音記錄生成過程中輸入的題目1041和參與者資訊1042,可包括用於控制語音檔的再生的控制區域1060。
在語音記錄區域1040中可顯示將每個發聲區間的對應區間的語音轉換的文本,在此情況下,在語音檔中,以發聲文本的時間點為基準顯示時間戳。在備忘錄區域1050中可顯示在語音檔的錄音過程中寫入的備忘錄,各個備忘錄的備忘錄寫入開始的時間點的錄音進行時間可作為對應備忘錄的時間戳顯示。
處理器220能夠與兩列並排顯示語音記錄區域1040和備忘錄區域1050,在此情況下,可將語音記錄區域1040與備忘錄區域1050以時間戳為基準匹配顯示。例如,可將在說話者1發聲的00分鐘02秒鐘時間點寫入的備忘錄匹配在與對應發聲區間的文本相同的線上來顯示。
語音記錄區域1040與備忘錄區域1050也可分別按時間順序簡單排列,而並不將語音記錄區域1040與備忘錄區域1050匹配在以時間戳基準的相同線上。此外,排列語音記錄區域1040與備忘錄區域1050的方式可以在雙屏顯示方式內隨意改變。
控制區域1060可包括進度條、再生/暫停按鈕、後退按鈕、前進按鈕、音量調整按鈕等,表示寫入備忘錄的區間的備忘錄指示器1061和表示記錄書籤的區間的書籤指示器1062可呈現在進度條上。
以容易區分備忘錄指示器1061與書籤指示器1062的方式可以不同地應用指示器顯示要素(例如,顏色、形狀等)。
在用戶在語音記錄區域1040中選擇特定發聲區間的文本的情況下,處理器220可以再生對應區間的語音。在備忘錄區域1050中選擇特定備忘錄的情況也相同,也可以再生寫入對應備忘錄區間的語音。
處理器220可以使語音記錄區域1040與備忘錄區域1050相互之間的選擇區域同步。例如,在用戶在語音記錄區域1040中選擇特定發聲區間的文本的情況下,可在備忘錄區域1050內對在對應區間寫入的備忘錄進行突出顯示來顯示。
用戶可以一同觀看語音記錄區域1040和備忘錄區域1050,同時,隨著通過在控制區域1060內的進度條上的備忘錄指示器1061和書籤指示器1062輕鬆且便利地進行搜索,用戶可以一眼掌握對話內容。
在語音記錄管理畫面500中可包括用於添加需要共用語音記錄的對象的“參與者添加”菜單1043。在語音記錄管理畫面500中選擇“參與者添加”菜單1043的情況下,處理器220可以提供朋友目錄,可通過在朋友目錄中選擇的其他用戶的帳戶或即時通訊軟體聊天室共用對應語音記錄。共用語音記錄的方式如下,即,可通過語音記錄管理服務的帳戶共用或通過與即時通訊軟體的聯動共用與語音記錄語音記錄有關的URL。
參照圖11,處理器220可以在語音記錄區域1040中區別顯示書籤指定的發聲區間的文本與其他區間的文本,例如,可針對對應區間的文本顯示書籤圖示1171。除顯示書籤圖示1171之外,也可以在書籤指定的發聲區間的文本應用突出顯示。
而且,處理器220可針對在語音記錄區域1040中書籤指定的發聲區間的文本提供“編輯”菜單1172來引導書籤區間的文本編輯。
在語音記錄區域1040中,在針對書籤指定的發聲區間的文本選擇“編輯”菜單1172的情況下,如圖12所示,處理器220提供可編輯對應區間的文本的編輯畫面1270。在語音記錄區域1040中,將書籤指定的發聲區間的文本通過編輯畫面1270更新成編輯的文本。
除語音記錄區域1040中所包括的書籤區間之外,處理器220可針對發聲區間的文本提供編輯功能,也可提供能夠編輯備忘錄區域1050中所包含的備忘錄的功能。
而且,處理器220可針對語音記錄區域1040和備忘錄區域1050,以利用說話者或關鍵字等的分組為基礎來提供過濾功能。
在語音記錄區域1040中選擇特定說話者的情況下,處理器220可以對與對應說話者的發聲區間有關的語音記錄和備忘錄中的至少一個進行分組來顯示。換句話說,可以聚集特定說話者發聲的區間的語音記錄和在對應說話者的發聲區間寫入的備忘錄來顯示。
並且,處理器220能夠以由用戶輸入的關鍵字為基準來對包含對應關鍵字的語音記錄和備忘錄中的至少一個進行分組顯示。在利用關鍵字的備忘錄分組的情況下,可以將包含對應關鍵字的備忘錄或在包含對應關鍵字的發聲區間寫入的備忘錄作為分組對象。除說話者或關鍵字之外,可將能夠分類語音記錄和備忘錄的多種基準用於過濾。
除一同顯示語音記錄區域1040和備忘錄區域1050的雙屏顯示方式之外,處理器220可提供根據用戶的選擇僅選擇性地顯示語音記錄區域1040和備忘錄區域1050中的一個的查看模式。
參照圖13,處理器220僅可顯示的備忘錄區域1050,而並不顯示語音記錄區域1040,在此情況下,可以一同提供用於控制語音檔的再生的控制區域1060。
用戶可在收聽語音的過程中確認備忘錄區域1050中所包含的備忘錄,進而,處理器220可提供在語音再生過程中添加寫入備忘錄的介面。
參照圖14,處理器220僅可顯示語音記錄區域1040,而並不顯示備忘錄區域1050,在此情況下,可一同提供用於控制語音檔的再生的控制區域1060。
在僅顯示語音記錄區域1040的查看模式中,可以將在語音記錄區域1040中寫入備忘錄的發聲區間的文本與其他區間的文本區別顯示,例如,在作為表示對應文本的發聲區間寫入的備忘錄存在的標籤,可以顯示備忘錄圖示1441。
在語音記錄區域1040中選擇特定文本的備忘錄圖示1441的情況下,如圖15所示,處理器220可以顯示在對應文本的發聲區間寫入的備忘錄全文1580。
在一同顯示語音記錄區域1040和備忘錄區域1050的雙屏查看模式和僅顯示語音記錄區域1040及備忘錄區域1050的查看模式中也可以提供相互之間能夠探索和確認的介面。
如上所述,根據本發明的實施例,可對將錄音的語音轉換成文本的記錄和與和錄音的語音相關地寫入的備忘錄進行匹配並通過雙屏顯示方式呈現,由此可以便利地探索語音記錄和備忘錄。
而且,根據本發明的實施例,可提供將語音記錄和備忘錄按說話者或關鍵字分組的過濾功能,由此,可以提高用戶利用服務的便利性。
本實施例可以與提供基於語音的介面的人工智慧設備聯動來自動管理語音記錄。
圖16示出本發明一實施例的利用人工智慧設備的語音記錄生成過程的例。圖16的語音記錄生成過程可通過語音記錄生成部310執行,可包括在圖4的語音記錄管理方法中所包括的步驟S410中。
參照圖16,在步驟S1601中,語音記錄生成部310為了語音記錄管理服務而可以與提供基於語音的介面的人工智慧設備聯動。作為一例,語音記錄生成部310可以利用為了與語音記錄管理服務的聯動而發行的密鑰來使人工智慧設備與語音記錄管理服務的用戶帳戶聯動。在輸入用戶用於記錄現場語音的語音指令或指定按鈕的情況下,人工智慧設備可以請求與語音記錄管理服務的聯動。語音記錄生成部310根據人工智慧設備的請求發行一次性密鑰之後,在在語音記錄管理服務中輸入對應密鑰的情況下,可以與請求密鑰發行的人工智慧設備聯動。換句話說,語音記錄生成部310可以使用戶帳戶與對應設備聯動,上述用戶帳戶在語音記錄管理服務中輸入根據人工智慧設備的請求發行的密鑰。語音記錄生成部310一次性僅可以使一個人工智慧設備與一個用戶帳戶聯動,可以將與人工智慧設備聯動的用戶帳戶指定為主帳戶。
在步驟S1602中,語音記錄生成部310可從與語音記錄管理服務聯動的人工智慧設備接收現場語音並將所接收的語音轉換成文本來生成語音記錄。若開始與語音記錄管理服務的聯動,則人工智慧設備可轉換成錄音模式來錄音人工智慧設備所在的現場中輸入的語音。人工智慧設備可通過設備上的顯示器顯示錄音時間,可提供暫停、重新開始、介乎等與錄音有關的控制功能。語音記錄生成部310可從人工智慧設備接收作為現場語音錄音的語音檔。語音記錄生成部310可在聯動過程中以規定時間單位(例如,5分鐘)接收錄音檔或者在解除聯動之後接收整體錄音檔。若開始與人工智慧設備的聯動,則語音記錄生成部310可通過與人工智慧設備聯動的主帳戶的服務畫面,可針對錄音中的語音檔提供對應語音檔的狀態資訊。
備忘錄匹配管理部320可在針對通過人工智慧設備錄音中的語音檔與人工智慧設備聯動的主帳戶中提供備忘錄寫入功能。換句話說,現場語音的錄音過程中的狀態可以在主帳戶中確認,可即時寫入對於在主帳戶中錄音中的語音檔的備忘錄。備忘錄匹配管理部320可以在通過人工智慧設備錄音現場語音的過程中接收通過主帳戶寫入的備忘錄並匹配上述備忘錄與語音記錄來管理。
語音記錄提供部330可通過與人工智慧設備聯動的主帳戶提供語音記錄。在輸入預先確定的語音指令或指定按鈕的情況下,人工智慧設備可以解除與語音記錄管理服務的聯動。語音記錄提供部330在解除與人工智慧設備的聯動之後,可通過主帳戶的服務畫面來使語音記錄與和對應語音記錄匹配的備忘錄關聯來提供。
語音記錄提供部330可以與通過主帳戶添加的其他用戶共用語音記錄。主帳戶可以通過朋友添加方式等在語音記錄管理服務中指定已設定與主帳戶的關係的其他用戶並與所指定的用戶共用與現場語音有關的語音記錄。可以在通過主帳戶指定的其他用戶的帳戶中確認主帳戶共用的語音記錄。作為語音記錄共用方式的另一例,也可存在共用與語音記錄有關的URL的方式。例如,語音記錄提供部330可以與即時通訊軟體聯動,通過與語音記錄管理服務有關的聊天機器人帳戶向由主帳戶指定的與其他用戶的聊天室提供能夠確認語音記錄的URL。
圖17至圖22示出用於管理利用人工智慧設備的語音記錄的用戶介面畫面的實施例。
人工智慧設備1700作為可用作共用設備的設備,可提供基於語音的介面,還可提供麥克風、揚聲器、顯示器等與輸入輸出裝置的介面。
以下,假設會議狀況來說明管理語音記錄的過程。
參照圖17,人工智慧設備1700可以將包含預先確定的關鍵字的語音指令1701識別成用於記錄會議語音的用戶請求。除基於用戶說話的語音指令1701之外,可利用人工智慧設備1700上的指定按鈕輸入用於記錄會議語音的用戶請求。
在是被用於記錄會議語音的用戶請求的情況下,人工智慧設備1700可以請求與語音記錄管理服務的聯動,對此,處理器220可根據人工智慧設備1700的請求發行聯動密鑰。
人工智慧設備1700可作為對於聯動請求的回應接收所發行的密鑰並顯示在顯示器上。
會議現場的用戶可登錄設置在移動設備或PC等個人設備的語音記錄管理專用應用(或語音記錄管理服務的網頁/移動網站)來輸入顯示在人工智慧設備1700的密鑰。
參照圖18,在用戶在語音記錄管理畫面500中選擇用於開始與人工智慧設備1700聯動的菜單的情況下,可以提供密鑰輸入畫面1810,在此情況下,用戶可通過密鑰輸入畫面1810輸入顯示在人工智慧設備1700的密鑰。
在通過人工智慧設備1700的請求發行的密鑰通過語音管理專用應用輸入的情況下,處理器220可以使輸入對應密鑰的用戶帳戶與人工智慧設備1700聯動。處理器220可以將與人工智慧設備1700聯動的用戶帳戶指定成與對應會議語音有關的主帳戶。
參照圖19,若開始與語音記錄管理服務的聯動,則人工智慧設備1700可轉換成錄音模式來錄音在人工智慧設備1700所在的現場中輸入的會議語音。在維持錄音模式的情況下,人工智慧設備1700可通過顯示器顯示錄音時間。
若開始與人工智慧設備1700的聯動,則處理器220可通過主帳戶顯示與在人工智慧設備1700中的語音記錄有關的狀態資訊。
參照圖20,處理器220可以向主帳戶的語音記錄管理畫面500上提供包含由人工智慧設備1700中錄音中的語音檔的檔目錄2010。檔目錄2010可包含由人工智慧設備1700錄音中的語音檔和完成文本轉換的語音記錄等可通過主帳戶訪問的語音檔。處理器220可以在語音記錄管理畫面500的檔目錄2010上顯示與在人工智慧設備1700中錄音中的語音檔有關的狀態資訊2001,即,在人工智慧設備1700中的狀態值。
處理器220可根據狀態區分顯示檔目錄2010中所包含的語音檔,作為一例,可分為可即時寫入備忘錄的語音檔與其他剩餘語音檔。可寫入備忘錄的語音檔可以包含人工智慧設備1700中進行錄音中的語音檔。如圖20所示,處理器220可提供在語音記錄管理畫面500的檔目錄2010中所包含的語音檔中,用於針對在人工智慧設備1700中進行錄音的語音檔寫入備忘錄的“備忘錄”菜單2002。
在語音記錄管理畫面500的檔目錄2010中選擇對於在人工智慧設備1700中進行錄音的語音檔的“備忘錄”菜單2002的情況下,如圖21所示,處理器220提供備忘錄寫入畫面2120。在備忘錄寫入畫面2120可顯示在人工智慧設備1700中進行錄音中的語音檔的狀態(錄音中)和錄音時間等。而且,備忘錄寫入畫面2120作為用於寫入備忘錄的介面2121,可包括基於文本的輸入功能、照片或視頻拍攝功能、檔添加功能等。並且,備忘錄寫入畫面2020還可包括書籤介面2122等,在人工智慧設備1700中進行錄音的過程中,可以在語音檔記錄書籤。在備忘錄寫入畫面2120中寫入備忘錄的情況下,可針對各個備忘錄,可基於在人工智慧設備1700中進行錄音中的語音檔的錄音時間一同顯示時間戳。
本發明說明了提供用於進入到備忘錄寫入畫面2120的“備忘錄”菜單2002,但並不局限於此。根據實施例,並不提供作為單獨菜單的“備忘錄”菜單2002,而是在檔目錄2010中選擇特定語音檔,例如,在人工智慧設備1700中錄音中的語音檔來進入的詳細畫面中可包括備忘錄寫入畫面2120。
針對在人工智慧設備1700中進行錄音中的語音檔,通過備忘錄寫入畫面2120寫入的備忘錄與對應語音檔關聯,從而可以從移動應用程式以及PC網路中確認。
參照圖22,人工智慧設備1700可以將包含預先確定的關鍵字的語音指令2201識別成用於結束會議語音記錄的用戶請求。除基於用戶說話的語音指令2201之外,可利用人工智慧設備1700上的指定按鈕,輸入用於結束會議語音記錄的用戶請求。
在識別到用於結束會議語音記錄的用戶請求的情況下,人工智慧設備1700可以請求解除與語音記錄管理服務的聯動,對此,處理器220可根據人工智慧設備1700的請求解除人工智慧設備1700與主帳戶之間的聯動。
若解除與語音記錄管理服務的聯動,則人工智慧設備1700可以在顯示器上顯示對於會議語音的整體錄音時間。
若解除與人工智慧設備1700的聯動,則處理器220可通過主帳戶的語音記錄管理畫面500,提供將在人工智慧設備1700中錄音的語音轉換成文本的語音記錄。在接收對於特定語音記錄的選擇指令的情況下,處理器220可使語音記錄與和語音記錄匹配的備忘錄關聯來提供。
如上所述,根據本發明的實施例,使可用作共用設備的人工智慧設備與語音記錄管理服務聯動並通過語音識別技術來將現場文本自動記錄成文本,由此,可以擴大服務利用並提高用戶的便利。
本實施例可利用在對對話語音進行錄音的過程中用戶輸入的與對應對話的脈絡有關的多個單詞來提高語音識別率。
圖23為示出本發明一實施例的語音識別過程的例的流程圖。圖23的語音識別過程通過語音記錄生成部310執行,可包括在圖4的語音記錄管理方法的步驟S410。
參照圖23,在步驟S2301中,語音記錄生成部310可以從用戶輸入的與語音檔有關的句子提取用於識別語音的自定義關鍵字(custom keyword)。作為一例,語音記錄生成部310在對話語音的錄音過程中,基於用戶通過備忘錄功能與對應對話的脈絡有關地寫入的備忘錄來在對應備忘錄中,可將名詞等至少一部分詞性對應的單詞提取成自定義關鍵字。作為再一例,語音記錄生成部310在語音記錄生成過程中,可將由用戶作為與對應語音記錄有關的資訊輸入的單詞,例如,通過語音記錄生成畫面610輸入的語音記錄的題目或標籤、在參與者資訊中與名詞等至少一部分詞性對應的單詞作為自定義關鍵字提取。作為另一例,語音記錄生成部310可以在預先構建的自定義詞典內,與用戶輸入的語音記錄的題目有關地,可以將與對應題目有關的類別的單詞提取成自定義關鍵字。作為還有一例,語音記錄生成部310可以利用編輯功能(例如,通過圖12說明的編輯功能),在語音記錄中的用戶編輯的內容,換句話說,在最終修改的內容中,可以將名詞等至少一部分詞性對應的單詞提取成自定義關鍵字。作為又一例,語音記錄生成部310可以將登錄為用戶通常頻繁使用的單詞的關鍵字用成自定義關鍵字。在登錄頻繁使用的單詞的過程中,處理器220可以利用作為電腦裝置200的結構要素包含的預先資料庫或可以與電腦裝置200聯動的預先資料庫,與用戶選擇的關心領域來提供推薦單詞,用戶可以將推薦單詞中的至少一部分登錄為頻繁使用的單詞。
而且,語音記錄生成部310可以使用以單詞的種類或類型等為基礎的加權值來提取自定義關鍵字。語音記錄生成部310可以將比通常使用的單詞更加獨特的單詞作為重要關鍵字提取。例如,在提取自定義關鍵字的過程中,語音記錄生成部310可以對與固有名詞或專業術語對應的單詞賦予比一般名詞(普通名詞)高的加權值。
並且,在提取自定義關鍵字的過程中,語音記錄生成部310可通過正字法檢查等錯別字檢查,可以從自定義關鍵字排除在由用戶輸入的單詞中被明確判斷為錯別字的單詞。
在步驟S2302中,語音記錄生成部310可通過對在步驟S2301中提取的自定義關鍵字應用加權值的語音識別生成與語音檔對應的語音記錄。在生成語音記錄的過程中,語音記錄生成部310可應用對於自定義關鍵字的提升演算法來以更加準確地識別對應關鍵字的方式進行學習。換句話說,語音記錄生成部310可對自定義關鍵字應用語音識別加權值來處理成具有比其他關鍵字更高的優先順序,由此可以提高自定義關鍵字的識別率。
參照圖24,語音記錄生成部310可以在作為語音錄音過程中寫入的備忘錄2401的(添加網頁版)中提取自定義關鍵字2402(“網路”、“版本”、“添加”),可通過對自定義關鍵字2402應用提升的語音識別獲取改善的語音識別結果2403。當提升之前的語音識別結果2404“天降了在彎路中使用的功能”時,可通過對於自定義關鍵字2402(“網路”、“版本”、“添加”)的提升獲得如“添加了網路中使用的功能”的更加準確的語音識別結果2403。例如,在語音識別引擎中,可以利用自定義關鍵字2402,將如“彎路”的與“網路”類似的識別均調整成“網路”。
根據實施例,可針對每個說話者發聲區間的語音識別結果,在與對應區間匹配的備忘錄中提取自定義關鍵字來應用對於對應關鍵字的提升。換句話說,語音記錄生成部310可針對每個說話者發生區間應用不同的自定義關鍵字。
在生成語音記錄之後,在將在語音記錄中用戶編輯的單詞作為自定義關鍵字獲取的情況下,可再次執行將語音轉換成文本的語音記錄生成過程來更新對應語音記錄。語音記錄生成部310可以應用對於在語音記錄更新過程中用戶所編輯的單詞,即,對於自定義關鍵字的提升。
如上所述,根據本發明的實施例,在對話語音的錄音過程中,與對應對話的脈絡有關地,對用戶輸入的單詞應用提升,由此,在將錄音的語音轉換成文本的過程中可以更加準確地識別對應單詞。在對對話語音進行錄音的過程中,可通過備忘錄功能學習用戶輸入的單詞、在將語音轉換成文本的語音記錄中用戶編輯的單詞以及用戶通常頻繁使用的單詞等用戶輸入的單詞來提高語音識別的準確度。
在本實施例中,當在將語音轉換成文本的語音記錄中搜索單詞時,可包含發音類似的單詞來進行搜索。
圖25為示出本發明一實施例的語音記錄管理過程的流程圖。圖25的語音記錄管理過程通過語音記錄提供部330執行,可包括在圖4的語音記錄管理方法。
參照圖25,在步驟S2540中,語音記錄提供部330可以提供對於在步驟S430中提供的語音記錄的搜索功能,可以在語音記錄中搜索與搜索詞對應的單詞或搜索詞發音類似的單詞。換句話說,在語音記錄中搜索特定單詞的情況下,語音記錄提供部330可提供基於發音一同查詢類似單詞的功能。
作為一實施例,語音記錄提供部330可以在語音記錄中所包含的單詞中搜索與搜索詞匹配的同義詞和與搜索詞對應的英文同義詞或外來詞等。尤其,語音記錄提供部330可以搜索作為以與搜索詞類似的發音說出的單詞,通過以分詞標準,例如,以語素單位、詞幹單位、詞項(term)單位等為基礎的單詞之間的比較,搜索與搜索詞具有規定比例以上的類似度的近義詞。
語音記錄提供部330可以提供在搜索過程中基於表示與搜索詞的類似度的準確度的過濾功能。例如,語音記錄提供部330可根據用戶的請求,僅將與搜索詞類似90%以上的單詞設定為搜索對象並提供搜索結果,與搜索詞的類似度小於90%的單詞可從搜索結果中排除。
搜索範圍可包含語音記錄和與對應語音記錄匹配的備忘錄,語音記錄提供部330可以在語音記錄和備忘錄內搜索與搜索詞對應的單詞和與搜索詞發音類似的單詞。
而且,語音記錄提供部330可以在搜索過程中允許基於單詞結合的搜索,換句話說,可以支持利用多個單詞的搜索。當然可搜索單詞單位,也可以搜索句子單位。
語音記錄提供部330可提供對於語音記錄的搜索結果,在此情況下,可以在語音記錄中區分顯示搜索結果中所包含的單詞與其他單詞。作為一例,語音記錄提供部330可根據準確度不同地顯示搜索結果中所包含的單詞的顯示要素(例如,突出顯示的顏色等)。例如,與搜索詞匹配90%以上的單詞可用綠色突出顯示,與搜索詞的類似度小於90%且為70%以上的單詞用藍色突出顯示,與搜索詞的類似度小於70%且為50%以上的單詞用灰色突出顯示。
在步驟S2550中,語音記錄提供部330可以將搜索結果中所包含的至少一個單詞修改成其他單詞。作為一例,語音記錄提供部330可以將搜索結果中所包含的單詞修改成作為搜索詞輸入的單詞或由用戶新輸入的單詞。在此情況下,語音記錄提供部330可以根據用戶的選擇全部修改或部分修改搜索結果中所包含的單詞。
因此,處理器220可以提供將語音轉換成文本的語音記錄中,包含與搜索詞發音類似的單詞來進行搜索的功能,可一同提供將搜索的單詞修改成其他單詞的功能。
圖26至圖27示出本發明一實施例的用於語音記錄搜索功能的用戶介面畫面的例示。
在由語音記錄管理畫面500提供的檔目錄中選擇特定語音記錄的情況下,處理器220可針對對應題目的語音記錄,可通過雙屏顯示方式一同顯示語音記錄區域1040和備忘錄區域1050。
如圖26所示,在語音記錄管理畫面500中可包括用於搜索的“搜索”菜單2601。在語音記錄管理畫面500中選擇“搜索”菜單2601的情況下,如圖27所示,處理器220可以提供對應語音記錄的搜索畫面2770。
在搜索畫面2770中可包括用於輸入搜索詞的搜索詞輸入欄2771,處理器220可以在語音記錄管理畫面500中特定的語音記錄中搜索與搜索詞對應的單詞和與搜索詞發音類似的單詞並顯示搜索結果。
當將語音轉換成文本時,根據發音存在被識別成不同單詞的情況,在這種情況下很難進行搜索。例如,即使兩個人說出相同單詞“演示網站”,一人的語音被準確地識別成“演示網站”,相反,另一個人的語音有可能被識別成“延時網站”。在輸入作為搜索詞的“演示網站”的情況下,處理器220可以將“演示網站”和作為發音類似的單詞的“延時網站”一同作為搜索結果提供。
處理器220可以在搜索畫面2770中,可針對搜索詞來在搜索結果中所包含的單詞進行突出顯示,在此情況下,根據搜索結果中所包含的單詞的準確度,各個單詞的突出顯示的顏色有可能不同。在搜索結果中,與搜索詞精確匹配的單詞可應用第一顏色(例如,綠色)突出顯示2772來顯示,與搜索詞不匹配但發音類似的單詞可以應用與第一顏色不同的第二顏色(例如,藍色)突出顯示2773來顯示。
在設定對於搜索結果的過濾條件的情況下,例如,在僅將與搜索詞類似90%以上的單詞設定為搜索條件的情況下,處理器220可以將符合對應條件的單詞作為搜索結果顯示。
處理器220可針對搜索詞一同搜索語音記錄區域1040和備忘錄區域1050,作為另一例,根據用戶的設定,可以選擇性地搜索語音記錄區域1040和備忘錄區域1050中的一個。
處理器220可一同提供對於語音記錄的搜索功能和將搜索結果中所包含的單詞修改成搜索詞的功能。在通過搜索詞“演示網站”查詢到發音類似的“延時網站”之後,可將“延時網站”換成“演示網站”。在修改功能中,當將所搜索的單詞換成其他單詞時,可提供一次性替換搜索結果內的整個單詞或者根據用戶選擇選擇性地替換一部分單詞的介面。
如上所述,根據本發明的實施例,當在將語音轉換成文本的語音記錄中搜索單詞時,可包含發音類似的單詞來進行搜索,從而可以提高在語音記錄中的單詞搜索性能。但是,根據本發明的實施例,可提供能夠根據搜索準確度過濾基於發音的搜索結果中所包含的單詞的功能、將基於發音的搜索結果中所包含的單詞修改成其他單詞的功能等,由此,可以提高用戶利用服務的便利性。
上述裝置可以實現為硬體組件、軟體組件和/或硬體組件和軟體組件的組合。例如,實施例中說明的裝置及組件可利用處理器、控制器、算術邏輯單元(ALU,arithmetic logic unit)、數字信號處理器(digital signal processor)、微型電腦(field programmable gate array)、現場可編程門陣列(FPGA,field programmable gate array)、可編程邏輯單元(PLU,programmable logic unit)、微型處理器或如可執行且回應指令的其他任何裝置的一個以上通用電腦或專用電腦來實現。處理裝置可執行操作系統(OS)和在上述操作系統上運行的一個以上軟體應用程式。並且,處理裝置還可回應軟體的執行來訪問、存儲、操作、處理和生成數據。為了便於理解,可將處理裝置說明為使用一個元件,但本領域普通技術人員可以理解,處理裝置包括多個處理元件(processing element)和/或各種類型的處理元件。例如,處理裝置可以包括多個處理器或包括一個處理器和一個控制器。並且,如並行處理器(parallel processor)的其他處理配置(processing configuration)也是可行的。
軟體可以包括電腦程式(computer program)、代碼(code)、指令(instruction)或它們中的一個以上的組合,並且可以配置處理裝置以根據需要進行操作,或獨立地或共同地(collectively)命令處理裝置。軟體和/或數據可以具體表現(embody)為任何類型的機器、組件(component)、物理裝置、電腦存儲介質或裝置,以便由處理裝置解釋或向處理裝置提供指令或數據。軟體可以分佈在聯網的電腦系統上,並以分佈的方式存儲或執行。軟體和數據可以存儲在一個以上的電腦可讀記錄介質中。
根據實施例的方法能夠以可以通過各種電腦裝置執行的程式指令的形式實現,並記錄在電腦可讀介質中。在此情況下,介質可以繼續存儲電腦可執行程式或者為了執行或下載而暫時存儲。並且,介質可以為單個或多個硬體結合的形態的多種記錄單元或存儲單元,並不局限於直接訪問一種電腦系統的介質,可以分散存在於網路上。作為介質的例示,包括如硬碟、軟碟和磁帶等的磁性介質,如CD-ROM和DVD等的光學記錄介質,如軟式光碟(floptical disk)等的磁光介質(magneto-optical medium),以及ROM、RAM、閃存等專門用於存儲和執行程式指令的硬體裝置。並且,作為其他介質的例示,也可以為在流通應用的應用商店或提供或流通其他多種軟體的網站、伺服器等中管理的記錄介質或存儲介質。
如上所述,雖然參考有限的實施例和附圖進行了說明,但本領域技術人員可以根據以上說明進行各種修改和改進。例如,以不同於所述方法的順序執行所述技術,和/或以不同於所述方法的形式結合或組合的所述系統、結構、裝置、電路等的組件,或其他組件或即使被同技術方案代替或替換也能夠達到適當的結果。
因此,其他實施方式、其他實施例和等同於本申請專利範圍的內容也屬於本申請專利的保護範圍內。
110:電子設備 120:電子設備 130:電子設備 140:電子設備 150:伺服器 160:伺服器 170:網路 200:電腦裝置 210:記憶體 220:處理器 230:通信介面 240:輸入輸出介面 250:輸入輸出裝置 310:語音記錄生成部 320:備忘錄匹配管理部 330:語音記錄提供 500:語音記錄管理畫面 501:檔夾目錄 502:“創建新筆記”菜單 610:語音記錄生成畫面 611:“題目”輸入欄 612:“參與者”輸入欄 613:“開始錄音”菜單 614: “檔上傳”菜單 720:語音錄音畫面 721:備忘錄介面 722:書籤介面 830:檔上傳畫面 831:進度條 915:進行狀況 1040:語音記錄區域 1041:題目 1042:參與者資訊 1043:菜單 1050:備忘錄區域 1060:控制區域 1061:備忘錄指示器 1062:書籤指示器 1171:書籤圖示 1172:“編輯”菜單 1270:編輯畫面 1441:備忘錄圖示 1580:備忘錄全文 1700:人工智慧設備 1701:語音指令 1810:密鑰輸入畫面 2001:狀態資訊 2002:“備忘錄”菜單 2010:檔目錄 2120:備忘錄寫入畫面 2121:介面 2122:書籤介面 2201:語音指令 2401:備忘錄 2402:自定義關鍵字 2403:語音識別結果 2404:語音識別結果 2601:“搜索”菜單 2770:搜索畫面 2771:搜索詞輸入欄 2772:突出顯示 2773:突出顯示 S410:步驟 S420:步驟 S430:步驟 S1601:步驟 S1602:步驟 S2301:步驟 S2302:步驟 S2540:步驟 S2550:步驟
圖1為示出本發明一實施例的網路環境的示意圖。 圖2為示出本發明一實施例的電腦裝置的示意圖。 圖3為示出本發明一實施例的電腦裝置的處理器可包括的結構要素的示意圖。 圖4為示出本發明一實施例的電腦裝置可執行的方法的流程圖。 圖5至圖15示出本發明一實施例的用於管理語音記錄的用戶介面畫面的示意圖。 圖16示出本發明一實施例的利用人工智慧設備的語音記錄生成過程的示意圖。 圖17至圖22示出用於利用人工智慧設備的語音記錄管理的用戶介面畫面的示意圖。 圖23為示出本發明一實施例的語音識別過程的流程圖。 圖24示出本發明一實施例的利用用戶輸入的單詞的語音識別結果的示意圖。 圖25為示出本發明一實施例的對於語音記錄的搜索過程的流程圖。 圖26至圖27示出用於本發明一實施例的對於語音記錄的搜索功能的用戶介面畫面的示意圖
500:語音記錄管理畫面
1040:語音記錄區域
1041:題目
1042:參與者資訊
1043:菜單
1050:備忘錄區域
1060:控制區域
1061:備忘錄指示器
1062:書籤指示器

Claims (19)

  1. 一種語音記錄管理方法,在一電腦裝置中執行,其中,上述電腦裝置包括執行一記憶體中所包含的一電腦可讀指令的至少一處理器,上述語音記錄管理方法包括:一生成步驟,通過至少一上述處理器,將一語音轉換成文本來生成一語音記錄;一管理步驟,通過至少一上述處理器,對在上述語音的錄音或再生過程中寫入的一備忘錄與上述語音記錄進行匹配並管理;以及一提供步驟,通過至少一上述處理器,將上述語音記錄與上述備忘錄相關聯來提供,其中,上述提供步驟還包括如下的步驟:根據是否存在針對上述語音記錄中所包含的說話者發聲區間的文本的對應區間寫入的備忘錄來顯示一備忘錄標籤;以及在選擇上述備忘錄標籤的情況下,顯示在對應文本的發聲區間寫入的備忘錄全文。
  2. 一種語音記錄管理方法,在一電腦裝置中執行,其中,上述電腦裝置包括執行一記憶體中所包含的一電腦可讀指令的至少一處理器,上述語音記錄管理方法包括:一生成步驟,通過至少一上述處理器,將一語音轉換成文本來生成一語音記錄,其中,上述生成步驟還包括:使提供基於語音的介面的一人工智慧設備與一用戶帳戶聯動的聯動步驟;以及 將從上述人工智慧設備接收的語音轉換成文本來生成語音記錄的步驟;一管理步驟,通過至少一上述處理器,對在上述語音的錄音或再生過程中寫入的一備忘錄與上述語音記錄進行匹配並管理;以及一提供步驟,通過至少一上述處理器,將上述語音記錄與上述備忘錄相關聯來提供。
  3. 一種語音記錄管理方法,在一電腦裝置中執行,其中,上述電腦裝置包括執行一記憶體中所包含的一電腦可讀指令的至少一處理器,上述語音記錄管理方法包括:一生成步驟,通過至少一上述處理器,將一語音轉換成文本來生成一語音記錄,其中,上述生成步驟包括如下的執行步驟,即,執行向用戶輸入的與上述語音有關的一自定義關鍵字應用加權值的一語音識別,上述執行步驟包括如下的步驟,即,從上述備忘錄中提取上述自定義關鍵字;一管理步驟,通過至少一上述處理器,對在上述語音的錄音或再生過程中寫入的一備忘錄與上述語音記錄進行匹配並管理;以及一提供步驟,通過至少一上述處理器,將上述語音記錄與上述備忘錄相關聯來提供。
  4. 一種語音記錄管理方法,在一電腦裝置中執行,其中,上述電腦裝置包括執行一記憶體中所包含的一電腦可讀指令的至少一處理器,上述語音記錄管理方法包括:一生成步驟,通過至少一上述處理器,將一語音轉換成文本來生成一語音記錄; 一管理步驟,通過至少一上述處理器,對在上述語音的錄音或再生過程中寫入的一備忘錄與上述語音記錄進行匹配並管理;一提供步驟,通過至少一上述處理器,將上述語音記錄與上述備忘錄相關聯來提供;以及一搜索步驟,通過至少一個上述處理器,在上述語音記錄中搜索與一搜索詞對應的單詞,其中,在上述搜索步驟中,在上述語音記錄中包含作為發音與上述搜索詞類似的單詞的一類似單詞來進行搜索。
  5. 如請求項1至4中任一項所述之語音記錄管理方法,其中,上述提供步驟包括如下的步驟,即,通過雙屏顯示方式一同顯示上述語音記錄和上述備忘錄。
  6. 如請求項1至4中任一項所述之語音記錄管理方法,其中,上述提供步驟包括如下的步驟,即,以時間戳為基準,按時間匹配上述語音記錄與上述備忘錄來顯示。
  7. 如請求項1至4中任一項所述之語音記錄管理方法,其中,上述提供步驟包括如下的步驟:在上述語音記錄的情況下,顯示一時間戳,上述時間戳表示說話者發聲區間的每個文本的對應區間的起點;以及在上述備忘錄的情況下,顯示時間戳,上述時間戳表示各個備忘錄的備忘錄寫入時間點的語音錄音時間或語音再生時間。
  8. 如請求項1至4中任一項所述之語音記錄管理方法,其中,上述生成步驟包括如下的步驟,即,接收在客戶端中錄音的語音檔或從上述客戶端上傳的一語音檔來將與一說話者發聲區間對應的語音數據轉換成文本。
  9. 如請求項1至4中任一項所述之語音記錄管理方法,其中,在上述管理步驟中,以上述語音記錄的時間戳為基準,對在上述語音的錄音或再生過程中寫入的備忘錄進行匹配並管理。
  10. 如請求項1至4中任一項所述之語音記錄管理方法,其中,在上述管理步驟中,對在上述語音的說話者發聲區間寫入的備忘錄與上述說話者發聲區間的語音記錄進行匹配並管理。
  11. 如請求項2所述之語音記錄管理方法,其中,上述聯動步驟包括如下的步驟:根據上述人工智慧設備的請求發行一聯動密鑰;以及隨著通過上述用戶帳戶輸入上述聯動密鑰,使上述用戶帳戶與上述人工智慧設備聯動。
  12. 如請求項2所述之語音記錄管理方法,其中,上述提供步驟包括如下的步驟,即,與通過上述用戶帳戶指定的至少一個其他用戶共用上述語音記錄。
  13. 如請求項1、2或4所述之語音記錄管理方法,其中,上述生成步驟包括如下的執行步驟,即,執行向用戶輸入的與上述語音有關的一自定義關鍵字應用加權值的一語音識別。
  14. 如請求項1至4中任一項所述之語音記錄管理方法,其中,在上述執行步驟中,對上述自定義關鍵字應用提升來執行上述語音識別。
  15. 如請求項1、2或4所述之語音記錄管理方法,其中,上述執行步驟包括如下的步驟,即,從上述用戶作為與上述語音記錄有關的資訊輸入的單詞或登錄為上述用戶頻繁使用的單詞的關鍵字中的至少一個提取上述自定義關鍵字。
  16. 如請求項4所述之語音記錄管理方法,其中,在上述搜索步驟中,通過以分詞單位為基礎的單詞之間的比較,將與上述搜索詞之間的類似度達到規定比例以上的單詞作為上述類似單詞來搜索。
  17. 如請求項4所述之語音記錄管理方法,其中,上述語音記錄管理方法還包括如下的步驟,即,通過至少一上述處理器,將對於上述語音記錄的搜索結果中所包含的至少一單詞修改成其他單詞。
  18. 一種電腦可讀記錄介質,其中,記錄有用於在電腦中執行根據請求項1至17中任一項之語音記錄管理方法的程式。
  19. 一種電腦裝置,其中,包括執行一記憶體中所包含的一電腦可讀指令的至少一處理器,至少一上述處理器包括:一語音記錄生成部,將一語音轉換成文本來生成一語音記錄;一備忘錄匹配管理部,對在上述語音的錄音或再生過程中寫入的一備忘錄與上述語音記錄進行匹配並管理;以及一語音記錄提供部,將上述語音記錄與上述備忘錄相關聯來提供,根據是否存在針對上述語音記錄中所包含的說話者發聲區間的文本的對應區間寫入的備忘錄來顯示一備忘錄標籤;以及在選擇上述備忘錄標籤的情況下,顯示在對應文本的發聲區間寫入的備忘錄全文。
TW110135178A 2020-09-23 2021-09-22 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質 TWI807428B (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR10-2020-0122847 2020-09-23
KR1020200122847A KR102427213B1 (ko) 2020-09-23 2020-09-23 음성 파일에 대한 텍스트 변환 기록과 메모를 함께 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR1020200127519A KR102503586B1 (ko) 2020-09-29 2020-09-29 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR10-2020-0127519 2020-09-29
KR10-2020-0133224 2020-10-15
KR1020200133224A KR102437752B1 (ko) 2020-10-15 2020-10-15 인공지능 디바이스와 연동하여 음성 기록을 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR1020200137324A KR102446300B1 (ko) 2020-10-22 2020-10-22 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR10-2020-0137324 2020-10-22

Publications (2)

Publication Number Publication Date
TW202230199A TW202230199A (zh) 2022-08-01
TWI807428B true TWI807428B (zh) 2023-07-01

Family

ID=80740648

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110135178A TWI807428B (zh) 2020-09-23 2021-09-22 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質

Country Status (2)

Country Link
US (1) US20220093103A1 (zh)
TW (1) TWI807428B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11736773B2 (en) * 2021-10-15 2023-08-22 Rovi Guides, Inc. Interactive pronunciation learning system
US20230214579A1 (en) * 2021-12-31 2023-07-06 Microsoft Technology Licensing, Llc Intelligent character correction and search in documents
US20230353406A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Context-biasing for speech recognition in virtual conferences

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430851A (zh) * 2015-04-10 2017-12-01 株式会社东芝 发言提示装置、发言提示方法以及程序
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
TW201913476A (zh) * 2017-09-11 2019-04-01 慧利眾科技股份有限公司 智能語音互動式電子備忘錄及其操作方法
US20200273450A1 (en) * 2019-02-21 2020-08-27 Blue Planet Training, Inc. System and A Method for Speech Analysis

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8542803B2 (en) * 2005-08-19 2013-09-24 At&T Intellectual Property Ii, L.P. System and method for integrating and managing E-mail, voicemail, and telephone conversations using speech processing techniques
KR101844903B1 (ko) * 2011-08-31 2018-04-04 삼성전자 주식회사 데이터 복합 기록 지원 방법 및 이를 지원하는 단말기
JP6280312B2 (ja) * 2013-05-13 2018-02-14 キヤノン株式会社 議事録記録装置、議事録記録方法及びプログラム
US20200090661A1 (en) * 2018-09-13 2020-03-19 Magna Legal Services, Llc Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
CN109166584A (zh) * 2018-10-30 2019-01-08 深圳融昕医疗科技有限公司 语音控制方法、装置、呼吸机和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430851A (zh) * 2015-04-10 2017-12-01 株式会社东芝 发言提示装置、发言提示方法以及程序
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
TW201913476A (zh) * 2017-09-11 2019-04-01 慧利眾科技股份有限公司 智能語音互動式電子備忘錄及其操作方法
US20200273450A1 (en) * 2019-02-21 2020-08-27 Blue Planet Training, Inc. System and A Method for Speech Analysis

Also Published As

Publication number Publication date
TW202230199A (zh) 2022-08-01
US20220093103A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
CN108228132B (zh) 语音启用装置及其中执行的方法
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US20160027442A1 (en) Summarization of audio data
US20210369042A1 (en) Natural conversation storytelling system
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US11107465B2 (en) Natural conversation storytelling system
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
WO2017038794A1 (ja) 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP3437617B2 (ja) 時系列データ記録再生装置
US20110113357A1 (en) Manipulating results of a media archive search
TW202215416A (zh) 通過應用程式與網路的聯動寫入與語音檔有關的備忘錄的方法、系統及電腦可讀記錄介質
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
US11783819B2 (en) Automated context-specific speech-to-text transcriptions
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
KR20220049743A (ko) 인공지능 디바이스와 연동하여 음성 기록을 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN108255917A (zh) 图像管理方法、设备及电子设备
KR102677498B1 (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR20210050410A (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP7166373B2 (ja) 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム