TW202115713A - 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 - Google Patents

資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 Download PDF

Info

Publication number
TW202115713A
TW202115713A TW109101504A TW109101504A TW202115713A TW 202115713 A TW202115713 A TW 202115713A TW 109101504 A TW109101504 A TW 109101504A TW 109101504 A TW109101504 A TW 109101504A TW 202115713 A TW202115713 A TW 202115713A
Authority
TW
Taiwan
Prior art keywords
voice
text
mentioned
unit
explanatory
Prior art date
Application number
TW109101504A
Other languages
English (en)
Inventor
斉藤辰彦
相川勇之
Original Assignee
日商三菱電機股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商三菱電機股份有限公司 filed Critical 日商三菱電機股份有限公司
Publication of TW202115713A publication Critical patent/TW202115713A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

包括:聲音辨識部(103),根據包含發話聲音的聲音資料,辨識發話聲音;說明部分抽出部(104),根據辨識的聲音,抽出包含文字或文字列以及說明其文字或文字列寫法的說明表達的部分之說明部分;以及固有資訊確定部(106),確定抽出的說明表達所說明的文字或文字列為固有資訊。

Description

資訊處理裝置、記錄媒體、程式產品以及資訊處理方法
本發明係有關於資訊處理裝置、記錄媒體、程式產品以及資訊處理方法。
電話中心系統,必須通過客戶的使用者與接線員間的應答,取得各種資訊。使用者的姓名、住址或電話號碼等,是其一例。以往,接線員一邊交叉復述一邊確認這樣的資訊,將確認的資訊手輸入電話中心系統,非常耗費成本。
相對於此,例如專利文獻1中記載,利用聲音辨識,藉由進行自動核對本人或其它確認項目,支援接線員的確認操作之接線員本人確認支援系統。 [先行技術文獻] [專利文獻]
[專利文獻1] 日本專利公開第2014-197140號公報
[發明所欲解決的課題]
但是,習知的接線員本人確認支援系統,聲音辨識使用者及接線員的發話,根據顯示辨識聲音的文字抽出關鍵字,但因為只憑聲音很難明確指定姓名、住址等的漢字或拼寫等文字或文字列,根據實際的通話,很難只憑聲音抽出需要的資訊。
於是,本發明的目的在於根據包含文字或文字列說明的聲音,可以自動明確指定所希望的資訊。 [用以解決課題的手段]
根據本發明的一形態的資訊處理裝置,其特徵在於包括:聲音辨識部,根據包含發話聲音的聲音資料,辨識上述發話的聲音;說明部分抽出部,根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分;以及固有資訊確定部,確定上述說明表達所說明的上述文字或上述文字列為固有資訊。
根據本發明的一形態的記錄媒體,記錄用以使電腦實行以下步驟的程式:根據包含發話聲音的聲音資料,辨識上述發話的聲音之步驟;根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分之步驟;以及確定上述說明表達所說明的上述文字或上述文字列為固有資訊之步驟。
根據本發明的一形態的程式產品,內建用以使電腦實行以下步驟的程式:根據包含發話聲音的聲音資料,辨識上述發話的聲音之步驟;根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分之步驟;以及確定上述說明表達所說明的上述文字或上述文字列為固有資訊之步驟。
根據本發明的一形態的資訊處理方法,其特徵在於:根據包含發話聲音的聲音資料,辨識上述發話的聲音;根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分;以及確定上述說明表達所說明的上述文字或上述文字列為固有資訊。 [發明效果]
本發明的一或複數形態,根據包含文字或文字列說明的聲音,可以自動明確指定所希望的資訊。
第1實施形態 第1圖係概略顯示第1實施形態的資訊處理裝置的通話資料資訊抽出裝置100的構成方塊圖。 通話資料資訊抽出裝置100,包括聲音輸入部101、聲音取得部102、聲音辨識部103、說明部分抽出部104、說明資料庫(以下,稱說明DB)105以及固有資訊確定部106。通話資料資訊抽出裝置100,利用以上的構成,進行發話的聲音辨識,根據說明DB105,確定固有資訊。
聲音輸入部101,接受表示抽出對象的客戶輸入聲音之聲音信號輸入。輸入的聲音信號,提供給聲音取得部102。以下稱客戶為使用者。
聲音取得部102,將聲音輸入部101提供的聲音信號,例如藉由以PCM(脈衝碼調變)作A/D(類比/數位)轉換,取得聲音資料。取得的聲音資料,提供給聲音辨識部103。
聲音類比信號所示的輸入聲音,必須先形成1人份的說話者聲音。例如,在電話中心的通話時,必須先以多頻分離使用者與接線員的聲音。或者,在複數說話者的聲音混合時,必須事前利用聲音分離技術等,先以單頻分離成每一說話者的聲音。
在此,聲音輸入部101,接受表示使用者的輸入聲的聲音信號輸入,但第1實施形態不限定於這樣的例。例如,聲音取得部102中,利用眾所周知的技術,根據輸入的聲音信號,明確指定每一說話者的輸入聲音,產生表示使用者的輸入聲音之聲音資料也可以。
聲音辨識部103,從聲音取得部102數位化的聲音資料中,檢出符合發話聲音的聲音區間,透過進行其聲音區間的聲音辨識處理,辨識發話的聲音,產生表示對應其發話聲音的發話內容之文字資料的聲音文字資料。產生的聲音文字資料,提供給說明部分抽出部104。
說明部分抽出部104,從聲音辨識部103提供的聲音文字資料表示之使用者的發話內容中抽出包含文字或文字列以及說明其文字或文字列寫法的說明表達的部分之說明部分。於是,說明部分抽出部104,產生表示抽出的說明部分之說明部分文字資料。產生的說明部分文字資料,提供給固有資訊確定部106。
在此所謂的說明部分,只憑聲音很難確定姓名、住址等的漢字或拼寫等文字或文字列時,表示敘述用以確定漢字或拼寫等文字或文字列的補足資訊的部分。
例如,說明部分抽出部104,當聲音文字資料表示的發話內容,例如,符合第2或3圖所示的說明抽出規則資訊表示的說明抽出規則時,抽出其規則表示的一部分作為說明部分也可以。 在此,說明抽出規則,係在辨識的聲音中,為了說明文字或文字列寫法使用的表達規則。
例如,第2圖所示的說明抽出規則資訊的第一行中,>ENTITY(存在體)>是收納所謂>DESCRIPTION(說明)>的>ENTITY(存在體)>的說明抽出規則。 發話內容是「福島是都道府縣的福島」時,「福島」成為>ENTITY>,「都道府縣」成為>DESCRIPTION>。在此,與最初的「>ENTITY>」一致的部分,成為說明的文字或文字列,與「>DESCRITION>的>ENTITY>」一致的部分,成為說明表達。
又,說明部分抽出部104,利用第2或3圖所示的說明抽出規則資訊抽出說明部分,但第1實施形態不限於這樣的例。例如,說明部分抽出部104進行機器學習,抽出說明部分也可以。例如,說明部分抽出部104,利用像SVM(支援向量機)的分類器,分類文或詞組單位中是否包含說明部分也可以。
又,例如,聲音取得部102內,也輸入表示接線員的輸入聲音的聲音信號,產生聲音資料,有關根據其聲音資料辨識的聲音文字資料,由於也提供給說明部分抽出部104,說明部分抽出部104,接線員說出「哪個漢字?」等預定發話內容後,抽出使用者發話的內容作為說明部分也可以。
說明DB105,係說明表達資訊記憶部,只憑發音很難確定漢字或拼寫等文字或文字列時,記憶表示所述的說明表達之說明表達資訊作為用以確定這些的補足資訊。說明表達資訊,將說明表達與根據其說明表達說明寫法的文字或文字列加以聯結。
在此,第4〜8圖,係顯示說明DB105內記憶的說明表達資訊例的概略圖。第4圖,係固有資訊是單個漢字的名字時說明表達資訊的例。如第4圖所示,對於說明表達,聯結一個漢字。
第5圖,係固有資訊是複數漢字的名字時說明表達資訊的例。如第5圖所示,對於說明表達,聯結複數漢字。
第6圖,係固有資訊是中文名字時的說明表達資訊的例。如第6圖所示,對於中文的說明表達,聯結1個漢字構成的中文名字。 第7圖,係固有資訊是英文名字時的說明表達資訊的例。如第7圖所示,對於英文的說明表達,聯結英文名字。
第8圖係固有資訊是住址的例。如第8圖所示,對於說明表達,聯結地名。
固有資訊確定部106,確定說明表達說明的文字或文字列為固有資訊。例如,固有資訊確定部106,藉由參照說明DB105內記憶的說明表達資訊,確定說明表達說明的文字或文字列。
具體而言,固有資訊確定部106,判斷說明部分抽出部104提供的說明部分文字資料所示的說明部分中,是否包含說明DB105內記憶的說明表達資訊所示的說明表達。於是,固有資訊確定部106,當說明部分內包含說明表達時,明確指定聯結其說明表達的文字或文字列。於是,固有資訊確定部106,確定明確指定的文字或文字列為固有資訊。固有資訊確定部106,輸出表示確定的固有資訊的固有資訊資料至另外的裝置(未圖示)或後段的處理部(未圖示)也可以。
在此,固有資訊確定部106,根據文字列的完全一致或部分一致,進行說明部分中是否包含說明表達的判斷也可以,又,例如,以眾所周知的技術計算說明部分中包含的表達與說明表達間的類似度,根據其類似度是否在臨界值以上進行也可以。在此情況下,類似度在臨界值以上時,判斷說明部分中包含說明表達。
第9圖係第1實施形態的通話資料資訊抽出裝置100的硬體構成圖。如第9圖所示,通話資料資訊抽出裝置100,可以以包括記憶體11、處理器12、聲音界面(以下,稱聲音I/F)13、文字輸入界面(以下,稱文字輸入I/F)14、網路界面(以下,稱網路I/F)15的電腦10實現。
記憶體11,記憶聲音取得部102、聲音辨識部103、說明部分抽出部104、固有資訊確定部106的程式以及其中間資料。 又,記憶體11,由於記憶說明表達資訊,作用為說明DB105。
處理器12,從記憶體11讀出程式,藉由實施其程式,作用為聲音取得部102、聲音辨識部103、說明部分抽出部104以及固有資訊確定部106。處理器12,例如是實行程式處理的CPU(中央處理單元)或DSP(數位信號處理器)等的電路。
聲音I/F13,係接受聲音信號輸入的界面。又,聲音I/F13,係輸出表示應答聲音的信號之應答聲音信號的界面。
文字輸入I/F14,係接線員實行文字資料輸入的界面。
網路I/F15,係實行與網路(未圖示)通訊的界面。
又,第9圖中,需要的程式或資料,記憶在電腦10內部的記憶體11內,但例如連接至USB(通用串列匯流排)記憶體等的外部記憶體,電腦10讀入需要的程式或資料等也可以。又,經由網路I/F15,電腦10從連接至網路的其它裝置讀入需要的程式或資料也可以。 換言之,需要的程式,由記錄媒體提供也可以,作為程式產品提供也可以。
其次說明關於動作。 第10圖,係顯示第1實施形態的通話資料資訊抽出裝置100的動作流程圖。 首先,聲音輸入部101,接受表示使用者發話聲音的聲音資料的輸入(S10)。
其次,聲音取得部102,根據聲音信號,取得使用者發話的聲音作為聲音資料(S11)。
其次,聲音辨識部103,進行辨識聲音資料所示的聲音之聲音辨識處理,產生表示辨識聲音的發話內容之聲音文字資料(S12)。 聲音辨識處理,不限定於模型辨識,利用眾所周知的如何聲音辨識處理也可以。眾所周知的聲音辨識處理,例如,記載在古井貞熙著「聲音資訊處理」森北出版1998年第79-132頁等中。
其次,說明部分抽出部104,根據聲音文字資料所示的發話內容,進行抽出說明部分的處理(S13),判斷使用者的發話內容中是否有說明部分(S14)。有說明部分時(S14中Yes),說明部分抽出部104,提供表示抽出的說明部分的說明部分文字資料給固有資訊確定部106,處理前進至步驟S15。無說明部分時(S14中No),處理回到步驟S13。
步驟S15中,固有資訊確定部106,藉由參照說明DB105內記憶的說明表達資訊,根據說明部分文字資料所示的說明部分確定固有資訊。
如上述,第1實施形態的通話資料資訊抽出裝置100,從使用者聲音抽出發話部分,參照說明表達資訊確定固有資訊。藉此,根據冗長的輸入聲音可以自動確定固有資訊。
第2實施形態 第11圖係概略顯示第2實施形態的資訊處理裝置的通話資料資訊抽出裝置200的構成方塊圖。 通話資料資訊抽出裝置200,包括聲音輸入部101、聲音取得部102、聲音辨識部103、說明部分抽出部204、說明DB105、固有資訊確定部106、輸入接受部207、發票資料產生部208、發票資料記憶部209以及資料庫更新部(以下,稱DB更新部)210。
第2實施形態的通話資料資訊抽出裝置200的聲音輸入部101、聲音取得部102、聲音辨識部103、說明DB105以及固有資訊確定部106,與第1實施形態的通話資料資訊抽出裝置100的聲音輸入部101、聲音取得部102、聲音辨識部103、說明DB105以及固有資訊確定部106相同。
說明部分抽出部204,與第1實施形態的說明部分抽出部104相同,從聲音辨識部103提供的聲音文字資料所示之使用者的發話內容抽出說明部分,產生表示抽出的說明部分的說明部分文字資料。 第2實施形態中,說明部分抽出部204,將產生的說明部分文字資料提供給固有資訊確定部106的同時,記憶在發票資料記憶部209內。
輸入接受部207,接受來自接線員的文字輸入。例如,輸入接受部207,接受說明部分抽出部104抽出的說明部分內包含的說明表達中說明寫法的文字或文字列的輸入。
發票資料產生部208,經由輸入接受部207,對應發票資料記憶部209內記憶的說明部分文字資料所示的說明部分內包含的說明表達,從接線員接受對於其說明表達為正確答案的漢字或拼寫等文字或文字列的輸入。於是,發票資料產生部208,產生表示輸入的文字或文字列以及對應的說明表達之發票資料。於是,發票資料產生部208,將產生的發票資料記憶在發票資料記憶部209內。 發票資料記憶部209,記憶上述發票資料。
DB更新部210,係發票資料記憶部209內記憶發票資料時,根據記憶的發票資料,更新說明DB105內記憶的說明表達資訊的更新部。例如,DB更新部210,追加發票資料所示的說明表達及文字或文字列至說明表達資訊。
以上記載的輸入接受部207,可以利用第9圖所示的文字輸入I/F14實現。 又,發票資料產生部208及DB更新部210,藉由處理器12實行對應的程式,可以實現。此對應的程式,記憶在記憶體11內。 發票資料記憶部209,可以以記憶體11實現。
其次說明關於動作。 又,第2實施形態中,關於根據輸入的聲音信號確定固有資訊的動作,與第1實施形態相同。 第12圖係顯示第2實施形態的通話資料資訊抽出裝置200中,更新說明DB105內記憶的說明表達資訊的動作流程圖。 首先,聲音輸入部101,接受表示使用者發話的聲音之聲音信號輸入(S20)。
其次,聲音取得部102,從聲音信號,取得使用者發話的聲音作為聲音資料(S21)。
其次,聲音辨識部103,進行辨識聲音資料所示的聲音之聲音辨識處理,產生表示辨識的聲音的發話內容之聲音文字資料(S22)。
其次,說明部分抽出部104,從聲音文字資料所示的發話內容,抽出說明部分,產生表示抽出的說明部分之說明部分文字資料,將產生的說明部分文字資料,記憶在發票資料記憶部209內(S23)。
其次,發票資料產生部208,經由輸入接受部207,對應發票資料記憶部209內記憶的說明部分文字資料所示的說明部分內包含的說明表達,從接線員接受對於其說明表達中說明寫法的文字或文字列的輸入,產生表示輸入的文字或文字列以及對應的說明表達之發票資料(S24)。於是,發票資料產生部208,將產生的發票資料記憶在發票資料記憶部209內。
其次,DB更新部210,當發票資料記憶部209內記憶發票資料時,根據記憶的發票資料,更新說明DB105內記憶的說明表達資訊(S25)。
如上述,根據第2實施形態,通話資料資訊抽出裝置200,可以自動更新DB105內記憶的說明表達資訊。 在此,發票資料中,接線員填上姓名欄、住址欄等使用者資訊。即,藉由連結登錄說明姓名的發話與填入姓名欄的姓名,接著沒有相同的說明發話時,可以推斷此正確答案資料是發話資料。
說明DB105內記憶的說明表達資訊,使用實際通話更新之外,例如,也可以根據漢字更新說明表達資訊。即,也考慮漢字的部首、形狀,但DB更新部210,也可以根據漢字構造自動作成說明表達。
第3實施形態 第13圖係概略顯示第3實施形態的資訊處理裝置的通話資料資訊抽出裝置300的構成方塊圖。 通話資料資訊抽出裝置300,包括聲音輸入部101、聲音取得部102、聲音辨識部303、說明部分抽出部204、說明DB105、固有資訊確定部306、輸入接受部207、發票資料產生部208、發票資料記憶部209、DB更新部210以及聲音辨識結果修正部311。
第3實施形態的通話資料資訊抽出裝置300的聲音輸入部101、聲音取得部102及說明DB105與第1實施形態的通話資料資訊抽出裝置100的聲音輸入部101、聲音取得部102及說明DB105相同。 又,第3實施形態的通話資料資訊抽出裝置300的說明部分抽出部204、輸入接受部207、發票資料產生部208、發票資料記憶部209及DB更新部210與第2實施形態的通話資料資訊抽出裝置200的說明部分抽出部204、輸入接受部207、發票資料產生部208、發票資料記憶部209及DB更新部210相同。
聲音辨識部303,與第1實施形態的聲音辨識部103同樣產生聲音文字資料。 第3實施形態中,聲音辨識部303,將產生的聲音文字資料,提供給說明部分抽出部204及聲音辨識結果修正部311。
固有資訊確定部306,與第1實施形態的固有資訊確定部106相同,確定固有資訊。 第3實施形態中,固有資訊確定部306,產生表示確定的固有資訊以及確定固有資訊之際使用的說明部分之修正用資料,提供其修正用資料給聲音辨識結果修正部311。
聲音辨識結果修正部311,使用固有資訊確定部306提供的修正用資料,修正聲音辨識部303提供的聲音文字資料。例如,聲音辨識結果修正部311,在聲音文字資料中,藉由以其固有資訊替換對應固有資訊確定部306確定的固有資訊之部分,修正聲音文字資料。
具體而言,聲音辨識結果修正部311,從聲音文字資料檢索修正用資料所示的說明部分,將對應其說明部分內包含的文字或文字列部分的文字,判斷為對應固有資訊的部分,以修正用資料所示的固有資訊替換聲音文字資料內對應固有資訊的部分。 例如,聲音辨識結果修正部311,根據第2或3圖所示的說明抽出規則,將>ENTITY>或>NAME>部分的文字,判斷為對應固有資訊的部分。於是,聲音辨識結果修正部311,以固有資訊替換聲音文字資料內與對應其固有資訊部分的文字一致的部分。
以上記載的聲音辨識結果修正部311,藉由處理器12實行對應的程式,可以實現。此對應的程式,記憶在記憶體11內。
其次說明關於動作。 又,第3實施形態中,關於更新說明DB105內記憶的說明表達資訊的動作,與第2實施形態相同。 第14圖係顯示第3實施形態的通話資料資訊抽出裝置300中,根據輸入的聲音信號確定固有資訊的動作流程圖。
第14圖中,關於與第10圖所示的流程圖步驟的處理相同的處理,由於附上與第10圖相同的符號,省略詳細的說明。
第14圖的步驟S10〜S15的處理,與第10圖的步驟S10〜S15的處理相同。 但是,第14圖的步驟S12中,聲音辨識部303提供產生的聲音文字資料給說明部分抽出部204及聲音辨識結果修正部311。 又,第14圖的步驟S15中,固有資訊確定部306,產生表示確定的固有資訊及確定固有資訊之際使用的說明部分之修正用資料,提供其修正用資料給聲音辨識結果修正部311。於是,第14圖的步驟S15的處理後,處理前進至步驟S36。
步驟S36中,聲音辨識結果修正部311,利用固有資訊確定部306提供的修正用資料,修正聲音辨識部303提供的聲音文字資料。 又,聲音辨識結果修正部311,輸出修正的聲音文字資料至另外的裝置(未圖示)或後段的處理部(未圖示)也可以。
如上述,根據第3實施形態,依照確定的固有資訊,修正聲音辨識結果。
第4實施形態 第15圖係概略顯示第4實施形態的資訊處理裝置的通話資料資訊抽出裝置400的構成方塊圖。 通話資料資訊抽出裝置400,包括聲音輸入部101、聲音取得部102、聲音辨識部403、說明部分抽出部204、說明DB405、固有資訊確定部306、輸入接受部207、發票資料產生部408、發票資料記憶部409、DB更新部410以及聲音辨識結果修正部311、應答產生部412以及應答輸出部413。
第4實施形態的通話資料資訊抽出裝置400的聲音輸入部101及聲音取得部102與第1實施形態的通話資料資訊抽出裝置100的聲音輸入部101及聲音取得部102相同。 又,第4實施形態的通話資料資訊抽出裝置400的說明部分抽出部204及輸入接受部207與第2實施形態的通話資料資訊抽出裝置200的說明部分抽出部204及輸入接受部207相同。 還有,第4實施形態的通話資料資訊抽出裝置400的固有資訊確定部306及聲音辨識結果修正部311與第3實施形態的通話資料資訊抽出裝置300的固有資訊確定部306及聲音辨識結果修正部311相同。
聲音辨識部403,與第1實施形態的聲音辨識部103同樣產生聲音文字資料。 第4實施形態中,聲音辨識部403,將產生的聲音文字資料,提供給說明部分抽出部204、聲音辨識結果修正部311及應答產生部412。
說明DB405,記憶表示說明表達、根據其說明表達說明寫法的文字或文字列以及其文字或文字列的讀法之說明表達資訊。
發票資料產生部408,經由輸入接受部207,對應發票資料記憶部409內記憶的說明部分文字資料所示的說明部分內包含的說明表達,從接線員接受對於其說明表達中說明寫法的文字或文字列以及其文字或文字列讀法的輸入,產生表示對應的說明表達、輸入的文字或文字列以及表示其讀法的發票資料。於是,發票資料產生部408,將產生的發票資料記憶在發票資料記憶部409內。
DB更新部410,當發票資料記憶部409內記憶發票資料時,根據記憶的發票資料,更新說明DB405內記憶的說明表達資訊。例如,DB更新部410,追加發票資料所示的說明表達、文字或文字列及其讀法至說明表達資訊。
應答產生部412,明確指定聲音辨識部403辨識的聲音內包含的文字或文字列,藉由參照說明DB405內記憶的說明表達資訊,根據說明明確指定的文字或明確指定的文字列之說明表達,產生表示詢問明確指定的文字或明確指定的文字列寫法之疑問句的應答資料。
具體而言,應答產生部412,聲音文字資料所示的發話內容中包含名字、住址等明確指定的表達時,藉由說明DB405內記憶的說明表達資訊,取得對應其明確指定的表達之說明表達。 於是,應答產生部412,產生使用取得的說明表達之疑問句,產生表示其疑問句的應答資料。在此,應答資料,形成以聲音表示其疑問句的資料,但影像或文字所示的資料也可以。將產生的應答資料,提供給應答輸出部413。
應答輸出部413,輸出應答產生部412提供的應答資料。 例如,應答輸出部413,在應答資料是聲音資料的情況下,根據其聲音資料輸出疑問句的聲音。 又,應答輸出部413,在應答資料是影像資料或文字資料的情況下,顯示影像或文字也可以。
根據第4實施形態,聲音辨識的內容中,例如包含名字時,可以進行「斉藤,是較簡單的斉藤吧?」或者「中村俊輔是足球選手的中村吧?」等確認其名字的漢字或拼法的應答。
以上記載的應答產生部412,藉由處理器12實行應答的程式,可以實現。此對應的程式,記憶在記憶體11內。 應答輸出部413,可以以聲音I/F13實現。又,應答輸出部413,雖未圖示,但也可以是用以顯示影像或文字的顯示I/F。
以上記載的第1〜4實施形態中,以聲音輸入部101接受聲音信號的輸入,以聲音取得部102轉換聲音信號為數位聲音資料,但第1〜4實施形態不限定於這樣的例。例如,通話資料資訊抽出裝置100〜400,經由以第9圖所示的網路I/F15實現的通訊部(未圖示),取得數位的聲音資料,提供其聲音資料給聲音辨識部103也可以。又,通話資料資訊抽出裝置100〜400,事前在以第9圖所示的記憶體11實現的記憶體(未圖示),記憶數位的聲音資料,提供其聲音資料給聲音辨識部103也可以。
10:電腦 11:記憶體 12:處理器 13:聲音界面(聲音I/F) 14:文字輸入界面(文字輸入I/F) 15:網路界面(網路I/F) 100:通話資料資訊抽出裝置 101:聲音輸入部 102:聲音取得部 103:聲音辨識部 104:說明部分抽出部 105:說明資料庫(說明DB) 106:固有資訊確定部 200:通話資料資訊抽出裝置 204:說明部分抽出部 207:輸入接受部 208:發票資料產生部 209:發票資料記憶部 210:資料庫更新部(DB更新部) 300:通話資料資訊抽出裝置 303:聲音辨識部 306:固有資訊確定部 311:聲音辨識結果修正部 400:通話資料資訊抽出裝置 403:聲音辨識部 405:說明DB(說明資料庫) 408:發票資料產生部 409:發票資料記憶部 410:DB更新部 412:應答產生部 413:應答輸出部
[第1圖] 係概略顯示第1實施形態的通話資料資訊抽出裝置的構成方塊圖; [第2圖] 係顯示說明抽出規則的第1例的概略圖; [第3圖] 係顯示說明抽出規則的第2例的概略圖; [第4圖] 係顯示說明表達資訊的第1例的概略圖; [第5圖] 係顯示說明表達資訊的第2例的概略圖; [第6圖] 係顯示說明表達資訊的第3例的概略圖; [第7圖] 係顯示說明表達資訊的第4例的概略圖; [第8圖] 係顯示說明表達資訊的第5例的概略圖; [第9圖] 係第1實施形態的通話資料資訊抽出裝置的硬體構成圖; [第10圖] 係顯示第1實施形態的通話資料資訊抽出裝置的動作流程圖; [第11圖] 係概略顯示第2實施形態的通話資料資訊抽出裝置構成的方塊圖; [第12圖] 係顯示第2實施形態的通話資料資訊抽出裝置中,更新說明DB內記憶的說明表達資訊的動作流程圖; [第13圖] 係概略顯示第3實施形態的通話資料資訊抽出裝置的構成方塊圖; [第14圖] 係顯示第3實施形態的通話資料資訊抽出裝置中,根據輸入的聲音信號確定固有資訊的動作流程圖;以及 [第15圖] 係概略顯示第4實施形態的通話資料資訊抽出裝置的構成方塊圖。
100:通話資料資訊抽出裝置
101:聲音輸入部
102:聲音取得部
103:聲音辨識部
104:說明部分抽出部
105:說明資料庫(說明DB)
106:固有資訊確定部

Claims (11)

  1. 一種資訊處理裝置,其特徵在於包括: 聲音辨識部,根據包含發話聲音的聲音資料,辨識上述發話的聲音; 說明部分抽出部,根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分;以及 固有資訊確定部,確定上述說明表達所說明的上述文字或上述文字列為固有資訊。
  2. 如申請專利範圍第1項所述的資訊處理裝置,其特徵在於: 其中,上述說明部分抽出部,在上述辨識的聲音中,抽出與為了說明上述文字或上述文字列寫法使用的表達規則的說明抽出規則一致的部分,作為上述說明部分。
  3. 如申請專利範圍第1或2項所述的資訊處理裝置,其特徵在於: 更包括: 說明表達資訊記憶部,記憶將上述說明表達以及上述說明表達說明的上述文字或上述文字列加以聯結的說明表達資訊; 其中,上述固有資訊確定部,藉由參照上述說明表達資訊,確定上述說明表達說明的上述文字或上述文字列。
  4. 如申請專利範圍第3項所述的資訊處理裝置,其特徵在於更包括: 輸入接受部,接受上述說明部分內包含的上述說明表達說明的上述文字或上述文字列的輸入;以及 更新部,將上述輸入接受部內輸入的上述文字或上述文字列以及說明上述輸入接受部內輸入的上述文字或上述文字列的寫法之上述說明表達加以聯結,記憶在上述說明表達資訊記憶部中作為上述說明表達資訊的一部分。
  5. 如申請專利範圍第1、2及4項中任一項所述的資訊處理裝置,其特徵在於: 其中,上述聲音辨識部,產生表示上述辨識聲音的文字資料之聲音文字資料; 上述資訊處理裝置更包括: 聲音辨識結果修正部,在上述聲音文字資料中,藉由以上述固有資訊確定部確定的上述固有資訊替換對應上述固有資訊確定部確定的上述固有資訊之部分,修正上述聲音文字資料。
  6. 如申請專利範圍第3項所述的資訊處理裝置,其特徵在於: 其中,上述聲音辨識部,產生表示上述辨識聲音的文字資料之聲音文字資料; 上述資訊處理裝置更包括: 聲音辨識結果修正部,在上述聲音文字資料中,藉由以上述固有資訊確定部確定的上述固有資訊替換對應上述固有資訊確定部確定的上述固有資訊之部分,修正上述聲音文字資料。
  7. 如申請專利範圍第3項所述的資訊處理裝置,其特徵在於更包括: 應答產生部,明確指定上述辨識聲音內包含的上述文字或上述文字列,藉由參照上述說明表達資訊,根據說明上述明確指定的文字或明確指定的文字列之上述說明表達,產生表示詢問上述明確指定的文字或上述明確指定的文字列寫法之疑問句的應答資料。
  8. 如申請專利範圍第4項所述的資訊處理裝置,其特徵在於更包括: 應答產生部,明確指定上述辨識聲音內包含的上述文字或上述文字列,藉由參照上述說明表達資訊,根據說明上述明確指定的文字或明確指定的文字列之上述說明表達,產生表示詢問上述明確指定的文字或上述明確指定的文字列寫法之疑問句的應答資料。
  9. 一種可電腦讀取的記錄媒體,記錄用以使電腦實行下列步驟的程式: 根據包含發話聲音的聲音資料,辨識上述發話的聲音之步驟; 根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分之步驟;以及 確定上述說明表達所說明的上述文字或上述文字列為固有資訊之步驟。
  10. 一種程式產品,內建用以使電腦實行下列步驟的程式: 根據包含發話聲音的聲音資料,辨識上述發話的聲音之步驟; 根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分之步驟;以及 確定上述說明表達所說明的上述文字或上述文字列為固有資訊之步驟。
  11. 一種資訊處理方法,其特徵在於: 根據包含發話聲音的聲音資料,辨識上述發話的聲音; 根據上述辨識的聲音,抽出包含文字或文字列以及說明上述文字或上述文字列寫法的說明表達的部分之說明部分;以及 確定上述說明表達所說明的上述文字或上述文字列為固有資訊。
TW109101504A 2019-10-02 2020-01-16 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 TW202115713A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/JP2019/038878 WO2021064886A1 (ja) 2019-10-02 2019-10-02 情報処理装置、プログラム及び情報処理方法
WOPCT/JP2019/038878 2019-10-02

Publications (1)

Publication Number Publication Date
TW202115713A true TW202115713A (zh) 2021-04-16

Family

ID=75337090

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109101504A TW202115713A (zh) 2019-10-02 2020-01-16 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法

Country Status (3)

Country Link
JP (1) JP6991409B2 (zh)
TW (1) TW202115713A (zh)
WO (1) WO2021064886A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211430A (ja) 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
JP6991409B2 (ja) 2022-01-12
WO2021064886A1 (ja) 2021-04-08
JPWO2021064886A1 (zh) 2021-04-08

Similar Documents

Publication Publication Date Title
CN106898340B (zh) 一种歌曲的合成方法及终端
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US8719027B2 (en) Name synthesis
US20060229876A1 (en) Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JPH10507536A (ja) 言語認識
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
US20020049590A1 (en) Speech data recording apparatus and method for speech recognition learning
CN109300468B (zh) 一种语音标注方法及装置
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
WO2018135303A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP5296029B2 (ja) 文章提示装置、文章提示方法及びプログラム
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2003271182A (ja) 音響モデル作成装置及び音響モデル作成方法
TW202115713A (zh) 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
US10546580B2 (en) Systems and methods for determining correct pronunciation of dictated words
JP2003162524A (ja) 言語処理装置
TWI358649B (en) System and method for speech translation between c
JP3029403B2 (ja) 文章データ音声変換システム
KR20050041749A (ko) 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템
JP2002116789A (ja) データ変換システム、データ認識システム、データ加工システム、およびプログラムを記憶した記憶媒体