WO2012043168A1 - 音声変換装置、携帯電話端末、音声変換方法および記録媒体 - Google Patents

音声変換装置、携帯電話端末、音声変換方法および記録媒体 Download PDF

Info

Publication number
WO2012043168A1
WO2012043168A1 PCT/JP2011/070248 JP2011070248W WO2012043168A1 WO 2012043168 A1 WO2012043168 A1 WO 2012043168A1 JP 2011070248 W JP2011070248 W JP 2011070248W WO 2012043168 A1 WO2012043168 A1 WO 2012043168A1
Authority
WO
WIPO (PCT)
Prior art keywords
correction
character string
phrase
voice
word
Prior art date
Application number
PCT/JP2011/070248
Other languages
English (en)
French (fr)
Inventor
俊彦 藤林
Original Assignee
Necカシオモバイルコミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necカシオモバイルコミュニケーションズ株式会社 filed Critical Necカシオモバイルコミュニケーションズ株式会社
Priority to JP2012536306A priority Critical patent/JP5874640B2/ja
Priority to US13/818,889 priority patent/US20130179166A1/en
Priority to CN201180047298.6A priority patent/CN103140889B/zh
Publication of WO2012043168A1 publication Critical patent/WO2012043168A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Definitions

  • the present invention relates to a voice conversion device, a mobile phone terminal, a voice conversion method, and a recording medium.
  • Patent Document 1 when an error in a speech recognition result is corrected by a correction utterance by a user, the contents of the correction, specifically, a speech recognition result before correction and a speech recognition result after correction are stored. A voice recognition device is described.
  • An object of the present invention is to provide a voice conversion device, a mobile phone terminal, a voice conversion method, and a recording medium that can solve the above-described problems.
  • the voice conversion device includes a voice recognition unit that converts a voice into a character string each time a voice is received, a display unit that displays the character string, and a part of the character string displayed on the display unit.
  • a correction unit that corrects the word according to the correction instruction
  • a storage unit that stores correction contents of the word executed by the correction unit
  • the voice recognition unit When the speech is converted into a character string, if the content of correction for the phrase in the character string is stored in the storage means, a selection candidate reflecting the content of the correction is generated, and the selection candidate Control means for displaying on the display means as the speech recognition result candidates.
  • the speech conversion device is a speech conversion device capable of communicating with a speech recognition device that converts the speech data into a character string each time the speech data is received and transmits the character string to the transmission source of the speech data.
  • Output means for converting the input speech into speech data; and communication means for transmitting the speech data to the speech recognition device and then receiving a character string that is a conversion result of the speech data from the speech recognition device;
  • a display unit that displays the character string, and a correction unit that corrects a word or phrase in the character string in accordance with the correction instruction when receiving a correction instruction to correct a phrase that is a part of the character string displayed on the display unit.
  • And storage means for storing the contents of correction of the phrase executed by the correction means, and when the communication means receives a character string from the speech recognition apparatus, If the contents of all the corrections are stored in the storage means, a selection candidate reflecting the contents of the correction is generated, and the selection candidates are displayed on the display means as the speech recognition result candidates. Control means.
  • the speech conversion method of the present invention is a speech conversion method performed by a speech conversion device, and converts speech into a character string each time a speech is received, displays the character string on a display means, and displays the text on the display means.
  • a correction instruction for correcting a phrase that is a part of the character string is received, the phrase is corrected according to the correction instruction, and the content of the correction for the phrase that has been corrected is stored in a storage unit.
  • the speech is converted into a character string, if the content of correction for the phrase in the character string is stored in the storage means, a selection candidate reflecting the content of the correction is generated, Selection candidates are displayed on the display means as speech recognition result candidates.
  • the voice conversion method converts the voice data into a character string each time voice data is received, and the voice performed by the voice converter capable of communicating with the voice recognition device that transmits the character string to the transmission source of the voice data.
  • a conversion method that converts input speech into speech data, transmits the speech data to the speech recognition device, and then receives a character string that is a conversion result of the speech data from the speech recognition device, The character string is displayed on the display means, and upon receiving a correction instruction for correcting a word that is a part of the character string displayed on the display means, the word in the character string is corrected according to the correction instruction, and the correction Is stored in the storage means, and when the character string is received from the speech recognition apparatus, the correction contents of the phrase in the character string are stored in the storage means. It is in the case which produces a selected candidate that reflects the contents of the correction, the selection candidate as a recognition result candidates of the voice is displayed on the display means.
  • the recording medium of the present invention includes a voice recognition procedure for converting a voice into a character string every time a voice is received by a computer, a display procedure for displaying the character string on a display means, and a character displayed on the display means.
  • a correction instruction for correcting a word that is part of a column is received, a correction procedure for correcting the word in accordance with the correction instruction, and a storage that stores in the storage means the contents of correction for the word that has been corrected If the contents of the correction for the words and phrases in the character string are stored in the storage means when the voice is converted into the character string in the procedure and the voice recognition procedure, the contents of the correction are reflected.
  • a computer-readable program storing a program for executing the control procedure for generating the selected candidate and displaying the selected candidate on the display means as the speech recognition result candidate.
  • the recording medium of the present invention converts audio data into a character string each time the audio data is received, and inputs the audio input to a computer that can communicate with a voice recognition device that transmits the character string to the transmission source of the audio data.
  • a storage procedure for storing the correction contents of the corrected phrase in the storage means, and when a character string is received from the voice recognition device, the phrase in the character string A control procedure for generating a selection candidate reflecting the correction content and displaying the selection candidate as the speech recognition result candidate on the display means when the correction content is stored in the storage means
  • FIG. 6 is a diagram for explaining the operation of the mobile phone terminal 1.
  • FIG. 6 is a diagram for explaining the operation of the mobile phone terminal 1.
  • FIG. 1 is a block diagram showing a mobile phone terminal 1 according to an embodiment of the present invention.
  • the mobile phone terminal 1 has a function of handling character data such as e-mail.
  • the cellular phone terminal 1 includes a voice conversion device 10 according to an embodiment of the present invention.
  • the voice conversion device 10 includes a conversion unit 11, a display unit 12, a correction unit 13, a storage device 14, a control unit 15, a communication unit 16, and an antenna 17.
  • the conversion unit 11 includes a microphone 11a and a voice recognition unit 11b.
  • the correction unit 13 includes an operation unit 13a and a character editing unit 13b.
  • the conversion unit 11 can generally be referred to as voice recognition means.
  • the conversion unit 11 converts the voice into a character string by performing voice recognition processing on the voice every time it receives voice.
  • the microphone 11a can be generally called output means. Each time the microphone 11a accepts an input user's voice, the microphone 11a converts the input user's voice into voice data and outputs the voice data. The voice data is provided to the voice recognition unit 11b via the control unit 15, for example.
  • the voice recognition unit 11b Each time the voice recognition unit 11b receives voice data, the voice recognition unit 11b performs voice recognition processing on the voice data, thereby converting the voice data into a character string and outputting the character string.
  • the voice recognition unit 11b outputs a string of kana characters (katakana or hiragana) as a character string.
  • the display unit 12 can generally be called display means.
  • the display unit 12 displays a character string that is an output from the voice recognition unit 11b.
  • the display unit 12 also displays the character editing status in the character editing unit 13b.
  • the correction unit 13 can generally be referred to as correction means.
  • the correction unit 13 receives a correction instruction to correct a phrase (a phrase composed of one or more characters) that is a part of the character string output by the voice recognition unit 11b.
  • the correction instruction designates a phrase to be corrected and indicates the corrected phrase.
  • the correction unit 13 corrects the phrase designated as corrected by the correction instruction among the words in the character string to the phrase indicated as the corrected phrase by the correction instruction.
  • the phrase designated as amended by the amendment instruction is referred to as “pre-correction word / phrase”
  • the word / phrase indicated as the amended word / phrase according to the amendment instruction is referred to as “after-correction word / phrase”.
  • the operation unit 13a is an operation button.
  • the operation button may be displayed on the display unit 12.
  • the operation unit 13a receives various inputs (for example, correction instructions) from the user when operated by the user.
  • correction instruction is provided to the character editing unit 13b via the control unit 15.
  • the character editing unit 13b When the character editing unit 13b receives the correction instruction, the character editing unit 13b edits the character string output from the voice recognition unit 11b in accordance with the correction instruction. In the present embodiment, when receiving the correction instruction, the character editing unit 13b replaces the uncorrected word / phrase in the character string with the corrected word / phrase.
  • Storage device 14 can generally be referred to as storage means.
  • the storage device 14 stores a dictionary (dictionary data) necessary for character editing in the character editing unit 13b and voice recognition processing in the voice recognition unit 11b.
  • the storage device 14 stores the content of correction (a set of a word before correction and a word after correction) for the word executed by the character editing unit 13b.
  • the storage device 14 stores a difference dictionary (difference dictionary data) indicating the contents of correction.
  • the difference dictionary represents a pre-correction phrase and a post-correction phrase that are associated with each other.
  • Control unit 15 can be generally referred to as control means.
  • the control unit 15 controls each unit in the mobile phone terminal 1.
  • the control unit 15 displays the content of the correction.
  • a reflected selection candidate is generated, and the selection candidate is displayed on the display unit 12 as a speech recognition result candidate.
  • the control unit 15 determines that the character string in the character string is stored in the storage device 14 as the pre-correction word / phrase.
  • a replacement character string is generated as a selection candidate by replacing the pre-correction word / phrase with the post-correction word / phrase associated with the pre-correction word / phrase.
  • the control unit 15 displays the corrected phrase on the display unit 12 in a display form different from characters other than the corrected phrase among the characters in the replacement character string. For example, in the replacement character string, the control unit 15 displays the corrected character in a different color, a different size, or a different typeface from characters other than the corrected character.
  • the communication unit 16 can generally be called a communication means.
  • the communication unit 16 uses the voice data output from the microphone 11a as the antenna 17. Is transmitted to the speech recognition apparatus 2, and then a character string that is a conversion result of the speech data is received from the speech recognition apparatus 2 via the antenna 17.
  • the voice recognition device 2 converts the voice data into a character string every time the voice data is received, and transmits the conversion result (character string) to the voice data transmission source.
  • FIG. 2 is a diagram showing an example of a difference dictionary (database) stored in the storage device 14.
  • the difference dictionary 14A is provided with a plurality of recognition result difference storage areas 14A1.
  • the control unit 15 stores the recognition result difference storage area 14A1 in the speech recognition unit 11b.
  • the recognition result difference information (contents of correction) representing the difference between the voice recognition result and the user's recognition is registered.
  • the recognition result difference storage area 14A1 has a recognition result kana storage area 14A2, a correction result kana storage area 14A3, and a difference occurrence count storage area 14A4.
  • kana (hereinafter referred to as “recognition result kana”) that is a word (pre-correction word / phrase) designated for correction by a correction instruction among character strings output in kana from the speech recognition unit 11b. Stored).
  • correction result kana (hereinafter referred to as “correction result kana”) which is a word (corrected word / phrase) indicated as a corrected word / phrase in the correction instruction is stored.
  • the difference occurrence count storage area 14A4 the number of times “recognition result kana” stored in the recognition result kana storage area 14A2 is corrected to “correction result kana” stored in the correction result kana storage area 14A3 (hereinafter “difference”). Stored as “number of occurrences”).
  • the storage device 14 stores a plurality of combinations of the pre-correction word / phrase and the post-correction word / phrase, and the correction specified by the combination is executed for each set. Stored (hereinafter referred to as “execution count”).
  • the control unit 15 For each word in the indicated character string, a replacement character string is generated as a selection candidate by replacing the word in the character string shown as the pre-correction word with the post-correction word paired with the pre-correction word .
  • the control unit 15 determines the display order of the selection candidates on the display unit 12, the number of executions for the set used to generate the selection candidate, and the number of characters of the uncorrected word used to generate the selection candidate. , Based on the decision.
  • control unit 15 gives each selection candidate a value that increases as the number of executions increases and increases as the number of characters in the uncorrected word increases, and displays the selection candidates on the display unit 12 in descending order of the values. .
  • the voice conversion device 10 may be realized by a computer.
  • the computer reads and executes a program recorded on a recording medium such as a CD-ROM (Compact Disk Read Only Memory) that can be read by the computer, whereby the conversion unit 11, the display unit 12, and the correction unit 13.
  • a recording medium such as a CD-ROM (Compact Disk Read Only Memory) that can be read by the computer, whereby the conversion unit 11, the display unit 12, and the correction unit 13.
  • the storage device 14 and the control unit 15 function.
  • the recording medium is not limited to the CD-ROM and can be changed as appropriate.
  • Difference information representing a difference in reading kana (kana) from the column is accumulated in the storage device 14 in the mobile phone terminal 1.
  • the cellular phone terminal 1 generates a selection candidate reflecting the difference information for the result of the speech recognition processing executed by the speech recognition unit 11b, and displays the selection candidate as a speech recognition result candidate.
  • the cellular phone terminal 1 generates a replacement character string in which the uncorrected word / phrase (recognition result kana) in the character string output from the speech recognition unit 11b is replaced with the corrected word / phrase (correction result kana) as a selection candidate.
  • the corrected character in the replacement character string is displayed in a different color, a different size, or a different typeface from characters other than the corrected character.
  • FIG. 3 is a flowchart for explaining the operation of the mobile phone terminal 1 according to the user's operation.
  • the user When the user performs character input by voice to the mobile phone terminal 1, the user performs voice input by uttering a word to be input to the microphone 11a (step 301).
  • the input voice is converted into voice data by the microphone 11a, and then voice recognition processing for the voice data is executed by the voice recognition unit 11b or the external voice recognition device 2. Thereafter, the control unit 15 obtains kana information (character string) as a voice recognition result (step 302).
  • control unit 15 generates a recognition result candidate for kana information (character string) based on the kana information (character string) that is a voice recognition result.
  • the character editing unit 13b executes kanji conversion processing for the recognition result candidate.
  • the control unit 15 displays on the display unit 12 the recognition result candidates that have been converted to Kanji.
  • the control unit 15 collates the kana information, which is the current speech recognition result, with the difference information stored in the difference dictionary 14A (step 303), and is indicated in the difference information.
  • a search is performed as to whether there is a recognition result kana that matches a part of the kana information that is the current voice recognition result among the recognition result kana (step 304).
  • the difference dictionary 14A stores the difference information shown in FIG. 4, the user utters “Hencho”, and the voice is recognized by the voice recognition engine in the voice recognition unit 11b or the voice recognition engine in the voice recognition device 2.
  • the kana information that is the recognition result is “Henshu”
  • the control unit 15 collates the kana information that is the current voice recognition result with the recognition result kana in the difference dictionary 14A, the partially matching recognition As a result, “shu” and “shu” are obtained as kana.
  • the control unit 15 replaces the recognition result candidate kana (replacement character string) obtained by replacing the kana matching the recognition result kana with the correction result kana associated with the recognition result kana in the kana information as the current voice recognition result. Create (step 305).
  • A is a recognition result kana coefficient
  • B is a difference occurrence frequency coefficient, both of which are stored in the control unit 15 in advance.
  • the longer the character string length of the recognition result Kana the higher the possibility that it is more similar to the utterance.
  • the occurrence count is a value that considers the occurrence frequency of the recognition difference, and the importance is obtained by combining these values. calculate.
  • control unit 15 uses the recognition result candidate kana “Hencho” created using the recognition result difference 1 and the recognition result candidate kana “Henshuu” created using the recognition result difference 2 with high importance. They are displayed on the display unit 12 in the order of “Hencho” and “Hensu”.
  • the recognition result candidate Kana is collated with the character string registered in the Japanese dictionary by the character editing unit 13b, and is displayed as a recognition result candidate only when it matches the Japanese registered in the dictionary. If the recognition result candidate kana does not match the Japanese registered in the dictionary, the character editing unit 13b determines that the recognition result candidate kana is not a correct word as Japanese, and the control unit 15 determines the recognition result candidate kana. Is not recognized as a recognition result candidate.
  • the recognition result candidate kana is displayed as a recognition result candidate together with the kana information that is the current voice recognition result (step 306).
  • kana information which is the current speech recognition result, is displayed at the top, and then recognition result candidates are displayed in descending order of importance.
  • control unit 15 displays the recognition result candidate kana on the display unit 12 as a recognition result candidate for the result of the kanji conversion performed by the character editing unit 13b.
  • control unit 15 displays a character string obtained by converting Kana information, which is a voice recognition result, into Kanji characters as a recognition result candidate.
  • the user selects a character string that matches the uttered character string from the displayed recognition result candidates (step 307).
  • the control unit 15 does not change the difference dictionary, assuming that the user's utterance matches the speech recognition result (step 308).
  • the control unit 15 causes a difference between the user's utterance and the speech recognition result. Assuming that there is a difference, the difference of kana is acquired and the difference is registered in the difference dictionary (step 310).
  • the registration of the difference information is not limited to a word or a phrase unit, but the combination (set) of the recognition result kana “shu” and the correction result kana “so” extracted only the corrected part, or the corrected part A combination (set) of the recognition result kana “shu” and the correction result kana “sou” to which the character string before and after is added may be registered in the difference dictionary.
  • the updated difference dictionary will be reflected in the next speech recognition.
  • the control unit 15 stores the content of the correction for the phrase in the character string in the storage device 14.
  • a selection candidate reflecting the contents of the correction is generated, and the selection candidate is displayed on the display unit 12 as a recognition result candidate of the character string.
  • the control unit 15 when the conversion unit 11 converts the speech into a character string, when the word / phrase in the character string is stored in the storage device 14 as an uncorrected word / phrase, the control unit 15 A replacement character string in which the uncorrected word / phrase in the character string is replaced with the corrected word / phrase associated with the uncorrected word / phrase is generated as a selection candidate. In this case, there is a high possibility that the correction made before will be reproduced.
  • the control unit 15 displays the corrected phrase on the display unit 12 in a display form different from characters other than the corrected phrase among the characters in the replacement character string.
  • the control unit 15 displays the corrected character in a different color, a different size, or a different typeface from characters other than the corrected character. In this case, it is possible to emphasize to the user what kind of replacement has been performed, and it is easy for the user to notice a speech recognition error caused by the characteristics of the user's habit or microphone.
  • the difference information is reflected in the voice recognition result as information indicating the characteristics of the user's bag or microphone without depending on the voice recognition engine, and the reflection result is presented.
  • n A ⁇ a + B ⁇ b using the character string length and the number of occurrences
  • the time information such as the data update date, the recognition result kana and the correction result kana are compared and the consonant
  • Another calculation formula may be used in which information obtained by quantifying the similarity between “ma” and “mu”) and vowels (such as “ka” and “ha”) is used as a parameter.
  • the method for registering data in the differential dictionary may be edited directly by the user in addition to the opportunity of performing speech recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Telephone Function (AREA)

Abstract

ユーザが同じような修正処理を繰り返し行う手間を少なくできる携帯電話端末を提供する。 音声変換装置は、音声を受け付けるごとに当該音声を文字列に変換する音声認識手段と、前記文字列を表示する表示手段と、表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると当該修正指示に従って前記語句を修正する修正手段と、修正手段が実行した語句についての修正の内容を格納する格納手段と、音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が格納手段に格納されている場合には、修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、表示手段に表示する制御手段と、を含む。

Description

音声変換装置、携帯電話端末、音声変換方法および記録媒体
 本発明は、音声変換装置、携帯電話端末、音声変換方法および記録媒体に関する。
 携帯電話端末などの機器に搭載されている音声認識エンジンが音声認識処理を行った際、ユーザが発声した文言と、その文言についての音声認識の結果は、必ずしも一致しない。
 これは、ユーザが発声した文言と音声認識結果との不一致が、音声認識エンジン自体の認識率にも依存するが、ユーザの発声時の癖、ユーザの訛、および、マイク特性などの、音声認識エンジン以外の要因にも依存するからである。
 このため、ユーザは、誤った音声認識結果を正しい文言に修正する最適化処理(修正処理)を行う必要がある。
 特許文献1には、音声認識結果の誤りがユーザの修正用発話によって修正された際に、その修正の内容、具体的には、修正前の音声認識結果と修正後の音声認識結果とを格納する音声認識装置が記載されている。
 特許文献1に記載の音声認識装置は、音声認識結果がユーザの修正用発話によって一度修正されたにもかかわらず、再度、ユーザの修正用発話を受け付けた場合、前回の修正結果、つまり、誤った音声認識結果が、再度出力されることを抑制する。
特開2007-93789号公報
 特許文献1に記載の音声認識装置では、過去に行われた修正の内容は、修正用発話によって修正が繰り返し行われている音声認識結果にしか反映されず、新規の発話についての音声認識結果には反映されない。
 このため、特許文献1に記載の音声認識装置では、新規の発話についての各音声認識結果には、同じ認識誤りが生じる可能性が高い。よって、ユーザは、新規の発話についての音声認識結果に、過去に修正したことのある認識誤りが生じた場合、過去に行った修正処理(最適化処理)と同様の修正処理を行わなければならず、手間がかかるという課題があった。
 本発明の目的は、上述した課題を解決可能な音声変換装置、携帯電話端末、音声変換方法および記録媒体を提供することである。
 本発明の音声変換装置は、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む。
 本発明の音声変換装置は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、入力された音声を音声データに変換する出力手段と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む。
 本発明の音声変換方法は、音声変換装置が行う音声変換方法であって、音声を受け付けるごとに、当該音声を文字列に変換し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する。
 本発明の音声変換方法は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、入力された音声を音声データに変換し、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する。
 本発明の記録媒体は、コンピュータに、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本発明の記録媒体は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、入力された音声を音声データに変換する出力手順と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本発明によれば、ユーザが同じような修正処理(最適化処理)を繰り返し行う手間を少なくすることが可能になる。
本発明の一実施形態の携帯電話端末1を示したブロック図である。 差分辞書の一例を示した図である。 携帯電話端末1の動作を説明するためのフローチャートである。 携帯電話端末1の動作を説明するための図である。 携帯電話端末1の動作を説明するための図である。
 以下、本発明の一実施形態を図面を参照して説明する。
 図1は、本発明の一実施形態の携帯電話端末1を示したブロック図である。
 図1において、携帯電話端末1は、電子メール等の文字データを扱う機能を有する。携帯電話端末1は、本発明の一実施形態の音声変換装置10を含む。
 音声変換装置10は、変換部11と、表示部12と、修正部13と、記憶装置14と、制御部15と、通信部16と、アンテナ17と、を含む。変換部11は、マイク11aと、音声認識部11bと、を含む。修正部13は、操作部13aと、文字編集部13bと、を含む。
 変換部11は、一般的に音声認識手段と呼ぶことができる。
 変換部11は、音声を受け付けるごとに、音声について音声認識処理を行うことによって音声を文字列に変換する。
 マイク11aは、一般的に出力手段と呼ぶことができる。マイク11aは、入力されたユーザの音声を受け付けるごとに、入力されたユーザの音声を音声データに変換し、その音声データを出力する。音声データは、例えば、制御部15を介して音声認識部11bに提供される。
 音声認識部11bは、音声データを受け付けるごとに、音声データについて音声認識処理を行うことによって音声データを文字列に変換して出力する。本実施形態では、音声認識部11bは、文字列として、カナ文字(カタカナまたはひらがな)の列を出力する。
 表示部12は、一般的に表示手段と呼ぶことができる。
 表示部12は、音声認識部11bからの出力である文字列を表示する。また、表示部12は、文字編集部13bでの文字編集状況も表示する。
 修正部13は、一般的に修正手段と呼ぶことができる。
 修正部13は、音声認識部11bが出力した文字列の一部である語句(1個以上の文字からなる語句)を修正する旨の修正指示を受け付ける。本実施形態では、修正指示は、修正される語句を指定し、かつ、修正後の語句を示す。
 修正部13は、修正指示を受け付けると、文字列内の語句のうち、修正指示にて修正を指定された語句を、修正指示にて修正後の語句として示された語句に修正する。以下、修正指示にて修正を指定された語句を「修正前語句」と称し、修正指示にて修正後の語句として示された語句を「修正後語句」と称する。
 操作部13aは、操作ボタンである。なお、操作ボタンは、表示部12に表示されてもよい。操作部13aは、ユーザにて操作されることによって、ユーザからの種々の入力(例えば、修正指示)を受け付ける。操作部13aが修正指示を受け付けた場合、その修正指示は、制御部15を介して文字編集部13bに提供される。
 文字編集部13bは、修正指示を受け付けると、その修正指示に従って、音声認識部11bの出力である文字列を編集する。本実施形態では、文字編集部13bは、修正指示を受け付けると、文字列内の修正前語句を修正後語句に置き換える。
 記憶装置14は、一般的に格納手段と呼ぶことができる。
 記憶装置14は、文字編集部13bでの文字編集および音声認識部11bでの音声認識処理に必要な辞書(辞書データ)を格納する。
 また、記憶装置14は、文字編集部13bが実行した語句についての修正の内容(修正前語句と修正後語句との組)を格納する。本実施形態では、記憶装置14は、修正の内容を示す差分辞書(差分辞書データ)を格納する。差分辞書は、互いに関連づけられた修正前語句と修正後語句とを表す。
 制御部15は、一般的に制御手段と呼ぶことができる。
 制御部15は、携帯電話端末1内の各部を制御する。
 制御部15は、例えば、変換部11が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置14に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その音声の認識結果候補として、表示部12に表示する。
 本実施形態では、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句が記憶装置14に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。
 なお、制御部15は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部12に表示する。例えば、制御部15は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。
 通信部16は、一般的に通信手段と呼ぶことができる。
 通信部16は、例えば、音声認識処理を、携帯電話端末1内の音声認識部11bで実行せずに、外部の音声認識装置2で実行する場合、マイク11aから出力された音声データをアンテナ17を介して音声認識装置2に送信し、その後、アンテナ17を介して音声認識装置2から音声データの変換結果である文字列を受信する。
 なお、音声認識装置2は、音声データを受け付けるごとに、その音声データを文字列に変換し、変換結果(文字列)を、音声データの送信元に送信する。
 図2は、記憶装置14が記憶する差分辞書(データベース)の一例を示した図である。
 図2において、差分辞書14Aには、複数の認識結果差分格納領域14A1が設けられている。音声認識部11bからカナで出力された文字列内の語句に対して、ユーザが修正指示を用いて修正を行うごとに、制御部15は、認識結果差分格納領域14A1に、音声認識部11bでの音声認識結果とユーザの認識との差を表す認識結果差分情報(修正の内容)を登録していく。
 認識結果差分格納領域14A1は、認識結果カナ格納領域14A2と、修正結果カナ格納領域14A3と、差分発生回数格納領域14A4と、を有する。
 認識結果カナ格納領域14A2には、音声認識部11bからカナで出力された文字列のうち、修正指示にて修正を指定された語句(修正前語句)であるカナ(以下「認識結果カナ」と称する)が格納される。
 修正結果カナ格納領域14A3には、修正指示にて修正後の語句として示された語句(修正後語句)であるカナ(以下「修正結果カナ」と称する)が格納される。
 差分発生回数格納領域14A4には、認識結果カナ格納領域14A2に格納された「認識結果カナ」が、修正結果カナ格納領域14A3に格納された「修正結果カナ」に修正された回数(以下「差分発生回数」と称する)が格納される。
 図2に示したように、本実施形態では、記憶装置14は、修正前語句と修正後語句との組を複数格納し、かつ、組ごとに、その組にて特定される修正が実行された回数(以下「実行回数」と称する)を格納する。
 制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の互いに異なる語句のそれぞれが記憶装置14に修正前語句として格納されている場合には、修正前語句として示された文字列内の語句ごとに、修正前語句として示された文字列内の語句をその修正前語句と組になっている修正後語句に置き換えた置換文字列を、選択候補として生成する。
 制御部15は、表示部12への選択候補の表示順を、選択候補を生成するために使用した組についての実行回数、および、その選択候補を生成するために使用した修正前語句の文字数と、に基づいて決定する。
 制御部15は、例えば、選択候補のそれぞれに、実行回数が多くなるほど高くなり修正前語句の文字数が多くなるほど高くなる値を付与し、その値が高い順に、選択候補を表示部12に表示する。
 なお、音声変換装置10は、コンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なCD-ROM(Compact Disk Read Only Memory)のような記録媒体に記録されたプログラムを読込み実行することによって、変換部11、表示部12、修正部13、記憶装置14および制御部15として機能する。記録媒体は、CD-ROMに限らず適宜変更可能である。
 次に、本実施形態の動作の概要を説明する。
 本実施形態では、音声認識部11bでの音声認識結果に対して、ユーザが、文字編集部13bを使用して修正を行った場合に、音声認識結果と文字編集にて修正された後の文字列との間のよみ仮名(カナ)の違いを表す差分情報(認識結果差分情報)が、携帯電話端末1内の記憶装置14に蓄積される。
 携帯電話端末1は、その後、音声認識部11bにて実行された音声認識処理の結果について、差分情報を反映した選択候補を生成し、その選択候補を、音声の認識結果候補として表示する。
 また、携帯電話端末1は、音声認識部11bから出力された文字列内の修正前語句(認識結果カナ)を修正後語句(修正結果カナ)に置き換えた置換文字列を、選択候補として生成し、置換文字列内の修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。
 次に、本実施形態の動作を詳細に説明する。
 図3は、ユーザの操作に応じた携帯電話端末1の動作を説明するためのフローチャートである。
 ユーザは、携帯電話端末1に音声による文字入力を実行する場合、マイク11aに入力したい文言を発声することで、音声入力を行う(ステップ301)。
 入力された音声は、マイク11aで音声データに変換され、その後、音声データについての音声認識処理が、音声認識部11b、または、外部の音声認識装置2で実行される。その後、制御部15は、音声認識結果であるカナ情報(文字列)を入手する(ステップ302)。
 その後、制御部15は、音声認識結果であるカナ情報(文字列)に基づいて、カナ情報(文字列)についての認識結果候補を生成する。文字編集部13bは、認識結果候補について漢字変換処理を実行する。制御部15は、漢字変換された認識結果候補を、表示部12に表示する。
 制御部15は、認識結果候補を生成する際、今回の音声認識結果であるカナ情報と、差分辞書14Aに格納された差分情報と、の照合を行い(ステップ303)、差分情報に示された認識結果カナのうち、今回の音声認識結果であるカナ情報の一部と一致する認識結果カナがあるか検索を行う(ステップ304)。
 例えば、差分辞書14Aが図4に示す差分情報を格納している状況で、ユーザが「ヘンチョウ」と発声し、音声認識部11b内の音声認識エンジンまたは音声認識装置2内の音声認識エンジンによる音声認識結果であるカナ情報が「へンシュウ」であった場合、制御部15が、今回の音声認識結果であるカナ情報と差分辞書14A内の認識結果カナとの照合を行うと、部分一致する認識結果カナとして「シュウ」と「シュ」を得る。制御部15は、今回の音声認識結果であるカナ情報のうち、認識結果カナと一致したカナを、その認識結果カナに関連づけられた修正結果カナに置換した認識結果候補カナ(置換文字列)を作成する(ステップ305)。
 部分一致したカナが複数見つかった場合には、制御部15は、認識結果候補カナの作成に使用した認識結果差分情報ごとに、認識結果カナの文字列長と差分発生回数とに基づいて、認識結果カナ文字列長aおよび差分発生回数bの値を設定し、重要度nの計算式:n=A×a+B×bに従った計算を実行して重要度nを求める。なお、重要度nの計算式において、Aは認識結果カナ係数であり、Bは差分発生回数係数であり、共に、予め制御部15に格納されている。
 本実施形態では、認識結果カナの文字列長が長いほど発声と類似している可能性が高いとし、発生回数については認識差分の発生頻度を考慮した値として、これらを組み合わせることで重要度を算出する。
 図4の例では、認識結果差分1が用いられた場合には、ヘンシュウの「シュウ」が「チョウ」に置き換えられた「ヘンチョウ」が、認識結果候補カナとなる。
 このときの重要度nは、重要度nの計算式:n=A×a+B×bにおいて、認識結果カナ係数A=5、差分発生回数係数B=2とすると、認識結果カナ文字列長aは「3」となり、差分発生回数bは「1」となるため、n=A×a+B×b=5×3+2×1=17となる。
 同様に認識結果差分2では、ヘンシュウの「シュ」が「ス」に置き換えられた「ヘンスウ」が、認識結果候補カナとなる。
 このときの重要度は、識結果カナ文字列長aは「2」となり、差分発生回数bは「1」となるため、n=A×a+B×b=5×2+2×2=14となる。
 よって、制御部15は、認識結果差分1を使用して作成した認識結果候補カナ「ヘンチョウ」と、認識結果差分2を使用して作成した認識結果候補カナ「ヘンスウ」とを、重要度の大きい順に「ヘンチョウ」「ヘンスウ」の順に表示部12に表示する。
 なお、認識結果候補カナは、文字編集部13bによって、日本語辞書に登録されている文字列と照合され、辞書に登録されている日本語と一致する場合のみ認識結果候補として表示される。認識結果候補カナが辞書に登録されている日本語と一致しない場合は、文字編集部13bは、認識結果候補カナが日本語として正しい単語ではないと判断し、制御部15は、認識結果候補カナを認識結果候補として認定しない。
 今回の音声認識結果であるカナ情報とともに、認識結果候補カナが、認識結果候補として、表示される(ステップ306)。表示順としては、今回の音声認識結果であるカナ情報が先頭に表示され、続いて、重要度の高い順に認識結果候補が表示される。
 このとき、置換した箇所が、置換していない箇所と異なる文字色や文字サイズ、フォント変更などで明示されることで、ユーザに通知される。
 また、制御部15は、認識結果候補カナを文字編集部13bにて漢字変換などが行われた結果についても、認識結果候補として、表示部12に表示する。
 なお、部分一致したデータがない場合は、制御部15は、音声認識結果であるカナ情報を漢字変換した文字列を認識結果候補として表示する。
 表示された認識結果候補の中から、ユーザは、発声した文字列と一致する文字列を選択する(ステップ307)。
 このとき、ユーザが今回の音声認識結果を選択した場合は、ユーザの発声と音声認識結果が一致したとして、制御部15は、差分辞書の変更は行わない(ステップ308)。しかし、ユーザが今回の音声認識結果とは異なる認識結果候補を選択した場合や文字編集にて修正を行った場合(ステップ309)は、制御部15は、ユーザの発声と音声認識結果に差分があるとして、カナの差分を取得し、その差分を差分辞書に登録する(ステップ310)。
 例えば、図5の例のように、ユーザが「ヘンソウ」と発声したにもかかわらず、音声認識結果で「ヘンシュウ」が得られた場合、ユーザは、文字編集で「シュ」を「ソ」に修正する。
 このとき、差分辞書には、音声認識を行った日時、認識結果カナとして「ヘンシュウ」、修正結果カナとして「ヘンソウ」、差分発生回数については同一の修正を行った回数が、差分情報として保存される。
 このとき、差分情報の登録は、単語や文節単位とは限らず、修正を行った箇所だけを抽出した認識結果カナ「シュ」と修正結果カナ「ソ」との組み合わせ(組)や、修正箇所の前後の文字列を追加した認識結果カナ「シュウ」と修正結果カナ「ソウ」との組み合わせ(組)が、差分辞書に登録されてもよい。
 更新された差分辞書は次回の音声認識に反映される。
 本実施形態によれば、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置14に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その文字列の認識結果候補として、表示部12に表示する。
 このため、ユーザが同じような修正処理(最適化処理)を繰り返し行う手間を少なくすることが可能になる。
 また、本実施形態では、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句が記憶装置14に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。この場合、以前に行われた修正が再現される可能性が高くなる。
 また、本実施形態では、制御部15は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部12に表示する。例えば、制御部15は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。この場合、どのような置換が行われたのかを強調してユーザに示すことができ、ユーザの癖やマイクの特性に起因する音声認識の誤りを、ユーザに気付かせやすくなる。
 以上説明したように、本実施形態によれば、音声認識エンジンに依存することなく、差分情報をユーザの癖やマイクの特性を示す情報として音声認識結果に反映し、その反映結果を提示することで、文字編集による修正作業を行う手間を少なくでき、ユーザに適した音声認識結果の表示やユーザが発声動作の問題点を把握することが可能となる。
 なお、上記実施形態は、以下のように変形されてもよい。
 重要度を判断する方法として、文字列長や発生回数を用いたn=A×a+B×bの式以外に、データの更新日といった時間情報や認識結果カナと修正結果カナを比較して子音(「マ」と「ム」など)や母音(「カ」と「ハ」など)の類似を数値化した情報などをパラメータとして設けた別の算出式が用いられてもよい。
 また、差分辞書へのデータ登録方法は音声認識を実施した機会以外にも、ユーザが辞書データを直接編集してもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2010年9月29日に出願された日本出願特願2010-219053を基礎とする優先権を主張し、その開示の全てをここに取り込む。
   1   携帯電話端末
   10  音声変換装置
   11  変換部
   11a マイク
   11b 音声認識部
   12  表示部
   13  修正部
   13a 操作部
   13b 文字編集部
   14  記憶装置
   15  制御部
   16  通信部
   17  アンテナ
   2   音声認識装置

Claims (10)

  1.  音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、
     前記文字列を表示する表示手段と、
     前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、
     前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
     前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む音声変換装置。
  2.  前記格納手段は、前記修正の内容として、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、を格納し、
     前記制御手段は、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を前記修正後語句に置き換えた置換文字列を、前記選択候補として生成する、請求項1に記載の音声変換装置。
  3.  前記制御手段は、前記修正後語句を、前記置換文字列内の文字のうち当該修正後語句以外の文字と異なる表示形態で、前記表示手段に表示する、請求項2に記載の音声変換装置。
  4.  音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、
     入力された音声を音声データに変換する出力手段と、
     前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、
     前記文字列を表示する表示手段と、
     前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、
     前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
     前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含む音声変換装置。
  5.  前記格納手段は、前記修正の内容として、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、を格納し、
     前記制御手段は、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を前記修正後文字に置き換えた置換文字列を、前記選択候補として生成する、請求項4に記載の音声変換装置。
  6.  請求項1から5のいずれか1項に記載の音声変換装置を備えた携帯電話端末。
  7.  音声変換装置が行う音声変換方法であって、
     音声を受け付けるごとに、当該音声を文字列に変換し、
     前記文字列を表示手段に表示し、
     前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、
     前記修正が実行された語句についての修正の内容を格納手段に格納し、
     前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する、音声変換方法。
  8.  音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、
     入力された音声を音声データに変換し、
     前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、
     前記文字列を表示手段に表示し、
     前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、
     前記修正が実行された語句についての修正の内容を格納手段に格納し、
     前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する、音声変換方法。
  9.  コンピュータに、
     音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、
     前記文字列を表示手段に表示する表示手順と、
     前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、
     前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
     前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  10.  音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、
     入力された音声を音声データに変換する出力手順と、
     前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、
     前記文字列を表示手段に表示する表示手順と、
     前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、
     前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
     前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/070248 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法および記録媒体 WO2012043168A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012536306A JP5874640B2 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法およびプログラム
US13/818,889 US20130179166A1 (en) 2010-09-29 2011-09-06 Voice conversion device, portable telephone terminal, voice conversion method, and record medium
CN201180047298.6A CN103140889B (zh) 2010-09-29 2011-09-06 语音转换装置、便携电话终端、语音转换方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-219053 2010-09-29
JP2010219053 2010-09-29

Publications (1)

Publication Number Publication Date
WO2012043168A1 true WO2012043168A1 (ja) 2012-04-05

Family

ID=45892641

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/070248 WO2012043168A1 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法および記録媒体

Country Status (4)

Country Link
US (1) US20130179166A1 (ja)
JP (1) JP5874640B2 (ja)
CN (1) CN103140889B (ja)
WO (1) WO2012043168A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020107130A (ja) * 2018-12-27 2020-07-09 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
JP7463690B2 (ja) 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
CN103647880B (zh) * 2013-12-13 2015-11-18 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
CN103944983B (zh) * 2014-04-14 2017-09-29 广东美的制冷设备有限公司 语音控制指令纠错方法和系统
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
CN105786438A (zh) * 2014-12-25 2016-07-20 联想(北京)有限公司 一种电子系统
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
CN107731229B (zh) * 2017-09-29 2021-06-08 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
JP7159756B2 (ja) 2018-09-27 2022-10-25 富士通株式会社 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
CN116312509B (zh) * 2023-01-13 2024-03-01 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020107130A (ja) * 2018-12-27 2020-07-09 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
JP7463690B2 (ja) 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
US20130179166A1 (en) 2013-07-11
CN103140889A (zh) 2013-06-05
JPWO2012043168A1 (ja) 2014-02-06
JP5874640B2 (ja) 2016-03-02
CN103140889B (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
JP5874640B2 (ja) 音声変換装置、携帯電話端末、音声変換方法およびプログラム
US7552045B2 (en) Method, apparatus and computer program product for providing flexible text based language identification
US8423351B2 (en) Speech correction for typed input
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
JP2009098490A (ja) 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
JP2013065188A (ja) オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム
JPWO2007097390A1 (ja) 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
JP3104661B2 (ja) 日本語文章作成装置
JP2021139994A (ja) 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム
JP2002014693A (ja) 音声認識システム用辞書提供方法、および音声認識インタフェース
JP4189336B2 (ja) 音声情報処理システム、音声情報処理方法及びプログラム
JP2013050742A (ja) 音声認識装置および音声認識方法
JP2010164918A (ja) 音声翻訳装置、および方法
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
JP2000056795A (ja) 音声認識装置
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP2002123281A (ja) 音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JP3036591B2 (ja) 音声認識装置
JP2006309469A (ja) 検索装置、検索方法、プログラム、及びコンピュータ読み取り可能な記録媒体
JP2007293595A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180047298.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11828729

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13818889

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2012536306

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11828729

Country of ref document: EP

Kind code of ref document: A1