WO2013183078A1 - 自動記録装置 - Google Patents

自動記録装置 Download PDF

Info

Publication number
WO2013183078A1
WO2013183078A1 PCT/JP2012/003652 JP2012003652W WO2013183078A1 WO 2013183078 A1 WO2013183078 A1 WO 2013183078A1 JP 2012003652 W JP2012003652 W JP 2012003652W WO 2013183078 A1 WO2013183078 A1 WO 2013183078A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
unit
information storage
identification data
recognition
Prior art date
Application number
PCT/JP2012/003652
Other languages
English (en)
French (fr)
Inventor
裕生 山下
知弘 岩崎
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2012/003652 priority Critical patent/WO2013183078A1/ja
Priority to JP2014519697A priority patent/JP5591428B2/ja
Priority to CN201280073736.0A priority patent/CN104350545B/zh
Publication of WO2013183078A1 publication Critical patent/WO2013183078A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Definitions

  • the present invention relates to an automatic recording apparatus for automatically extracting and recording information from a recognition result obtained by voice recognition of broadcast data.
  • broadcast data broadcast from a broadcasting station is analyzed, extracted by classifying content data such as music and conversation, and the extracted content data is digitized.
  • a data processing apparatus is disclosed for transmitting and collating an ID to an external device, receiving identification data such as an artist name corresponding to the content data, and storing the received identification data in association with the extracted content data Yes.
  • a conventional data processing apparatus such as Patent Document 1 needs to transmit a feature amount of recorded content data to an external device and receive the identification data in order to identify the content data.
  • data processing cannot be performed if communication with is not established.
  • it is necessary to update the database held by the external device In order to support new content such as new songs, it is necessary to update the database held by the external device, and in order to be able to identify many contents, the number of content data held by the external device is increased. There was also a problem that it was necessary.
  • the present invention has been made to solve the above-described problems, and acquires content identification data without transmitting or receiving content information extracted from broadcast data to an external device. It is an object of the present invention to provide an automatic recording apparatus capable of automatically recording identification data in association with content.
  • an automatic recording apparatus stores an audio acquisition unit that detects and acquires audio including broadcast content and content identification data, and language used when introducing the content. And recognizing the voice data acquired by the voice acquisition unit, and extracting the identification data of the content based on the recognition result and the words stored in the fixed sentence storage unit A voice recognition unit that outputs the content, a control unit that instructs to detect a start time and an end time of the content when the identification data of the content is received from the voice recognition unit, and an instruction from the control unit , A content section for detecting a start time and an end time of the content from the audio data acquired by the audio acquisition unit An output unit, a video / audio recording unit for recording content in a content section between a start time point and an end time point detected by the content section detection unit, at least content recorded by the video / audio recording unit, An information storage unit that stores identification data, and the control unit stores the identification data of the content in the information storage unit in association with the content recorded by the video / audio recording
  • content information is externally extracted by extracting identification data such as a song name and an artist name corresponding to content such as music from a recognition result obtained by voice recognition of broadcast data.
  • identification data of the content can be received without being transmitted or received to the device, and the identification data can be automatically recorded in association with the content.
  • FIG. 1 is a block diagram illustrating an example of an automatic recording apparatus according to Embodiment 1.
  • FIG. It is a figure which shows an example of the music introduction word memorize
  • 3 is a flowchart illustrating an operation of the automatic recording apparatus according to the first embodiment.
  • FIG. 6 is a block diagram illustrating an example of an automatic recording apparatus according to a second embodiment. It is a figure which shows an example of the information with which the music title and artist name, the music, and acquisition frequency which were memorize
  • FIG. 10 is a flowchart showing the operation of the automatic recording apparatus in the second embodiment. 10 is a flowchart illustrating an operation of the automatic recording apparatus according to the third embodiment.
  • FIG. 10 is a block diagram illustrating an example of an automatic recording apparatus according to a fourth embodiment. 10 is a flowchart illustrating an operation of the automatic recording apparatus according to the fourth embodiment.
  • FIG. 10 is a block diagram illustrating an example of an automatic recording apparatus according to a fifth embodiment. 10 is a flowchart illustrating an operation of the automatic recording apparatus according to the fifth embodiment.
  • FIG. 10 is a block diagram illustrating an example of an automatic recording apparatus according to a sixth embodiment.
  • FIG. 20 is a block diagram showing another example of an automatic recording apparatus according to Embodiment 6. 18 is a flowchart showing the operation of the automatic recording apparatus in the sixth embodiment.
  • FIG. 1 is a block diagram showing an example of an automatic recording apparatus according to Embodiment 1 of the present invention.
  • music content (music) and its content (music) are recorded as an automatic recording device that acquires and recognizes the content and identification data of the content from broadcast data broadcast on a radio, television, or the like.
  • a case where the song name and the artist name, which are identification data), are stored in association with each other will be described as an example. The same applies to the following embodiments.
  • the automatic recording apparatus includes a voice acquisition unit 1, a voice recognition unit 2, a fixed phrase storage unit 3, a control unit 4, an information storage unit 5, a content section detection unit 6, and a video / audio recording unit 7.
  • the automatic recording apparatus also includes an input unit 8 that acquires an input signal from a key, a touch panel, or the like, and an output unit 9 that displays data or outputs it by voice. (See FIG. 9 in Embodiment 4 described later).
  • the automatic recording device acquires and recognizes sound from broadcast data output from an audio device such as a radio or a television, and based on the recognized result, the name (song name) of the song (content) being broadcast or Identification data such as an artist name (artist name) is extracted, and identification data such as a song name and artist name is automatically recorded in the information storage unit in association with the music (content).
  • the audio acquisition unit 1 detects and acquires audio including content and identification data of the content from broadcast data. At this time, the sound output from the audio device is acquired by line input or the like. When it is acquired in analog, it is A / D converted and converted into a digital format such as a PCM (Pulse Code Modulation) format.
  • PCM Pulse Code Modulation
  • the voice recognition unit 2 has a recognition dictionary (not shown) and recognizes the voice data acquired by the voice acquisition unit 1. Specifically, a voice section corresponding to the content of the passenger utterance, etc. is detected, a feature amount of the voice data of the voice section is extracted, a recognition process is performed using a recognition dictionary based on the feature amount, and voice The recognition result is output as a character string. Note that the recognition process may be performed using a general method such as an HMM (Hidden Markov Model) method, and thus description thereof is omitted here.
  • the voice recognition unit 2 may be in a server on the network as will be described later.
  • the speech recognition used here is syntactic speech recognition that recognizes recognition vocabulary registered in the recognition dictionary in advance, and continuous recognition of single-character syllables such as “A”, “I”, “U”, “E”, “O”.
  • a method of performing all recognition by large vocabulary continuous recognition and performing a morphological analysis on the recognition result may be used.
  • the morphological analysis may be performed by using a general method such as the HMM method, and thus description thereof is omitted here.
  • the fixed sentence storage unit 3 introduces a song (content) as follows: “The next song is ⁇ song name> of ⁇ artist name>”, “ Disc jockeys and presenters such as ⁇ Song Name> of Artist Name> remember words often used when introducing songs.
  • this is referred to as a song introduction wording.
  • the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1 and refers to the fixed sentence storage unit 3, that is, the recognition result obtained by recognizing the voice data and the fixed sentence storage unit 3. Based on the stored wording, the song name, artist name, etc. (identification data) of the song (content) are extracted and output. As a specific extraction method, for the song introduction words stored in the fixed phrase storage unit 3, the ⁇ artist name> and ⁇ song name> parts are recognized and extracted by continuous large vocabulary recognition, and the other parts are extracted. Recognize by syntactic speech recognition.
  • the control unit 4 receives the character string of the song name, artist name, etc. (identification data), which is the recognition result output by the voice recognition unit 2, and receives the song name, artist name, etc. (identification data) of the song (content).
  • an operation start command is output to the content section detection unit 6 described later, that is, an instruction is given to detect the start time and end time of the music (content).
  • the information storage unit 5 stores at least a music piece (content) and an artist name and a music title name (identification data) of the music piece (content).
  • the artist name and song name (identification data) are stored in association with the song (content), and the acquisition date and time when the song (content) is acquired (recorded) is also stored in association with it. You may do it.
  • the data may be data for each music title, or may be data collected for each artist as shown in FIG. 3B.
  • the information storage unit 5 may be a hard disk or an SD card.
  • the content section detection unit 6 detects the start time and end time of the music (content) from the audio data acquired by the audio acquisition unit 1 in accordance with an instruction from the control unit 4. Specifically, the digital audio data output from the audio acquisition unit 1 is input, and using the feature amount of the frequency of the input digital audio data, the music (content) in the audio data is conversed ( The boundary section of the part other than the content) is detected.
  • a recording start command is sent to the video / audio recording unit 7 described later, and when the end section of the music is detected, a recording end command is sent to the video / audio recording unit 7.
  • the detection of the start interval and the end interval may be performed using a general method such as time-frequency analysis, and thus description thereof is omitted here.
  • the video / audio recording unit 7 records only the music (content) part in the content section between the start time point and the end time point detected by the content section detection unit 6, that is, the information section storage. Save in part 5.
  • the control unit 4 stores the song name and artist name (identification data) received from the voice recognition unit 2 in the information storage unit 5 in association with the song (content) recorded by the video / audio recording unit 7.
  • the voice acquisition unit 1 acquires voice input from an audio device by line input (step ST11). At this time, if the audio input from the audio device is in the analog format, A / D conversion is performed, for example, converted into the PCM format and acquired as digital data.
  • the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1 and outputs the recognition result as a character string. At this time, the song title and artist name are extracted by performing large vocabulary continuous speech recognition after comparison with the fixed sentence storage unit 3 (step ST12).
  • the control unit 4 Upon receiving the song title / artist name from the voice recognition unit 2, the control unit 4 instructs the content section detection unit 6 to operate.
  • the content section detection unit 6 extracts a feature amount such as a frequency from the audio sound acquired by the sound acquisition unit 1 using a signal processing technique, detects the start section of the music portion (step ST13), and performs video and audio.
  • An instruction to start recording is sent to the recording unit 7.
  • the video / audio recording unit 7 receives the instruction from the content section detection unit 6 and starts recording the music from the start position of the music detected in step ST13 (step ST14).
  • the content section detection unit 6 extracts a feature amount from the acquired audio sound by using a signal processing technique, detects the end section of the music part (step ST15), and ends the recording in the video / audio recording unit 7. Send instructions.
  • the video / audio recording unit 7 receives the command from the content section detection unit 6 and stops recording the music (step ST16), and stores the recorded music in the information storage unit 5 (step ST17).
  • control unit 4 stores the song name / artist name extracted in step ST12 and acquired from the voice recognition unit 2 in the information storage unit 5 in association with the song stored in step ST17 (step ST18).
  • an association table as shown in FIG. 3 is stored.
  • an external database for referring to content identification data becomes unnecessary, and the external database This eliminates the need to create and update the database, and further eliminates the need for communication with the external database. Further, since the content is recorded on the condition that the identification data and the content start portion can be extracted, it is possible to efficiently save only the music portion without reducing the capacity of the storage medium.
  • the content can be obtained.
  • the identification data of the content can be received without being transmitted or received to an external device, and the identification data can be automatically recorded in association with the content.
  • FIG. FIG. 5 is a block diagram showing an example of an automatic recording apparatus according to Embodiment 2 of the present invention.
  • symbol is attached
  • the control unit 4 refers to the information stored in the information storage unit 5 to record only the content that meets the user's preference. is there.
  • the artist name and song name (identification data) output from the voice recognition unit 2 stored in association with the song (content), for example, in the format shown in FIG.
  • Data including the number of times each piece of music (content) or the artist's music (content) is acquired is stored, and the data stored in the information storage unit 5 can be referred to by the control unit 4.
  • control unit 4 receives the character string of the song name, artist name, etc. (identification data) output from the voice recognition unit 2, records the song name and artist name (identification data) in the information storage unit 5, and By referring to the data (information regarding the content including the number of acquisitions) stored in the storage unit 5, the content section detection unit 6 operates only when the number of times the content is acquired is equal to or greater than a predetermined number. Output the start command.
  • the voice acquisition unit 1 acquires voice input from an audio device by line input (step ST21). At this time, if the audio input from the audio device is in the analog format, A / D conversion is performed, for example, converted into the PCM format and acquired as digital data.
  • the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1 and outputs the recognition result as a character string. At this time, the song title and artist name are extracted by performing large vocabulary continuous speech recognition after comparing with the fixed phrase storage unit 3 (step ST22).
  • control unit 4 When the control unit 4 acquires the song name / artist name from the voice recognition unit 2, the control unit 4 refers to the data stored in the information storage unit 5 for the acquired song name / artist name, and the number of times the content of the song name / artist name is acquired. Is equal to or greater than the predetermined number of times (in the case of YES at step ST23), the content section detecting unit 6 is operated to perform the processes of steps ST24 to ST29. Note that the processing of steps ST24 to ST29 is the same as the processing of steps ST13 to ST18 shown in FIG.
  • step ST23 when the number of acquisitions of the song name / artist name extracted in step ST22 is less than a predetermined number (in the case of NO in step ST23), the control unit 4 outputs from the voice recognition unit 2. The obtained song name / artist name is added to the obtained number of times and stored in the information storage unit 5 (step ST30).
  • Embodiment 3 The block diagram showing an example of the automatic recording apparatus according to the third embodiment of the present invention is the same as the block diagram shown in FIG. And in Embodiment 3 shown below, compared with Embodiment 2, whether the music (content) suits a user preference whether the instruction
  • the voice acquisition unit 1 acquires voice input from an audio device by line input (step ST31). At this time, if the audio input from the audio device is in the analog format, A / D conversion is performed, for example, converted into the PCM format and acquired as digital data.
  • the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1 and outputs the recognition result as a character string. At this time, the song title and artist name are extracted by performing large vocabulary continuous speech recognition after comparing with the fixed phrase storage unit 3 (step ST32).
  • the control unit 4 is able to recognize the likelihood of the recognition.
  • the content section detection unit 6 is operated only when the likelihood of the recognition is equal to or greater than a predetermined value (YES in step ST33), and the processes of steps ST34 to ST39 are performed. Note that the processing of steps ST34 to ST39 is the same as the processing of steps ST13 to ST18 shown in FIG.
  • step ST33 if the likelihood of speech recognition is less than the predetermined value in step ST33 (in the case of NO in step ST33), the process is terminated as it is.
  • likelihood in large vocabulary continuous speech recognition, the probability (reliability) of each recognized speech is increased by the goodness of the tongue and the noise of the presenter heard from broadcast data. Normally, if the likelihood is 60 to 70% or more, it is determined that the sound (character) is output. Therefore, for example, 80% is set as the predetermined value in step ST33, so that the process proceeds to step ST34 and subsequent steps only when the voice is correctly recognized.
  • step ST33 is set to 80%, for example, so that the process proceeds to step ST34 and subsequent steps only when the syntax of the song introduction is correctly recognized.
  • content identification data and content can be recorded only when the likelihood of speech recognition is a predetermined value or more. Therefore, it is possible to prevent the content associated with the wrong identification data from being saved and press the capacity of the storage medium.
  • FIG. 9 is a block diagram showing an example of an automatic recording apparatus according to Embodiment 4 of the present invention. Note that the same components as those described in the first to third embodiments are denoted by the same reference numerals, and redundant description is omitted.
  • an input unit 8 that receives an operation signal from a user by acquiring an input signal from a key, a touch panel, or the like, not shown in the first to third embodiments, and data are displayed.
  • an output unit 9 that presents data to the user by outputting a voice is also illustrated, and in the fourth embodiment described below, the user can use the input unit 8 and the output unit 9 to generate a song (content). The necessity of storage can be selected.
  • the control unit 4 When the control unit 4 acquires the character string of the song name, artist name, etc. (identification data) output from the voice recognition unit 2, the control unit 4 presents the song name, artist name, etc. (identification data) via the output unit 9. Thus, the necessity of storage is confirmed with the user, and the input from the user is accepted via the input unit 8 to determine whether or not the music (content) needs to be stored. Specifically, when an input indicating that storage is necessary is accepted via the input unit, the information storage unit associates the song name, artist name, etc. (identification data) of the song (content) with the song (content). In the case of accepting an input indicating that the data is not saved, only the song name, artist name, etc. (identification data) of the song (content) are saved.
  • the input unit 8 is for inputting a user's intention, and may be, for example, a button or a touch display, or may be a voice input using voice recognition using a microphone or the like, or a gesture input. Moreover, you may combine them.
  • the output unit 9 may output the song title and artist name (identification data) output by the control unit 4 using, for example, synthesized speech, or may display characters on the display screen. Moreover, you may output to both of them.
  • step ST46 after the video / audio recording unit 7 receives the instruction from the content section detection unit 6 and stops recording the music, the control unit 4 outputs the music title / artist name to the output unit 9. And asks the user to confirm whether or not to save the song (step ST47).
  • the input unit 8 accepts the user's input to the effect that the music needs to be saved.
  • the music recorded in the video / audio recording unit 7 is stored in the information storage unit 5 (step ST49), and the music title / artist name is associated with the music and stored in the information storage unit 5. (Step ST50).
  • step ST48 when the user does not select the necessity for saving, that is, when the input unit 8 accepts the user's input indicating that the music is not required for saving (in the case of NO in step ST48). ), Only the song name / artist name is stored in the information storage unit 5, and the song name / artist name information such as the number of times the song name / artist name is acquired is updated (step ST51).
  • the user is further confirmed as to whether or not the storage is necessary, and is stored only when necessary. As a result, it is possible to prevent storage of contents not desired by the user.
  • FIG. FIG. 11 is a block diagram showing an example of an automatic recording apparatus according to Embodiment 5 of the present invention. Note that the same components as those described in the first to fourth embodiments are denoted by the same reference numerals, and redundant description is omitted.
  • the control unit 4 stores the music recorded by the video / audio recording unit 7 when the content section detection unit 6 detects the end of the music and the information storage unit 5. Compared with the stored music, if a music with the same music title / artist name has already been saved, the music with the better sound quality is saved.
  • the control unit 4 acquires the music recorded by the video / audio recording unit 7 when the content section detection unit 6 detects the end of the music, and quantifies the sound quality of the music.
  • a general method such as an S / N ratio may be used, and the description thereof is omitted here.
  • the recording time may be used as a reference for the sound quality, or the S / N ratio and the recording time may be combined.
  • control unit 4 refers to the data stored in the information storage unit 5, so that the same data (song having the song name and artist name) is information about the content identification data extracted by the voice recognition unit 2. It is determined whether or not it exists in the storage unit 5. If it exists, the music (content) recorded by the video / audio recording unit 7 and the sound quality of the music (content) stored in the information storage unit 5 are determined. And the music (content) newly recorded by the audio / video recording unit 7 is automatically stored in the information storage unit 5 only when the sound quality is higher than that of the existing music. Overwrite and save.
  • step ST66 after the video / audio recording unit 7 receives the command from the content section detection unit 6 and stops recording the music, the control unit 4 detects the song name / text detected by the voice recognition unit 2 in step ST62. It is determined whether or not the same music as the artist name has already been saved in the information storage unit 5 (step ST67). If the same music has already been saved (YES in step ST67), a further step is performed. The music recorded in the video / audio recording unit 7 in ST64 to ST66 is acquired, and the sound quality information obtained by quantifying the sound quality of the music is compared with the sound quality of the music stored in the information storage unit 5 (step) ST68).
  • Step ST69 the song name / artist name is associated with the song and saved in the information storage unit 5 (step ST70). Further, in the determination of step ST67, even when the same music is not stored in the information storage unit 5 (NO in step ST67), the processes of steps ST69 and ST70 are performed.
  • step ST68 if the audio quality of the music recorded in the video / audio recording unit 7 is lower than the sound quality of the existing music (NO in step ST68), only the music name / artist name is stored in the information storage unit 5. And update the song name / artist name information such as the number of times of acquisition of the song name / artist name (step ST71).
  • the music (content ) Is recorded, and if it is lower than the sound quality of the existing music, the music (content) is not overwritten so that it can always be automatically updated to a content with good sound quality.
  • the overwriting is automatically performed. You may make it preserve
  • FIG. FIG. 13 is a block diagram showing an example of an automatic recording apparatus according to Embodiment 6 of the present invention. Note that the same components as those described in the first to fifth embodiments are denoted by the same reference numerals, and redundant description is omitted.
  • the speech recognition unit 2 is composed of a plurality of speech recognizers 21, 22, 23,... (Not shown), and a plurality of speech recognition engines for each language are used to perform speech recognition for each of a plurality of languages.
  • a Japanese speech recognition engine is weak for foreign language speech recognition, and when English is spoken, it is better to use an English speech recognition engine. Therefore, a recognition dictionary for each language such as a speech recognizer 2-1 for Japanese, a speech recognizer 2-2 for English, a speech recognizer 2-3 for German, etc. Are provided with speech recognizers 21, 22, 23,... For each language.
  • the speech recognition unit 2 in which the plurality of speech recognizers 21, 22, 23,... Are connected in parallel will be described as an example.
  • speech recognition unit 2 When the speech recognition unit 2 recognizes the speech output from the speech acquisition unit 1, speech recognition units 21, 22, 23,... Corresponding to a plurality of languages and respective recognition dictionaries (not shown). Are operated in parallel, and each speech recognizer 21, 22, 23,... Performs speech recognition for each of a plurality of languages, and outputs the result to the control unit 4. At that time, each speech recognizer 21, 22, 23,... Outputs the recognition likelihood together with the recognition result.
  • the control unit 4 specifies the language of the speech recognized from the result with the highest likelihood among the results recognized by the plurality of speech recognizers 21, 22, 23,.
  • the song name, artist name, etc. (identification data) of the song (content) extracted in the highest language are stored in the information storage unit 5.
  • a plurality of voice recognition dictionaries 20-1, 20-2, 20-3,... are switched by one voice recognizer 20, as shown in FIG.
  • the speech recognition unit 2 that performs recognition may be used.
  • the voice acquisition unit 1 acquires voice input from an audio device by line input (step ST81). At this time, if the audio input from the audio device is in an analog format, A / D conversion is performed, for example, converted into PCM format and acquired as digital data.
  • the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1 and outputs the recognition result as a character string. At this time, the song title and artist name are extracted by performing large vocabulary continuous speech recognition after comparing with the fixed phrase storage unit 3 (step ST82).
  • the control unit 4 also obtains the likelihood indicating the likelihood (reliability) of the speech of each language recognized by the speech recognition unit 2 and determines the language of the song title / artist name based on the recognition likelihood. Determine (step ST83). For example, the language with the highest likelihood is specified as the language of the song title / artist name. As a result, it is possible to prevent low-accuracy speech recognition using a multilingual speech recognition dictionary and to correctly recognize even foreign language song names and artist names.
  • control unit 4 operates content section detection unit 6 to perform steps ST85 to ST90. Perform the process. Note that the processing in steps ST85 to ST90 is the same as the processing in steps ST13 to ST18 shown in FIG.
  • step ST83 as a method for specifying the language of the song title / artist name based on the likelihood of recognition, speech recognition is performed for all of the plurality of languages provided with the speech recognition dictionary, and the likelihood of the recognition.
  • a method to identify the highest likelihood by comparing degrees and a threshold of recognition likelihood are set, and if the recognition likelihood is equal to or higher than the set threshold, the language is determined.
  • Various methods such as a method of identifying the remaining languages without performing voice recognition can be considered, and any of them may be used.
  • speech recognition using a speech recognition engine of various languages is performed, and the language is determined based on the likelihood of the recognition.
  • the language is determined based on the likelihood of the recognition.
  • the present invention is not limited to music content, and for example, a section may be extracted and recorded for sports broadcast content. Alternatively, sections may be extracted and recorded for talk program content, or sections may be extracted and recorded for documentary content.
  • the automatic recording device of the present invention is a device capable of receiving broadcast data such as radio and television, even if it does not have communication means with the outside, or even in an environment where the Internet connection is poor, Can be applied.
  • the automatic recording device of the present invention is a device capable of receiving broadcast data such as radio and television, even if it does not have communication means with the outside, or even in an environment where the Internet connection is poor, Can be applied.
  • Voice acquisition part 2 voice recognition part, 3 fixed sentence storage part, 4 control part, 5 information storage part, 6 content section detection part, 7 video / audio recording part, 8 input part, 9 output part, 20, 21, 22 , 23, ... Speech recognizers, 20-1, 20-2, 20-3, ... Recognition dictionary.

Abstract

 この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。

Description

自動記録装置
 この発明は、放送データを音声認識して得られた認識結果から情報を自動的に抽出して記録する自動記録装置に関するものである。
 例えば特許文献1には、放送局より放送される放送データを分析して楽曲等のコンテンツデータと会話とに分類して抽出し、抽出したコンテンツデータを数値化して、その数値化されたコンテンツデータを外部機器に送信して照合し、そのコンテンツデータに対応するアーティスト名等の識別データを受信して、その受信した識別データを抽出したコンテンツデータに対応付けて保存するデータ処理装置が開示されている。
特開2008-27573号公報
 しかしながら、例えば特許文献1のような従来のデータ処理装置は、コンテンツデータの識別を行うために、録音したコンテンツデータの特徴量を外部機器へ送信して識別データを受信する必要があり、外部機器との通信が確立しない場合にはデータ処理を行うことができない、という課題があった。また、新曲などの新規のコンテンツに対応するためには外部機器が持つデータベースを更新する必要があり、また、多くのコンテンツを識別可能とするためには、外部機器が持つコンテンツのデータ数を増やさなければいけない、という課題もあった。
 この発明は、上記のような課題を解決するためになされたものであり、放送データから抽出されたコンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを取得し、当該識別データをコンテンツと対応付けて自動的に記録することのできる自動記録装置を提供することを目的とする。
 上記目的を達成するため、この発明の自動記録装置は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存することを特徴とする。
 この発明の自動記録装置によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。
実施の形態1による自動記録装置の一例を示すブロック図である。 定型文記憶部に記憶されている曲紹介文言の一例を示す図である。 情報記憶部に記憶されている曲名・アーティスト名および楽曲が対応付けられているデータの一例を示す図である。 実施の形態1における自動記録装置の動作を示すフローチャートである。 実施の形態2による自動記録装置の一例を示すブロック図である。 情報記憶部に記憶されている曲名・アーティスト名、楽曲および取得回数が対応付けられている情報の一例を示す図である。 実施の形態2における自動記録装置の動作を示すフローチャートである。 実施の形態3における自動記録装置の動作を示すフローチャートである。 実施の形態4による自動記録装置の一例を示すブロック図である。 実施の形態4における自動記録装置の動作を示すフローチャートである。 実施の形態5による自動記録装置の一例を示すブロック図である。 実施の形態5における自動記録装置の動作を示すフローチャートである。 実施の形態6による自動記録装置の一例を示すブロック図である。 実施の形態6による自動記録装置の別の一例を示すブロック図である。 実施の形態6における自動記録装置の動作を示すフローチャートである。
 以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
 図1は、この発明の実施の形態1による自動記録装置の一例を示すブロック図である。この実施の形態では、ラジオ、テレビなどで放送される放送データから、コンテンツおよび当該コンテンツの識別データを音声取得、音声認識して記録する自動記録装置として、音楽コンテンツ(楽曲)とそのコンテンツ(楽曲)の識別データである曲名とアーティスト名を対応付けて保存する場合を例として説明する。なお、以下の実施の形態においても同様とする。
 この自動記録装置は、音声取得部1、音声認識部2、定型文記憶部3、制御部4、情報記憶部5、コンテンツ区間検出部6、映像音声記録部7を備えている。また、この実施の形態1では図示は省略したが、この自動記録装置は、キーやタッチパネル等による入力信号を取得する入力部8や、データを表示または音声により出力する出力部9も備えている(後述する実施の形態4における図9参照)。
 そして、この自動記録装置は、ラジオやテレビなどのオーディオ機器から出力される放送データから音声を取得して認識し、当該認識した結果から、放送されている楽曲(コンテンツ)の名称(曲名)やアーティストの名称(アーティスト名)などの識別データを抽出し、楽曲(コンテンツ)に対応付けて曲名やアーティスト名などの識別データを自動的に情報記憶部に記録するものである。
 音声取得部1は、放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する。この際、オーディオ機器から出力される音声をライン入力などで取得する。アナログで取得した場合はA/D変換して、例えばPCM(Pulse Code Modulation)形式などのデジタル形式に変換して取得する。
 音声認識部2は、認識辞書(図示せず)を有し、音声取得部1により取得された音声データを認識する。具体的には、搭乗者発話等の内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果を文字列で出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。また、音声認識部2は、後述のようにネットワーク上のサーバにあるものとしてもよい。
 ここで利用する音声認識は予め認識辞書で登録した認識語彙を認識する構文型の音声認識と、「あ」「い」「う」「え」「お」などの一文字の音節を連続で認識することにより、任意の文字列を認識可能とする大語彙連続音声認識の両方を併用する。なお、認識全てを大語彙連続認識で行い、認識結果を形態素解析する方法をとってもよい。形態素解析については例えばHMM法のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。
 定型文記憶部3は、楽曲(コンテンツ)を紹介する際の文言として、例えば図2に示すように「次の曲は<アーティスト名>の<曲名>です」、「お聴きいただいたのは<アーティスト名>の<曲名>です」のようなディスクジョッキーやプレゼンテーターなどが曲を紹介する時によく使われる文言を記憶している。以下、これを曲紹介文言と呼ぶ。
 そして前述の音声認識部2は、音声取得部1により取得された音声データを認識するとともに、定型文記憶部3を参照して、すなわち、音声データを認識した認識結果と定型文記憶部3に記憶されている文言とに基づいて、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を抽出して出力する。具体的な抽出方法としては、定型文記憶部3に記憶されている曲紹介文言については<アーティスト名>と<曲名>の部分を大語彙連続認識で認識して抽出し、それ以外の部分を構文型音声認識で認識する。
 制御部4は、音声認識部2により出力された認識結果である曲名、アーティスト名など(識別データ)の文字列を入力とし、その楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を受け取った場合に、後述するコンテンツ区間検出部6へ動作開始の命令を出力、すなわち、楽曲(コンテンツ)の開始時点および終了時点を検知するよう指示を行う。
 情報記憶部5は、例えば図3に示すように、少なくとも楽曲(コンテンツ)と、その楽曲(コンテンツ)のアーティスト名や曲名(識別データ)とを記憶している。なお、この図3に示すように、アーティスト名、曲名(識別データ)を楽曲(コンテンツ)に対応付けて保存するとともに、その楽曲(コンテンツ)を取得(録音)した取得日時なども関連付けて保存するようにしてもよい。また、図3(a)に示すように、曲名ごとのデータとしてもよいし、図3(b)に示すように、アーティストごとにまとめたデータであってもよい。なお、情報記憶部5は、ハードディスクでもよいし、SDカードなどであっても構わない。
 コンテンツ区間検出部6は、制御部4からの指示にしたがって、音声取得部1により取得された音声データから楽曲(コンテンツ)の開始時点および終了時点を検知する。具体的には、音声取得部1から出力されるデジタル音声データを入力とし、入力されたデジタル音声データが持つ周波数の特徴量などを利用して、音声データの中の楽曲(コンテンツ)と会話(コンテンツ以外の部分)の境界区間を検知する。そして、楽曲の開始区間を検知すると、後述する映像音声記録部7に記録開始の命令を送り、楽曲の終了区間を検知すると、映像音声記録部7に記録終了の命令を送る。なお、開始区間や終了区間の検知には時間-周波数解析のような一般的な方法を用いて行えばよいため、ここでは説明を省略する。
 映像音声記録部7は、コンテンツ区間検出部6の命令により、すなわち、コンテンツ区間検出部6により検出された開始時点と終了時点の間のコンテンツ区間における楽曲(コンテンツ)部分のみを記録し、情報記憶部5に保存する。
 そして前述の制御部4は、音声認識部2から受け取った曲名とアーティスト名(識別データ)を映像音声記録部7により記録された楽曲(コンテンツ)と対応付けて情報記憶部5に保存する。
 次に、図4に示すフローチャートを用いて、実施の形態1の自動記録装置の動作を説明する。
 まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST11)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
 次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST12)。
 制御部4は、音声認識部2から曲名・アーティスト名を受け取ると、コンテンツ区間検出部6を動作させる指示を行う。コンテンツ区間検出部6は、音声取得部1により取得されたオーディオ音声に対し信号処理技術を用いて周波数などの特徴量を抽出し、楽曲部分の開始区間を検知して(ステップST13)、映像音声記録部7に記録開始の命令を送る。
 そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて、ステップST13で検知された楽曲の開始位置から楽曲の記録を開始する(ステップST14)。
 また、コンテンツ区間検出部6は、取得されたオーディオ音声に対し信号処理技術を用いて特徴量を抽出し、楽曲部分の終了区間を検知して(ステップST15)、映像音声記録部7に記録終了の命令を送る。
 そして、映像音声記録部7は、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止し(ステップST16)、その録音された楽曲を情報記憶部5に保存する(ステップST17)。
 最後に、制御部4は、ステップST12で抽出されて音声認識部2から取得した曲名・アーティスト名を、ステップST17で保存された楽曲と関連付けて、情報記憶部5に保存する(ステップST18)。
 この結果、例えば図3に示すような関連付けテーブルが保存される。
 このようにして、ラジオやテレビなどの放送データだけに基づいて、大語彙連続音声認識を利用した音声認識を行うことにより、コンテンツの識別データを参照するための外部データベースが不要となり、当該外部データベースの作成、更新の手間も省くことができ、さらに、その外部データベースとの通信も不要となる。
 また、識別データと、コンテンツ開始部分が抽出できたことを条件にコンテンツを記録するため、記憶媒体の容量を圧迫せずに曲部分のみを効率的に保存することができる。
 以上のように、この実施の形態1によれば、放送データを音声認識して得られた認識結果から、楽曲などのコンテンツに対応する曲名やアーティスト名等の識別データを抽出することにより、コンテンツの情報を外部機器へ送信、受信することなく、そのコンテンツの識別データを受け取り、当該識別データをコンテンツと対応付けて自動的に記録することができる。
実施の形態2.
 図5は、この発明の実施の形態2による自動記録装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、制御部4が情報記憶部5に保存されている情報を参照することにより、ユーザの嗜好にあったコンテンツのみを記録するものである。
 情報記憶部5には、例えば図6に示すような形式で、音声認識部2から出力されたアーティスト名、曲名(識別データ)が楽曲(コンテンツ)に対応付けて保存されているだけではなく、それぞれの楽曲(コンテンツ)やそのアーティストの楽曲(コンテンツ)が取得された回数を含むデータが保存されており、この情報記憶部5に記憶されているデータは制御部4より参照可能とする。
 そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を入力とし、当該曲名とアーティスト名(識別データ)を情報記憶部5に記録するとともに、情報記憶部5に記憶されている当該データ(取得回数を含む当該コンテンツに関する情報)を参照することにより、そのコンテンツを取得した回数が所定の回数以上である場合にのみ、コンテンツ区間検出部6へ動作開始の命令を出力する。
 次に、図7に示すフローチャートを用いて実施の形態2における自動記録装置の動作を説明する。
 まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST21)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
 次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST22)。
 制御部4は、音声認識部2から曲名・アーティスト名を取得すると、取得した曲名・アーティスト名について情報記憶部5に記憶されているデータを参照し、当該曲名・アーティスト名のコンテンツを取得した回数が所定の回数以上である場合(ステップST23のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST24~ST29の処理を行う。
 なお、ステップST24~ST29の処理については、実施の形態1における図4に示したステップST13~ST18の処理と同一であるため、説明を省略する。
 一方、ステップST23において、ステップST22で抽出された曲名・アーティスト名の楽曲の取得回数が所定の回数未満である場合(ステップST23のNOの場合)には、制御部4は音声認識部2から出力された曲名・アーティスト名を、その取得回数を1回追加して情報記憶部5に保存する(ステップST30)。
 このように、既に所定の回数以上取得している曲名・アーティスト名の楽曲、すなわち、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。
 以上のように、この実施の形態2によれば、実施の形態1における効果に加え、ユーザの嗜好に合ったコンテンツのみを記録することができるので、記憶媒体の容量を圧迫せずに曲部分のみを効率的に記録することができる。
実施の形態3.
 この発明の実施の形態3による自動記録装置の一例を示すブロック図は、実施の形態2の図5に示したブロック図と同じであるため、図示および説明を省略する。そして、以下に示す実施の形態3では、実施の形態2と比べると、楽曲(コンテンツ)の区間検出開始の命令を行うかどうかを、その楽曲(コンテンツ)がユーザの嗜好に合ったものであるか否かによるのではなく、音声認識の尤度によって決定するものである。
 なお、この実施の形態3では、音声認識部2が認識結果を制御部4に出力する際に、その認識結果とともにその認識の尤度も出力する。
 次に、図8に示すフローチャートを用いて実施の形態3における自動記録装置の動作を説明する。
 まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST31)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
 次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST32)。
 また、音声認識部2により認識結果が出力される際に、音声認識部2において認識された音声の確からしさ(もっともらしさ)を示す尤度もともに出力され、制御部4は、その認識の尤度も同時に取得し、当該認識の尤度が所定の値以上である場合(ステップST33のYESの場合)にのみ、コンテンツ区間検出部6を動作させ、ステップST34~ST39の処理を行う。
 なお、ステップST34~ST39の処理については、実施の形態1における図4に示したステップST13~ST18の処理と同一であるため、説明を省略する。
 一方、ステップST33において、音声認識の尤度が所定の値未満である場合(ステップST33のNOの場合)には、そのまま処理を終了する。
 ここで、尤度の具体例について説明する。例えば、大語彙連続音声認識において、認識された音声一音ずつの確からしさ(もっともらしさ)は、放送データから聞こえてくる司会者などの滑舌の良さや雑音の少なさによって高くなるものであり、通常は60~70%以上の尤度であれば、その音(文字)が出力されたと判断される。そこで、ステップST33における所定の値として、例えば80%を設定しておくことにより、正しく音声認識された場合にのみステップST34以降の処理に進むようにする。
 また、例えば、定型文記憶部3に記憶されている曲紹介文言(図2)と比較した構文型音声認識において、一致する文言が何%あるかによって、認識された音声が曲紹介であるか否かという尤度を算出するようにしてもよい。この場合にも、ステップST33における所定の値としては、例えば80%と設定しておくことにより、曲紹介の構文が正しく音声認識された場合にのみステップST34以降の処理に進むようにする。
 これにより、低い尤度の音声認識結果に基づいて、誤ってコンテンツ区間検出部6が動作することを防ぐことができるとともに、誤った曲名やアーティスト名(識別データ)を関連付けた楽曲(コンテンツ)を保存してしまうことを防ぐことができる。
 以上のように、この実施の形態3によれば、実施の形態1における効果に加え、音声認識の尤度が所定の値以上である場合のみコンテンツの識別データとコンテンツとを記録することができるので、誤った識別データを関連付けたコンテンツを保存してしまい、記憶媒体の容量を圧迫するのを防ぐことができる。
実施の形態4.
 図9は、この発明の実施の形態4による自動記録装置の一例を示すブロック図である。なお、実施の形態1~3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。この実施の形態4のブロック図には、実施の形態1~3では図示を省略した、キーやタッチパネル等による入力信号を取得することによりユーザからの操作入力を受け付ける入力部8と、データを表示または音声出力することによりユーザにデータを提示する出力部9も図示されており、以下に示す実施の形態4では、これらの入力部8および出力部9を介して、ユーザが楽曲(コンテンツ)の保存の要否を選択することができるものである。
 そして制御部4は、音声認識部2から出力された曲名、アーティスト名など(識別データ)の文字列を取得すると、それらの曲名、アーティスト名など(識別データ)を出力部9を介して提示することにより保存の要否をユーザに確認し、入力部8を介してユーザからの入力を受け付けることにより、楽曲(コンテンツ)の保存要否を判断する。具体的には、入力部を介して保存要である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を楽曲(コンテンツ)に対応付けて情報記憶部5に保存し、保存否である旨の入力を受け付けた場合には、楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)のみを保存する。
 入力部8は、ユーザの意思を入力するものであり、例えばボタンやタッチディスプレイなどでもよいし、マイク等による音声認識を用いた音声入力や、ジェスチャー入力によるものでもよい。また、それらを組み合わせたものであっても構わない。
 出力部9は、制御部4により出力された曲名、アーティスト名(識別データ)を、例えば合成音声を利用して出力するものでもよいし、ディスプレイ画面に文字を表示するものでもよい。また、それら両方に出力しても構わない。
 次に、図10に示すフローチャートを用いて実施の形態4における自動記録装置の動作を説明する。
 ステップST41~ST46の処理については、実施の形態1における図4に示したステップST11~ST16の処理と同一であるため、説明を省略する。
 そして、ステップST46において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、出力部9に対して曲名・アーティスト名を出力するよう指示を行い、ユーザにその楽曲の保存をするかどうか確認を求める(ステップST47)。
 ユーザが、入力部8を介して曲名・アーティスト名が示された楽曲について保存要の選択をした場合、すなわち、入力部8が楽曲の保存要否について保存要である旨のユーザの入力を受け付けると(ステップST48のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST49)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST50)。
 一方、ステップST48において、ユーザが保存要の選択をしなかった場合、すなわち、入力部8が楽曲の保存要否について保存否である旨のユーザの入力を受け付けた場合(ステップST48のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST51)。
 以上のように、この実施の形態4によれば、実施の形態1における効果に加え、コンテンツを記録した後でさらに、ユーザに対して保存要否の確認を行ってから必要な場合にだけ保存するようにしたので、ユーザが所望しないコンテンツの保存を防ぐことができる。
実施の形態5.
 図11は、この発明の実施の形態5による自動記録装置の一例を示すブロック図である。なお、実施の形態1~4で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態5では、実施の形態4と比べると、制御部4がコンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で記録された楽曲と、情報記憶部5に保存されている楽曲とを比較して、既に同一の曲名・アーティスト名の楽曲が保存済みの場合には、音質の良い方を保存するようにしたものである。
 制御部4は、コンテンツ区間検出部6による楽曲の終了区間検知時に映像音声記録部7で録音された楽曲を取得して、当該楽曲の音質の良さを数値化する。この時、音質の良さを数値化する方法としては、S/N比などの一般的な手法を用いればよいので、ここでは説明を省略する。なお、音質の良さの基準としては、録音時間を用いてもよいし、S/N比と録音時間とを組み合わせてもよい。
 さらに制御部4は、情報記憶部5に記憶されているデータを参照することにより、音声認識部2において抽出されたコンテンツの識別データについて、同一のデータ(曲名、アーティスト名を持つ曲)が情報記憶部5に存在するか否かを判別し、存在する場合には、映像音声記録部7で録音された楽曲(コンテンツ)と、情報記憶部5に保存されている楽曲(コンテンツ)の音質とを比較し、新たに映像音声記録部7により録音された楽曲(コンテンツ)の方が既存の楽曲より音質が高い場合にのみ、自動的に情報記憶部5に保存されている楽曲(コンテンツ)に上書きして保存する。
 次に、図12に示すフローチャートを用いて実施の形態5における自動記録装置の動作を説明する。
 ステップST61~ST66の処理については、実施の形態1における図4に示したステップST11~ST16の処理と同一であるため、説明を省略する。
 そして、ステップST66において、映像音声記録部7が、コンテンツ区間検出部6からの命令を受けて楽曲の記録を停止した後、制御部4は、ステップST62で音声認識部2により検出された曲名・アーティスト名と同一の楽曲が既に情報記憶部5に保存されているか否かを判別し(ステップST67)、既に同一の楽曲が保存済みである場合(ステップST67のYESの場合)には、さらにステップST64~ST66において映像音声記録部7に録音された楽曲を取得して、当該楽曲の音質の良さを数値化した音質情報を、情報記憶部5に保存されている楽曲の音質と比較する(ステップST68)。
 ステップST64~ST66において映像音声記録部7に録音された楽曲の音質が既存の楽曲の音質より高い場合(ステップST68のYESの場合)、映像音声記録部7に録音された楽曲を情報記憶部5に保存し(ステップST69)、曲名・アーティスト名をその楽曲と関連付けて情報記憶部5に保存する(ステップST70)。
 また、ステップST67の判断において、同一の楽曲が情報記憶部5に保存されていない場合(ステップST67のNOの場合)にも、上記ステップST69およびST70の処理を行う。
 一方、ステップST68において、映像音声記録部7に録音された楽曲の音声津が既存の楽曲の音質以下だった場合(ステップST68のNOの場合)には、曲名・アーティスト名だけを情報記憶部5に保存して、その曲名・アーティスト名の取得回数など、曲名・アーティスト名情報を更新する(ステップST71)。
 以上のように、この実施の形態5によれば、実施の形態1における効果に加え、既に取得している曲名・アーティスト名について、新しく取得した楽曲の音質が高い場合には、その楽曲(コンテンツ)を記録し、既存の楽曲の音質以下だった場合には、楽曲(コンテンツ)を上書きしないようにすることにより、常に音質の良いコンテンツに自動で更新することができる。
 なお、この実施の形態5では、新たに録音された曲の音質が既存の曲の音質より高かった場合に、自動的に上書き保存を行うものとして説明したが、ユーザに上書き保存の要否を確認してから保存するようにしてもよい。
 この場合には、既存の楽曲の音質以下だった場合には楽曲(コンテンツ)を上書きしないことに加え、既存の楽曲の音質より高かった場合であっても、ユーザの確認を得た上で上書き保存するようにしたので、ユーザの都合により、音質の良い方を保存するよう選択したり、音質は多少悪くても好みの録音状態の楽曲を残すように選択したりすることができる。
実施の形態6.
 図13は、この発明の実施の形態6による自動記録装置の一例を示すブロック図である。なお、実施の形態1~5で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態6では、実施の形態2と比べると、音声認識部2が複数の音声認識器21,22,23,・・・により構成されており、複数の言語ごとに認識辞書(図示せず)を有するものであり、それら言語ごとの複数の音声認識エンジンを使用して、複数の言語ごとに音声認識を行うようにしたものである。
 一般的に、例えば日本語の音声認識エンジンは、外国語の音声認識には弱く、英語が発話された場合には、英語の音声認識エンジンを使用した方が認識精度が高い。そこで、日本語用の音声認識器2-1、英語用の音声認識器2-2、ドイツ語用の音声認識器2-3、・・・等のように、それぞれが各言語ごとの認識辞書を有する各言語ごとの音声認識器21,22,23,・・・を備えるようにした。ここでは、それら複数の音声認識器21,22,23,・・・を並列に接続した音声認識部2を使用する場合を例として説明する。
 そして、音声認識部2が音声取得部1から出力された音声を認識する際に、複数の言語に対応する音声認識器21,22,23,・・・とそれぞれの認識辞書(図示せず)とを並列に動作させて、各音声認識器21,22,23,・・・により複数の言語ごとに音声認識を行い、その結果を制御部4に出力する。その時、各音声認識器21,22,23,・・・は、認識結果とともにその認識の尤度も出力する。
 制御部4は、複数の音声認識器21,22,23,・・・により認識された結果の中で最も尤度の高い結果から認識された音声の言語を特定し、その認識の尤度が最も高い言語により抽出された楽曲(コンテンツ)の曲名、アーティスト名など(識別データ)を情報記憶部5に保存する。
 なお、図13に示す音声認識部2に代えて、図14に示すように、1つの音声認識器20で複数の音声認識辞書20-1,20-2,20-3,・・・を切り替えて認識を行う音声認識部2を使用するようにしてもよい。
 次に、図15に示すフローチャートを用いて実施の形態6における自動記録装置の動作を説明する。
 まず、音声取得部1は、オーディオ機器より入力された音声をライン入力で取得する(ステップST81)。この時、オーディオ機器から入力された音声がアナログ形式の場合はA/D変換を行い、例えばPCM形式に変換してデジタルデータとして取得する。
 次に、音声認識部2は、音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する。この際、定型文記憶部3と比較した上で、大語彙連続音声認識を行うことにより、曲名およびアーティスト名を抽出する(ステップST82)。
 制御部4は、音声認識部2においてに認識された各言語の音声の確からしさ(もっともらしさ)を示す尤度も同時に取得し、その認識の尤度に基づいて、曲名・アーティスト名の言語を決定する(ステップST83)。例えば、最も尤度の高い言語を、曲名・アーティスト名の言語であると特定する。これにより、多言語の音声認識辞書を用いて精度の低い音声認識が行われることを防ぎ、外国語の曲名・アーティスト名であっても正しく認識することができる。
 さらに制御部4は、ステップST83で決定した言語の音声認識の尤度が所定の値以上である場合(ステップST84のYESの場合)には、コンテンツ区間検出部6を動作させ、ステップST85~ST90の処理を行う。
 なお、ステップST85~ST90の処理については、実施の形態1における図4に示したステップST13~ST18の処理と同一であるため、説明を省略する。
 なお、ステップST83において、認識の尤度に基づいて曲名・アーティスト名の言語を特定する方法としては、音声認識辞書を備えている複数の言語すべてに対して音声認識を行い、それらの認識の尤度を比較して最も尤度の高いものを特定する方法や、認識の尤度の閾値を設定しておき、認識の尤度が設定された閾値以上であればその言語であると判断して残りの言語については音声認識を行わずに特定する方法など、様々な方法が考えられるが、それらのいずれを用いても構わない。
 以上のように、この実施の形態6によれば、実施の形態1における効果に加え、各種言語の音声認識エンジンを用いた音声認識を行って、その認識の尤度に基づいて言語を決定することにより、外国語の曲名・アーティスト名であっても正しく認識して保存することができる。
 なお、上記の実施の形態では、コンテンツが楽曲である場合、すなわち、音楽コンテンツの場合を例として説明したが、音楽コンテンツに限らず、例えばスポーツ中継のコンテンツについて区間を抽出、記録を行ってもよいし、トーク番組のコンテンツについて区間を抽出、記録を行ってもよいし、ドキュメンタリーのコンテンツについて区間を抽出、記録を行うようにしてもよい。
 この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明の自動記録装置は、ラジオやテレビなどの放送データを受信することができる装置であれば、外部との通信手段を備えていない場合や、インターネットの接続状態が悪い環境であっても、適用することができる。
 1 音声取得部、2 音声認識部、3 定型文記憶部、4 制御部、5 情報記憶部、6 コンテンツ区間検出部、7 映像音声記録部、8 入力部、9 出力部、20,21,22,23,・・・ 音声認識器、20-1,20-2,20-3,・・・ 認識辞書。

Claims (6)

  1.  放送データから、コンテンツおよび当該コンテンツの識別データを含む音声を検知して取得する音声取得部と、
     前記コンテンツを紹介する際の文言を記憶する定型文記憶部と、
     前記音声取得部により取得された音声データを認識するとともに、当該認識結果と前記定型文記憶部に記憶されている文言とに基づいて、前記コンテンツの識別データを抽出して出力する音声認識部と、
     前記音声認識部から前記コンテンツの識別データを受け取った場合に、前記コンテンツの開始時点および終了時点を検知するよう指示する制御部と、
     前記制御部からの指示にしたがって、前記音声取得部により取得された音声データから前記コンテンツの開始時点および終了時点を検知するコンテンツ区間検出部と、
     前記コンテンツ区間検出部により検出された開始時点と終了時点の間のコンテンツ区間におけるコンテンツを記録する映像音声記録部と、
     少なくとも前記映像音声記録部により記録されたコンテンツと、前記コンテンツの識別データとを記憶する情報記憶部とを備え、
     前記制御部は、前記コンテンツの識別データを前記映像音声記録部により記録されたコンテンツと対応付けて前記情報記憶部に保存する
     ことを特徴とする自動記録装置。
  2.  前記情報記憶部に記憶されているデータは、前記コンテンツを取得した回数を含み、
     前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記コンテンツを取得した回数が所定の回数以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
     ことを特徴とする請求項1記載の自動記録装置。
  3.  前記音声認識部は、前記認識結果とともに当該認識の尤度も出力し、
     前記制御部は、前記認識の尤度が所定の値以上である場合にのみ、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
     ことを特徴とする請求項1記載の自動記録装置。
  4.  ユーザからの操作入力を受け付ける入力部と、
     前記ユーザにデータを提示する出力部とをさらに備え、
     前記制御部は、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する際に、前記出力部を介して前記保存の要否を前記ユーザに確認し、前記入力部を介して保存要である旨の入力を受け付けた場合には、前記コンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存し、前記入力部を介して保存否である旨の入力を受け付けた場合には、前記コンテンツの識別データのみを前記情報記憶部に保存する
     ことを特徴とする請求項1記載の自動記録装置。
  5.  前記制御部は、前記情報記憶部に記憶されているデータを参照することにより、前記抽出されたコンテンツの識別データと同一のデータが前記情報記憶部に存在するか否かを判別し、存在する場合には、前記映像音声記録部により記録されたコンテンツと、前記情報記憶部に保存されているコンテンツの音質を比較し、前記映像音声記録部により記録されたコンテンツの方が音質が高い場合にのみ、当該映像音声記録部により記録されたコンテンツを前記情報記憶部に保存されているコンテンツに上書きして保存する
     ことを特徴とする請求項1記載の自動記録装置。
  6.  前記音声認識部は、複数の言語ごとに認識辞書を有するものであり、前記複数の言語ごとに音声認識を行い、その認識結果とともに当該認識の尤度も出力し、
     前記制御部は、前記認識の尤度に基づいて前記コンテンツの識別データの言語を特定し、当該特定された言語により抽出されたコンテンツの識別データを前記コンテンツと対応付けて前記情報記憶部に保存する
     ことを特徴とする請求項1記載の自動記録装置。
PCT/JP2012/003652 2012-06-04 2012-06-04 自動記録装置 WO2013183078A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2012/003652 WO2013183078A1 (ja) 2012-06-04 2012-06-04 自動記録装置
JP2014519697A JP5591428B2 (ja) 2012-06-04 2012-06-04 自動記録装置
CN201280073736.0A CN104350545B (zh) 2012-06-04 2012-06-04 自动记录装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/003652 WO2013183078A1 (ja) 2012-06-04 2012-06-04 自動記録装置

Publications (1)

Publication Number Publication Date
WO2013183078A1 true WO2013183078A1 (ja) 2013-12-12

Family

ID=49711508

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/003652 WO2013183078A1 (ja) 2012-06-04 2012-06-04 自動記録装置

Country Status (3)

Country Link
JP (1) JP5591428B2 (ja)
CN (1) CN104350545B (ja)
WO (1) WO2013183078A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161632A (ja) * 2014-02-28 2015-09-07 富士通テン株式会社 画像表示システム、ヘッドアップディスプレイ装置、画像表示方法、及び、プログラム
WO2020057467A1 (zh) * 2018-09-20 2020-03-26 青岛海信电器股份有限公司 信息处理装置、信息处理系统以及影像装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018179425A1 (ja) * 2017-03-31 2018-10-04 株式会社オプティム 音声内容記録システム、方法及びプログラム
JP2019200393A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085884A (ja) * 2001-09-14 2003-03-20 Pioneer Electronic Corp 情報記録装置
JP2007219178A (ja) * 2006-02-16 2007-08-30 Sony Corp 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
JP2007306327A (ja) * 2006-05-11 2007-11-22 Mitsubishi Electric Corp 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP2011223205A (ja) * 2010-04-07 2011-11-04 Onkyo Corp 放送記録装置およびそのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1054484C (zh) * 1993-12-21 2000-07-12 罗伊·J·曼科维茨 识别广播节目与存取其有关信息的装置和方法
EP1573462A2 (en) * 2002-10-28 2005-09-14 Gracenote, Inc. Personal audio recording system
GB0625178D0 (en) * 2006-12-18 2007-01-24 Ubc Media Group Plc Improvements relating to downloading data
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085884A (ja) * 2001-09-14 2003-03-20 Pioneer Electronic Corp 情報記録装置
JP2007219178A (ja) * 2006-02-16 2007-08-30 Sony Corp 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
JP2007306327A (ja) * 2006-05-11 2007-11-22 Mitsubishi Electric Corp 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP2011223205A (ja) * 2010-04-07 2011-11-04 Onkyo Corp 放送記録装置およびそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161632A (ja) * 2014-02-28 2015-09-07 富士通テン株式会社 画像表示システム、ヘッドアップディスプレイ装置、画像表示方法、及び、プログラム
WO2020057467A1 (zh) * 2018-09-20 2020-03-26 青岛海信电器股份有限公司 信息处理装置、信息处理系统以及影像装置

Also Published As

Publication number Publication date
CN104350545B (zh) 2016-10-05
JPWO2013183078A1 (ja) 2016-01-21
CN104350545A (zh) 2015-02-11
JP5591428B2 (ja) 2014-09-17

Similar Documents

Publication Publication Date Title
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
US8473295B2 (en) Redictation of misrecognized words using a list of alternatives
CN105931644B (zh) 一种语音识别方法及移动终端
US6604076B1 (en) Speech recognition method for activating a hyperlink of an internet page
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP4416643B2 (ja) マルチモーダル入力方法
JP2002032213A (ja) ボイス・メール・メッセージを転記する方法およびシステム
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
WO2007069372A1 (ja) 音声認識装置
US20020065653A1 (en) Method and system for the automatic amendment of speech recognition vocabularies
JP5591428B2 (ja) 自動記録装置
US7010485B1 (en) Method and system of audio file searching
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP4639094B2 (ja) 音声認識システム、音声認識装置及び音声認識プログラム
JP2007004280A (ja) コンテンツ情報提供装置
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP2001306091A (ja) 音声認識システムおよび単語検索方法
CN110782899A (zh) 信息处理装置、存储介质及信息处理方法
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
EP4258258A2 (en) Approaches of augmenting outputs from speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12878607

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014519697

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12878607

Country of ref document: EP

Kind code of ref document: A1