WO2010024426A1 - 録音装置 - Google Patents

録音装置 Download PDF

Info

Publication number
WO2010024426A1
WO2010024426A1 PCT/JP2009/065142 JP2009065142W WO2010024426A1 WO 2010024426 A1 WO2010024426 A1 WO 2010024426A1 JP 2009065142 W JP2009065142 W JP 2009065142W WO 2010024426 A1 WO2010024426 A1 WO 2010024426A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
situation
data
speech
unit
Prior art date
Application number
PCT/JP2009/065142
Other languages
English (en)
French (fr)
Inventor
紀行 畑
詠子 小林
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2010024426A1 publication Critical patent/WO2010024426A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Definitions

  • the present invention relates to a recording apparatus for recording a voice of a meeting or the like and reproducing the recorded voice from a desired recording part.
  • a device for recording a conference has been proposed.
  • the conference voice is recorded, but also the recorded voice data is divided into sections for each speaker and displayed in a time chart format so that which section has which section.
  • the recorded voice data is divided into sections for each speaker and displayed in a time chart format so that which section has which section.
  • non-speech section has been deleted because it is a meaningless section as a minutes, but such a non-speech section may be meaningful in order to know the atmosphere of the conference.
  • the present invention provides a recording apparatus that can display a list of atmospheres in each section while separately displaying speech sections and non-speech sections.
  • the present invention represents an audio data storage unit that stores audio data, an interval information storage unit that stores interval information that divides the audio data into a plurality of intervals for each audio generation source, and represents the audio status of each interval
  • a situation data storage unit for storing situation data, and a range of each section based on the section information is displayed along a time axis, and information indicating a situation of each section based on the situation data is displayed in the range display of the section.
  • a recording device including a display unit for displaying the images in a superimposed manner.
  • section information for dividing the voice data into a plurality of sections for each voice generation source is stored.
  • the speaker is the source of voice.
  • a time zone in which no voice is present for example, a silent section, a section in which sound other than speech is generated, etc.
  • the situation data representing the voice situation of each section is stored.
  • the voice situation is, for example, the kind of voice such as a bright voice, an angry voice, and the atmosphere of the spot.
  • each section and information for example, a graphic
  • the recording apparatus can include a situation analysis unit that analyzes the situation of each section based on the voice data and writes the situation data representing the analyzed situation of each section in the situation data storage unit.
  • the situation analysis unit can analyze the situation of the silent section based on the situation of the last voiced section.
  • the recording apparatus may include an audio data input unit that inputs the audio data as a stream and outputs the audio data to the audio data storage unit and the situation analysis unit, and the situation analysis unit displays the status of the audio data input as a stream. It can be analyzed in real time.
  • the recording device receives an operation of selecting an arbitrary section and an operation of inputting the situation data of the selected section, and writes the input situation data as the situation data of the selected section in the situation data storage unit Context data input means can be further provided.
  • the situation analysis unit can analyze the situation by batch processing, or can analyze the situation in real time.
  • the situation analysis unit can analyze the situation of the silent section based on the situation of the voiced section before and after the silent section. Also, using the situation data input means, the operator can input the situation data while listening to the recorded voice data.
  • the voice data storage unit can store voice data obtained by collecting the speech of a plurality of attendees in a conference, and the section information storage unit is not a section or a speech for each participant's speech. Section information divided into sections can be stored.
  • the section information storage unit can store a section of laughter, applause, noise or silence as a section that is not the speech.
  • the recording apparatus of the present invention is preferably applied to conference recording.
  • the speech section is divided for each attendee, and the section that is not a speech is also of the type (for example, laughter, applause, noise, silence). ) And analyze the situation of each section.
  • the recording device may include an operation unit that receives an operation for designating an arbitrary section on the display unit, and a playback unit that reproduces audio data of the section specified by the operation unit.
  • each section can be displayed as a voice generation source, for example, as a band-shaped area indicating a time zone, and by designating the display area by an operation such as clicking with a mouse, the desired section can be easily selected. Playback is possible.
  • the voice data is divided into a plurality of sections for each voice generation source such as a conference speaker, and information indicating the state of the voice, for example, a graphic, is displayed together with each section. It is possible to know the distribution of voice sources such as a person in a list and to know the situation of each section at a glance.
  • FIG. 1 is a configuration diagram of a proceeding recording system according to an embodiment of the present invention
  • FIG. 2 is a block diagram of the proceeding recording system.
  • the agenda recording system is composed of a recording terminal 1, a playback terminal 2 and a recording medium 3.
  • a recording terminal 1 is installed, for example, on a table 4 in a conference room, and collects speech of a plurality of, for example, six attendees 41 to 46 and records it as audio data on a recording medium 3.
  • the recording terminal 1 analyzes the audio signal, acquires the section data and the situation data as described later, and records both data on the recording medium 3 together with the audio data.
  • the recording terminal 1 includes a sound collection unit 10, an analysis unit 11, and a recording unit 12, as shown in FIG.
  • the sound collection unit 10 collects voices of a plurality of attendees (the attendees 41 to 46 in the example of FIG. 1), converts the collected voices into digital voice signals, and inputs them to the analysis unit 11 and the recording unit 12 For example, stream input.
  • the sound collection unit 10 includes a necessary number of microphones.
  • the microphone is a microphone array, a plurality of unidirectional microphones individually directed to the attendees 41 to 46, and one or a plurality of unidirectional or omnidirectional microphones that collectively collect the voices of all speakers. Any of microphones may be used.
  • a plurality of narrowly-directed sound collecting beams may be formed to individually collect the voices of the attendees 41 to 46, or a plurality of sound collecting characteristics having wide-angle directivity characteristics may be provided.
  • the voices of the attendees 41 to 46 may be collected at once. Note that a method of collecting sound of each attendee by forming a sound collecting beam is described in detail in Japanese Patent Application Laid-Open No. 2007-256498 of the present applicant.
  • the analysis unit 11 analyzes the digital audio signal stream-input from the sound collection unit 10 in real time, and detects a speech segment and a non-speech segment by detecting a segment of each participant's speech. In addition, for each speech segment, the speaker of which participant's speech is identified, and for the non-speak segment, whether the segment is a silent segment, a laughter segment, a clap segment, or a sound segment To do.
  • the speech of each attendee can be identified by recognizing the speech waveform.
  • each attendee is provided with a microphone individually, or when a sound collection beam is directed to each attendee using a microphone array, which microphone or which sound collection beam collects sound.
  • the speaker can be identified based on what has been done.
  • the laughing section is a section where the laughing voices of unspecified attendees are collected.
  • the applause section is a section in which applause of unspecified attendees is collected.
  • the sound noise section is a section in which sound sounds other than the attendee's remarks, laughter, and applause (for example, a paper rubbing sound when distributing documents) are collected.
  • the silent section is a section where the speaker is silent and no other sound can be heard.
  • FIG. 4 shows an example of the processing result by the analysis unit 11 described above.
  • the analysis unit 11 analyzes the audio signal and acquires the interval data.
  • the section data includes speech section identification information that represents a speech section and its length, and non-speech section identification information that represents a non-utterance section and its length.
  • the speech segment identification information includes speech identification information 51 to 56 representing speech by attendees 41 to 46 and their lengths, respectively.
  • the non-speech segment identification information includes a silence segment, a laughter segment, a clap segment, a sound segment, and a silence segment identification information, a laugh segment identification information, a clap segment identification information, and a sound segment identification information each representing the length thereof.
  • each identification information is shown along a vertical axis
  • the length of the section corresponding to each identification information is indicated by the length of the band corresponding to the identification information.
  • the analysis unit 11 analyzes the situation of each speech section and the non-speech section, and outputs the analysis result as context data.
  • the situation of the speech section is, for example, the atmosphere of the speech section determined from the tone of the speaker, and is classified into atmospheres such as “angry”, “fun”, and “no emotion”.
  • the situation of the non-speaking section is also meaningful in that it represents the atmosphere of the place in relation to the preceding and following speaking sections.
  • the silent section includes “silence when the topic has disappeared”, “silence after angry”, “silent silence”, and the like.
  • the analysis unit 11 analyzes the situation of the non-speaking section with reference to the situation of the preceding and following speaking sections.
  • the analysis unit 11 has an analysis engine and a knowledge base for analyzing the situation.
  • This situation analysis can be realized by applying a technique described in, for example, JP-A-2002-91482.
  • emotions included in a speech are analyzed based on strength, tempo, inflection and the like.
  • the analysis unit 11 adds analysis impossible data indicating that analysis cannot be performed instead of analysis data for a section where the situation cannot be analyzed.
  • An unanalysable section can be indicated by, for example, a “?” Mark in the message list display (described later) shown in FIG. 5, or the operator of the playback terminal 2 can input such a mark manually. it can.
  • the recording unit 12 has a slot for the storage medium 3 and records the minutes data on the recording medium 3 set in the slot.
  • the minutes data includes voice data recorded during the meeting, the section data described above with reference to FIG. 4, and the above-described situation data obtained by analyzing the situation of each speech section / non-speech section.
  • the storage medium 3 for example, a semiconductor medium such as an SD card is used.
  • the storage medium 3 has an audio data track 3a, a section data track 3b, and a status data track 3c.
  • audio data is time-coded and written in time series
  • section data track 3b the start timing and end timing time (time code) of the section and the speaker or non-speaker of the section
  • Identification information representing the speech voice is written in time series for each section.
  • situation data track 3c situation data representing the situation analysis result of each speech section / non-speech section is written in association with each section.
  • the playback terminal 2 is a device for reading the minutes data recorded in the storage medium 3 and playing / editing it.
  • the playback terminal 2 is realized by causing a notebook computer to execute a program.
  • the playback terminal 2 displays a message list as shown in FIG. 5 based on the minutes data recorded in the storage medium 3.
  • the playback terminal 2 listens to the utterance reproduced by the reproduction terminal 2, and as a result, the atmosphere of the utterance is determined to be different from the situation data, and the situation data is obtained. If corrected, the correction of the situation data is accepted.
  • the playback terminal 2 functionally includes a recording management unit 20, a display unit 21, a playback unit 22, and an operation unit 23 as shown in FIG.
  • the recording management unit 20 reads the section data and the situation data from the storage medium 3 (SD card) inserted in the media slot of the playback terminal 2 (notebook personal computer) and writes the correction situation data.
  • the display unit 21 is a display of a notebook personal computer, for example, and displays a remark list as shown in FIG. 5 based on image data and situation data read from the storage medium 3.
  • the display unit 21 includes an image memory for storing a mark image corresponding to each situation data.
  • the reproduction unit 22 includes an audio circuit, a speaker, and the like, reads out and reproduces audio data in a specified section, and emits sound as sound.
  • the operation unit 23 includes a keyboard and a mouse, and performs operations such as display of a speech list (FIG. 5), designation of speech segments / non-speech segments, playback / stop of voice data, correction of situation data of speech segments / non-speech segments, etc. Accept.
  • FIG. 5 is a diagram showing a list of messages displayed on the screen of the display unit 21 of the playback device 2.
  • the speech list includes attendee information (participant names 61-66 in the example of FIG. 5) and information indicating the type of non-speech voice (characters in the example of FIG. 5). "Silence”, “Laughter”, “Applause”, “Sound”) are shown along the vertical axis, the elapsed time from the start of data playback is taken along the horizontal axis, and each speech segment and non-speech segment correspond to their length The mark corresponding to the situation data of each section is displayed on the strip-shaped area of the section.
  • the display of the comment section 31 indicates that the attendee 41 has spoken for 50 seconds from 00:00:00, and that the comment situation was generally in a bright tone.
  • a clear mark representing a bright tone for example, a rain mark representing a dark tone, a cloudy mark representing a slightly dark tone, and a thunder mark representing an angry tone can be used as the mark of the speech section.
  • a plurality of marks may be attached in the comment section.
  • the mark of the silent section 33 is a mark representing heavy silence. Since this situation is considered to be a silent section that occurs due to the silence of all the attendees in the meeting in response to the speaker 44 being angry in the previous section 32, for example, a heavy silence is caused. A mark to represent is assigned.
  • note marks are assigned to the laughing sections 35 and 36 and the applause section 37.
  • the situation data of the laughter section / applause section indicates the size of the laughter / applause, and in the display of the remark list, the size of the laughter / applause is expressed by the size of the note.
  • FIG. 6 is a flowchart showing the audio data reproduction / situation data correction operation of the reproduction apparatus 2.
  • sound data is reproduced according to the operation of the operator 47, and a mark (situation data) assigned to the operation target section is corrected according to the operation of the operator.
  • the playback device 2 When the playback operation starts, the playback device 2 first displays the message list shown in FIG. 5 on the display (screen of the display unit 21) (S1). Then, it waits until there is a designation operation, a reproduction operation, a reproduction stop operation, a mark change operation, or an end operation.
  • the designation operation is an operation for designating one section from the message list (see FIG. 5) displayed on the display. This designation operation is performed when the operator clicks the display area of a desired section with the mouse.
  • the playback operation / playback stop operation is an operation for instructing start / stop of playback of audio data, and a mouse click of a start button / stop button displayed on the display or a specific operation of the keyboard (for example, Ctrl + a / Ctrl + z). Etc.).
  • the mark change operation is an operation to change the status data (mark) assigned to the specified (selected) section.
  • the mark change button displayed on the display is a mouse click or a specific keyboard operation (for example, a list of marks is displayed on the display by an operation of Ctrl + x), and a desired mark in the window is clicked with a mouse.
  • the end operation is an operation for instructing the end of the voice data reproduction / situation data correction operation, and is performed by a mouse click of the close button “ ⁇ ” of the message list window or a specific operation of the keyboard (for example, Ctrl + q).
  • the designated section is selected (S10).
  • the selection state refers to a state in which when a reproduction operation or a mark change operation is performed, it is selected as a section to be processed. At this time, the display form can be changed so that the operator can recognize the designated section, for example, by inverting the display color of the section on the display. Then, it is determined whether the audio data is currently being reproduced (S11). If the audio data is being reproduced (YES in S11), the reproduction position is jumped to the designated section (S12). When not being reproduced, the process returns to S1.
  • a plurality of sound effects may be stored in the reproduction unit 22 and sound effects corresponding to the situation data of the section to be reproduced may be reproduced together with the audio data.
  • the recording terminal 1 is provided with the analysis unit 11 and the situation (atmosphere) is analyzed in real time based on the collected digital audio signal.
  • the situation analysis is performed by batch processing after recording. Also good.
  • the analysis unit may be provided on the playback terminal 2 side.
  • the recording device of the present invention is constituted by the recording terminal 1 and the proceeding recording system comprising the reproducing terminal 2 and the storage medium 3 separately from the recording terminal 1, but the recording terminal 1 is integrated with the recording terminal 1.
  • the playback terminal 2 and the storage medium 3 may be used.
  • the recording terminal 1, the reproduction terminal 2, and the storage medium 3 may be configured integrally.
  • the recording device of the present invention can be applied to other than a conference.
  • it can be applied to outdoor recording.
  • the present invention can be applied to the recording of wild bird calls. If a section is divided for each bird type, a user can freely reproduce a desired call.
  • the present invention can be used for displaying a recording data section and displaying a list of atmospheres of each section.

Abstract

 録音データの発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。録音装置の録音端末(1)の解析部(11)は、収音部(10)が収音した音声を、会議出席者の発言ごとの区間および非発言区間に区分するとともに、各区間の情況を解析する。再生端末(2)は、発言区間および非発言区間をタイムチャート形式で表示するとともに、各区間の情況を示すマ一クを表示し、その表示に基づいてユーザが選択した任意の区間を再生する。

Description

録音装置
 この発明は、会議等の音声を録音し、録音音声を所望の録音部分から再生する録音装置に関する。
 従来より会議を録音する装置が提案されている。たとえば、特開2007−256498号公報には、会議の音声を録音するだけでなく、録音した音声データを発言者ごとの区間に区切ってタイムチャート形式で一覧表示することにより、どの区間が誰の発言であるかが一見して判るようにした装置が提案されている。
 上記特開2007−256498号公報の装置では、誰がいつ発言したかを一覧表示することができるが、それぞれの発言がどのような雰囲気やどのような情況でなされたものであったかを知ることはできず、録音を聴いてみなければわからなかった。
 また、会議においては、出席者が発言していない時間帯が存在し、このような時間帯は、録音データでは無音区間等の非発言区間となる。従来、非発言区間は議事録として意味のない区間であるとしてそのデータを削除していたが、会議の雰囲気等を知るためにはこのような非発言区間も意味を持つ場合がある。しかし、非発言区間での雰囲気や状況がどのようなものであったかは録音を聴いてみないとわからなかった。
 この発明は、発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。
 本発明は、音声データを記憶する音声データ記憶部と、該音声データを音声の発生源ごとの複数の区間に区分する区間情報を記憶する区間情報記憶部と、各区間の音声の情況を表す情況データを記憶する情況データ記憶部と、前記区間情報に基づき各区間の範囲を時間軸に沿って表示するとともに、前記情況データに基づき各区間の情況を示す情報を前記区間の範囲の表示に重ねて表示する表示部とを備えた録音装置を提供する。
 この発明では、音声データを音声の発生源ごとの複数の区間に区分する区間情報を記憶する。会議の場合、発言者が音声の発生源となる。なお、音声が存在しない時間帯(たとえば無音区間、発言以外の音が発生している区間等)も区間として分割される。これにより、どの音声区間がどの発言者に対応するのかを特定することができる。さらに、この発明では、各区間の音声の情況を表す情況データを記憶する。音声の情況とは、たとえば、明るい声、怒った声等の音声の種類やその場の雰囲気である。そして、区間情報および情況データに基づいて各区間とその情況を示す情報(たとえば図形)を表示する。これにより利用者は、一見して区間の分布とその雰囲気を知ることができる。
 本発明において、録音装置は、前記音声データに基づき各区間の情況を解析し、解析した各区間の情況を表す情況データを前記情況データ記憶部に書き込む情況解析部を備えることができる。
 前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析することができる。
 録音装置は、前記音声データをストリーム入力して前記音声データ記憶部および前記情況解析部に出力する音声データ入力部を備えることができ、前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析することができる。
 録音装置は、任意の区間を選択する操作、および、選択された区間の情況データを入力する操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えることができる。
 情況解析部は、バッチ処理で情況を解析し、あるいはリアルタイムで情況を解析することができる。また、情況解析部は、無音区間の情況はその前後の有音区間の情況に基づいて解析することができる。また、情況データ入力手段を用いて、操作者は、録音された音声データを聴きながら情況データを入力することができる。
 前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶することができ、前記区間情報記憶部は、前記音声データを各出席者の発言ごとの区間および発言でない区間に区分する区間情報を記憶することができる。
 前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶することができる。
 すなわち、本発明の録音装置は、会議の録音に適用するのが好適であり、その場合、出席者ごとに発言区間を区分するとともに、発言でない区間もその種類(たとえば笑い声、拍手、物音、無音)ごとに区分し、各区間の情況を解析することができる。
 録音装置は、前記表示部上で任意の区間を指定する操作を受け付ける操作部と、前記操作部で指定された区間の音声データを再生する再生部とを備えることができる。
 本発明では、各区間を音声の発生源、時間帯を示すたとえば帯状のエリアとして表示することができ、この表示エリアをマウスでクリックする等の操作で指定することにより、容易に所望の区間の再生が可能になる。
 本発明の特徴および利点は下記の詳細な説明および添付図面からより明らかになる。
 この発明によれば、音声データを会議の発言者等の音声の発生源ごとの複数の区間に区分し、各区間と共にその音声の情況を示す情報たとえば図形を表示することにより、音声データにおける発言者等の音声の発生源の分布を一覧で知ることができるとともに、各区間の情況を一見して知ることができる。
この発明の実施形態である議事記録システムの構成図である。 同議事記録システムの機能を示すブロック図である。 同議事記録システムの録音端末により記憶メディアに記録される議事録データの例を示す図である。 録音端末の解析部による議事録データ処理結果の例を示す図である。 同議事記録システムの再生装置による発言一覧の表示例を示す図である。 再生装置の音声データ再生/状況データ修正動作を示すフローチャートである。
 図1はこの発明の実施形態である議事記録システムの構成図であり、図2は、同議事記録システムのブロック図である。この実施形態において、議事記録システムは、録音端末1、再生端末2および記録メディア3で構成されている。
 図1において、録音端末1は、たとえば会議室のテーブル4上に設置され、複数たとえば6人の出席者41~46の発言を収音して記録メディア3に音声データとして記録する。その際、録音端末1は、音声信号を解析して区間データ及び状況データを後述の如く取得し、両データを音声データとともに記録メディア3に記録する。このため、録音端末1は、図2に示すように、収音部10、解析部11、記録部12を備えている。
 収音部10は、複数の出席者(図1の例では出席者41~46)の音声を収音し、収音した音声をデジタル音声信号に変換して解析部11および記録部12に入力たとえばストリーム入力する。収音部10は、必要数のマイクを備えている。マイクは、マイクアレイ、各出席者41~46に個別に向けられた複数の単一指向性マイク、全話者の音声を一括して収音する1または複数の単一指向性または無指向性マイクのいずれであってもよい。マイクアレイを用いる場合、狭指向性の収音ビームを複数形成して各出席者41~46の音声を別々に収音してもよく、広角の指向特性を持つ収音特性を持たせて複数の出席者41~46の音声を一括して収音するようにしてもよい。なお、収音ビームを形成して各出席者の音声を個別に収音する方式については、本出願人の特開2007−256498号公報に詳細に記載されている。
 解析部11は、収音部10からストリーム入力されたデジタル音声信号をリアルタイムに解析して、各出席者の発言の区切りを検出することにより、発言区間および非発言区間を割り出す。さらに、各発言区間については、どの出席者の発言であるかの発言者を特定し、非発言区間については、その区間が無音区間、笑い区間、拍手区間、物音区間のいずれであるかを特定する。
 ここで、各出席者の発言は、音声波形を認識することによって識別することができる。また、各出席者に個別にマイクが設けられている場合や、マイクアレイを用いて各出席者に個別に収音ビームが向けられている場合には、どのマイクまたはどの収音ビームで収音されたかによって発言者を識別することができる。
 また、笑い区間とは、不特定の出席者の笑い声が収音された区間である。拍手区間とは、不特定の出席者の拍手が収音された区間である。また、物音区間とは、出席者の発言・笑い声・拍手以外の物音(たとえば書類を配布するときの紙の擦れる音など)が収音された区間である。また、無音区間とは、発言者が沈黙し、他の音も聴こえない区間である。
 上記の解析部11による処理結果の例を図4に示す。上述のように、解析部11は音声信号を解析して区間データを取得する。図4に示す例では、区間データは、発言区間及びその長さを表す発言区間識別情報と、非発言区間及びその長さを表す非発言区間識別情報とを含む。発言区間識別情報は、出席者41~46による発言及びその長さをそれぞれ表す発言者識別情報51~56を含む。そして、非発言区間識別情報は、無音区間、笑い区間、拍手区間および物音区間ならびにその長さをそれぞれ表す無音区間識別情報、笑い区間識別情報、拍手区間識別情報および物音区間識別情報を含む。
 図4では、それぞれの識別情報を縦軸に沿って示し、会議開始からの経過時間を横軸に沿って示す。また、それぞれの識別情報に対応する区間の長さを、識別情報に対応する帯の長さで示す。
 さらに、解析部11は、各発言区間、非発言区間の情況を解析し、解析結果を情況データとして出力する。ここで、発言区間の情況とは、たとえば、発言者の語調等から割り出される発言区間の雰囲気であり、「怒っている」、「楽しい」、「無感情」等の雰囲気に分類される。また、非発言区間の状況も、前後の発言区間との関係で、その場の雰囲気を表すという点で意味を持つものがある。たとえば、無音区間の状況には、「話題が無くなってしまった沈黙」、「怒ったあとの沈黙」、「考え込んでいる沈黙」等がある。解析部11は、前後の発言区間の情況を参照して非発言区間の情況を解析する。
 このため、解析部11は、情況を解析するための解析エンジン、知識ベースを備えている。なお、この情況の解析は、たとえば、特開2002−91482号公報等に記載の技術を適用して実現することができる。この技術では、発言に含まれる感情を強度、テンポ、抑揚等に基づいて解析している。
 また、解析部11は、情況を解析できなかった区間については、解析データに代えて解析不可であった旨を示す解析不可データを付加する。解析不可の区間は、図5に示す発言一覧表示(後述)において例えば「?」のマークで示すことができ、或いは、再生端末2の操作者がマニュアル操作でその様なマークを入力することができる。
 記録部12は、記憶メディア3のスロットを有し、このスロットにセットされている記録メディア3に議事録データを記録する。議事録データは、会議中に録音した音声データと、図4に基づいて先に説明した区間データと、各発言区間・非発言区間の情況を解析して得た上述の情況データとからなる。なお、記憶メディア3としては、たとえばSDカードなどの半導体メディアが用いられる。
 図3に示す例では、記憶メディア3は音声データトラック3a、区間データトラック3b及び状況データトラック3cを有している。音声データトラック3aには、音声データがタイムコードを付されて時系列に書き込まれ、区間データトラック3bには、区間の開始タイミング、終了タイミングの時刻(タイムコード)およびその区間の発言者または非発言音声を表す識別情報が、各区間ごとに時系列に書き込まれる。情況データトラック3cには、各発言区間・非発言区間の情況解析結果を表す情況データが各区間に対応づけて書き込まれる。
 一方、再生端末2は、記憶メディア3に記録された議事録データを読み込んで、再生・編集するための装置であり、たとえばノートパソコンにプログラムを実行させて実現される。再生端末2は、記憶メディア3に記録されている議事録データに基づき、図5に示すような発言一覧を表示する。そして、ユーザ(図に符号47で示す)の指定した区間を再生するとともに、再生端末2が再生した発言をユーザが聴いた結果、その発言の雰囲気が情況データと異なると判断して状況データを訂正した場合に、情況データの訂正を受け付ける。このため、再生端末2は、図2に示すように、機能的には記録管理部20、表示部21、再生部22および操作部23を備えている。
 記録管理部20は、再生端末2(ノートパソコン)のメディアスロットに挿入された記憶メディア3(SDカード)からの区間データ及び状況データの読み出しや訂正用状況データの書き込みを実行する。また、表示部21は、たとえばノートパソコンのディスプレイであり、記憶メディア3から読み出した画像データ、情況データに基づき発言一覧を図5に示すように表示する。なお、表示部21は各情況データに対応するマーク画像を記憶する画像メモリを含んでいる。再生部22は、オーディオ回路・スピーカ等を含み、指定された区間の音声データを読み出して再生し、音響として放音する。
 操作部23は、キーボードやマウスを含み、発言一覧(図5)の表示、発言区間・非発言区間の指定、音声データの再生/停止、発言区間・非発言区間の情況データの訂正などの操作を受け付ける。
 図5は、再生装置2の表示部21の画面に表示される発言一覧を示す図である。この発言一覧は、出席者41~46のそれぞれを文字やアイコンで示す出席者情報(図5の例では出席者名61~66)および非発言音声の種類を表す情報(図5の例では文字「無音」、「笑い」、「拍手」、「物音」)を縦軸に沿って示し、データ再生開始時からの経過時間を横軸にとり、各発言区間、非発言区間をその長さに対応する長さの帯状エリアで表示するとともに、各区間の情況データに対応するマークをその区間の帯状エリアの上に表示したものである。
 たとえば、発言区間31の表示は、出席者41が、会議開始00時00分00秒から50秒発言したこと、および、その発言情況はおおむね明るい口調であった旨を表示している。ここで、発言区間のマークとしては、たとえば、明るい口調を表す晴れマーク、暗い口調を表す雨マーク、やや暗い口調を表す曇りマーク、怒った口調を表す雷マークを用いることができる。発言区間31のように1つの発言区間中で口調(情況データ)が変化したときには、発言区間内に複数のマークが付される場合もある。
 また、無音区間33のマークは、重い沈黙を表すマークである。この情況は、たとえば、その直前の区間32で話者44が怒ったことに対応して会議の出席者全員が沈黙してしまったことによって発生した無音区間であると考えられるため、重い沈黙を表すマークが割り当てられる。
 また、笑い区間35、36および拍手区間37には音符のマークが割り当てられる。これら笑い区間・拍手区間の情況データはその笑い・拍手の大きさを示しており、発言一覧の表示においては、音符の大きさで笑い・拍手の大きさが表現される。
 図6は、再生装置2の音声データ再生/状況データ修正動作を示すフローチャートである。この動作では、操作者47の操作に応じて音声データを再生するとともに、操作者の操作に応じて操作対象区間に割り当てられているマーク(情況データ)を修正する。
 再生動作がスタートすると、再生装置2は、まず図5に示す発言一覧をディスプレイ(表示部21の画面)に表示する(S1)。そして指定操作、再生操作、再生停止操作、マーク変更操作、または終了操作があるまで待機する。
 ここで、指定操作とは、ディスプレイに表示されている発言一覧(図5参照)のなかから、1つの区間を指定する操作である。この指定操作は、操作者がマウスで所望の区間の表示エリアをクリックすることで行われる。また、再生操作/再生停止操作は、音声データの再生の開始/停止を指示する操作であり、ディスプレイに表示される開始ボタン/停止ボタンのマウスクリック、または、キーボードの特定操作(たとえばCtrl+a/Ctrl+zなど)によって行われる。また、マーク変更操作は、指定された(選択状態の)区間に割り当てられている情況データ(マーク)を変更する操作であり、ディスプレイに表示されるマーク変更ボタンのマウスクリックまたはキーボードの特定操作(たとえばCtrl+xなど)の操作によってディスプレイにマーク一覧をウィンドウを表示させ、そのウィンドウ内の所望のマークをマウスクリックすることによって行われる。また、終了操作は、この音声データ再生/状況データ修正動作の終了を指示する操作であり、発言一覧ウィンドウのクローズボタン「×」のマウスクリックまたはキーボードの特定操作(たとえばCtrl+qなど)によって行われる。
 指定操作が行われると(S2でYES)、その指定された区間を選択状態とする(S10)。選択状態とは、再生操作やマーク変更操作が行われたとき、その処理を行う対象となる区間として選択されている状態をいう。このときディスプレイのその区間の表示色を反転させる等、指定された区間が操作者に判るように表示形態を変更することができる。そして、現在音声データを再生中であるかを判定する(S11)。音声データを再生中であれば(S11でYES)、指定された区間に再生位置をジャンプさせる(S12)。再生中でないときは、S1にもどる。
 再生操作が行われると(S3でYES)、選択状態の区間があるかを判断する(S13)、選択状態の区間が存在すれば(S13でYES)、その区間から再生をスタートする(S14)。選択状態の区間が存在しない場合には(S13でNO)、音声データの先頭から再生をスタートさせる(S15)。なお、音声データの再生中は、その時点の再生位置が属する区間を選択状態とし、再生位置が進行してゆくのに伴って選択状態の区間も進行させてゆく。
 再生停止操作があった場合には(S4でYES)、現在再生中であるか否かを判断する(S20)。再生中の場合には(S20でYES)、再生を停止して(S21)S1にもどる。なお、このとき、再生を停止した時点での再生位置が属する区間を選択状態にしておく。一方、再生中でなければ(S20でNO)、S1へもどる。
 マーク変更操作があると(S5でYES)、現在選択状態の区間があるかを判断する(S22)、選択状態の区間がない場合には(S22でNO)、S1にもどる。一方、選択状態の区間が存在する場合には(S22でYES)、操作にしたがって選択状態の区間の情況データを書き換える(S23)とともに、ディスプレイに表示されている発言一覧(図5参照)中の対応する区間のマークを書き換える(S24)。
 また、終了操作が行われた場合には(S6でYES)、再生の停止・ディスプレイの消去等の終了処理を行ったのち(S25)、音声データ再生/状況データ修正動作を終了する。
 なお、再生部22に複数の効果音を記憶しておき、再生する区間の情況データに応じた効果音を音声データとともに再生するようにしてもよい。
 なお、この実施形態では、録音端末1に解析部11を設け、収音されたデジタル音声信号に基づき情況(雰囲気)をリアルタイムに解析しているが、情況の解析は録音後にバッチ処理で行ってもよい。この場合、解析部を再生端末2側に設けてもよい。
 また、この実施形態では、本発明の録音装置を録音端末1、これと別体の再生端末2および記憶メディア3からなる議事記録システムで構成しているが、録音端末1と、これと一体の再生端末2と、記憶メディア3とで構成してもよい。あるいは、録音端末1、再生端末2および記憶メディア3を一体に構成しても良い。
 上記実施形態では、録音装置を会議に適用する例を示しているが、本発明の録音装置は会議以外にも適用することができる。たとえば、屋外録音に適用することも可能である。また、野鳥の鳴き声の録音に適用することも可能であり、鳥の種類ごとに区間を分割すれば利用者が所望の鳴き声を自由に再生することができる。
 以上、本発明を実施の形態に基づいて説明したが、本発明はこれに限定されない。特許請求の範囲は、種々の変形例および等価の構成、機能の全てを包括すると解すべきものである。
 この発明は、録音データ区間の区分表示および各区間の雰囲気の一覧表示に利用することができる。

Claims (8)

  1.  音声データを記憶する音声データ記憶部と、
     該音声データを音声の発生源ごとに複数の区間に区分する区間情報を記憶する区間情報記憶部と、
     各区間の音声の情況を表す情況データを記憶する情況データ記憶部と、
     前記区間情報に基づき各区間の範囲を時間軸に沿って表示するとともに、前記情況データに基づき各区間の情況を示す情報を前記区間の範囲の表示に重ねて表示する表示部と、
     を備えた録音装置。
  2.  前記音声データに基づき各区間の情況を解析し、解析した各区間の情況を表す情況データを前記情況データ記憶部に書き込む情況解析部を備えた請求項1に記載の録音装置。
  3.  前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析する請求項2に記載の録音装置。
  4.  前記音声データをストリーム入力して前記音声データ記憶部及び前記情況解析部に出力する音声データ入力部を備え、
     前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析する請求項2に記載の録音装置。
  5.  任意の区間を選択する操作、および、選択された区間の情況データを入力する操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えた請求項1に記載の録音装置。
  6.  前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、
     前記区間情報記憶部は、前記音声データを各出席者の発言ごとの区間および発言でない区間に区分する区間情報を記憶する請求項1に記載の録音装置。
  7.  前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶する請求項6に記載の録音装置。
  8.  前記表示部上で任意の区間を指定する操作を受け付ける操作部と、
     前記操作部で指定された区間の音声データを再生する再生部とを備えた請求項1に記載の録音装置。
PCT/JP2009/065142 2008-08-29 2009-08-25 録音装置 WO2010024426A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-222067 2008-08-29
JP2008222067A JP2010054991A (ja) 2008-08-29 2008-08-29 録音装置

Publications (1)

Publication Number Publication Date
WO2010024426A1 true WO2010024426A1 (ja) 2010-03-04

Family

ID=41721587

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/065142 WO2010024426A1 (ja) 2008-08-29 2009-08-25 録音装置

Country Status (2)

Country Link
JP (1) JP2010054991A (ja)
WO (1) WO2010024426A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265027A (zh) * 2019-06-19 2019-09-20 安徽声讯信息技术有限公司 一种用于会议速记系统的音频传输方法
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015198488A1 (ja) * 2014-06-27 2015-12-30 株式会社 東芝 電子機器及び音声再生方法
JP6392578B2 (ja) * 2014-08-11 2018-09-19 オリンパス株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP6509516B2 (ja) * 2014-09-29 2019-05-08 Dynabook株式会社 電子機器、方法及びプログラム
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
JP7060327B2 (ja) * 2017-02-14 2022-04-26 株式会社イトーキ 会議記録装置、会議記録方法、及びプログラム。
KR101976986B1 (ko) * 2018-05-31 2019-05-10 연세대학교 원주산학협력단 소리데이터 자동분할 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265027A (zh) * 2019-06-19 2019-09-20 安徽声讯信息技术有限公司 一种用于会议速记系统的音频传输方法
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序
CN114509157B (zh) * 2020-11-17 2024-04-05 丰田自动车株式会社 信息处理系统、信息处理方法以及程序

Also Published As

Publication number Publication date
JP2010054991A (ja) 2010-03-11

Similar Documents

Publication Publication Date Title
WO2010024426A1 (ja) 録音装置
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US6728680B1 (en) Method and apparatus for providing visual feedback of speed production
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
JP2013222347A (ja) 議事録生成装置及び議事録生成方法
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
JP2006208482A (ja) 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP6716300B2 (ja) 議事録生成装置、及び議事録生成プログラム
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP3859612B2 (ja) 会議録音・書き起こしシステム
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
JP2006330170A (ja) 記録文書作成支援システム
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP2007058767A (ja) 発話記録作成システム
WO2021079414A1 (ja) ナレッジ情報抽出システムおよびナレッジ情報抽出方法
JP2011199698A (ja) Av機器
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JP2004020739A (ja) 議事録作成装置、議事録作成方法、議事録作成プログラム
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
Baume Semantic Audio Tools for Radio Production
CA2436606A1 (en) Improved speech transformation system and apparatus
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2007329794A (ja) 音声録音装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09810072

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09810072

Country of ref document: EP

Kind code of ref document: A1