WO2023209898A1 - 音声分析装置、音声分析方法及び音声分析プログラム - Google Patents
音声分析装置、音声分析方法及び音声分析プログラム Download PDFInfo
- Publication number
- WO2023209898A1 WO2023209898A1 PCT/JP2022/019170 JP2022019170W WO2023209898A1 WO 2023209898 A1 WO2023209898 A1 WO 2023209898A1 JP 2022019170 W JP2022019170 W JP 2022019170W WO 2023209898 A1 WO2023209898 A1 WO 2023209898A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- utterance
- unit
- area
- analysis device
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 209
- 230000000694 effects Effects 0.000 claims description 100
- 230000004913 activation Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 20
- 238000009826 distribution Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Definitions
- the present invention relates to a speech analysis device, a speech analysis method, and a speech analysis program for analyzing speech.
- Patent Document 1 discloses a system that extracts sounds that meet predetermined conditions from a spectrogram representing acoustics in a space and displays the sound pressure for each direction in which the extracted sounds are present.
- the present invention has been made in view of these points, and its purpose is to make it easier to analyze whether or not voice communication is actively taking place.
- a voice analysis device includes: a voice acquisition unit that acquires voices collected by each of a plurality of sound collection devices arranged in a predetermined area; A specifying unit that specifies the length of the utterance per unit time at a position, and map information that associates each position in the area with the activity level corresponding to the length of the utterance per unit time. and an output control unit for displaying on a terminal.
- the voice acquisition unit acquires the arrival direction of the voice with respect to each of the plurality of sound collection devices, and the identification unit determines whether the utterance was made based on the plurality of arrival directions with respect to the plurality of sound collection devices.
- the location may also be specified.
- the voice analysis device further includes a reception unit that receives a setting of an object area in which an object is located within the area, and the identification unit determines whether the arrival direction is The position where the utterance was made may be specified by excluding a part farther from the object area in the direction with reference to the position of the sound collecting device.
- the map information may be information in which information corresponding to the degree of activity is superimposed on a map representing the area.
- the map information is information in which information corresponding to the degree of activity and information indicating the position of one or more call terminals arranged in the area are superimposed on a map representing the area, and the The analysis device is configured to analyze audio between the selected call terminal and the information terminal in response to selection of one or more of the call terminals in the map information displayed on the information terminal.
- the communication device may further include a call control unit that starts sending and receiving calls.
- the output control unit may output intervention information associated with the condition to the information terminal in response to the degree of activity at a position within the region satisfying a predetermined condition.
- the voice analysis device may further include a reception unit that receives settings of the condition and the intervention information associated with the condition from the information terminal.
- the identifying unit identifies a temporal change in the position where the utterance was made as a locus of movement of the position where the utterance was made, and the output control unit transmits information including the locus of movement to the information terminal. It may be displayed.
- the output control unit may cause the information terminal to display the activity level in a first period in a sub-region that is at least a part of the area and the activity level in a second period in the sub-region in association with each other. good.
- the identification unit determines the number of people who uttered the utterances at each position within the area by recognizing one or more speakers who uttered each of the plurality of voices acquired from the plurality of sound collection devices. and the speech analysis device calculates a provisional activation degree using the length of the utterance per unit time, and determines the activation degree by correcting the provisional activation degree according to the number of people. It may further include a degree determining section.
- the activity level determination unit may set the activity level when the number of people is a plurality of people to be larger than the activity level when the number of people is one person.
- the output control unit may repeatedly display the map information including the activity determined at predetermined time intervals on the information terminal.
- a sound analysis method includes the steps of acquiring sounds collected by each of a plurality of sound collecting devices arranged in a predetermined area, which is executed by a processor; identifying the length of the utterance per unit time at each position in the area; map information associating each position within the area with the activity corresponding to the length of the utterance per unit time; , displaying the information on the information terminal.
- a sound analysis program includes the steps of causing a processor to obtain sounds collected by each of a plurality of sound collection devices arranged in a predetermined area, and using the sounds to obtain sounds collected by each of a plurality of sound collection devices arranged in a predetermined area. a step of specifying the length of the utterance per unit time at each position; and map information that associates each position in the area with the activity corresponding to the length of the utterance per unit time. Execute the steps to display on the terminal.
- FIG. 1 is a schematic diagram of a speech analysis system according to an embodiment.
- FIG. 1 is a block diagram of a speech analysis system according to an embodiment.
- FIG. 2 is a schematic diagram for explaining the relationship between an analysis target area, a sound collection device, and a local terminal.
- FIG. 3 is a schematic diagram for explaining a method in which a voice acquisition unit acquires the direction of arrival of voice and a method in which a specifying unit specifies a speaking position.
- FIG. 3 is a schematic diagram for explaining the relationship between an arrival direction and an object area.
- FIG. 2 is a schematic diagram of a local terminal outputting map information and intervention information.
- FIG. 3 is a schematic diagram of an external terminal displaying comparison information.
- FIG. 3 is a schematic diagram of an external terminal displaying movement information.
- FIG. 3 is a diagram showing a flowchart of an exemplary speech analysis method executed by the speech analysis device according to the embodiment.
- FIG. 1 is a schematic diagram of a speech analysis system S according to this embodiment.
- the speech analysis system S includes a speech analysis device 1, a sound collection device 2, a local terminal 3, and an external terminal 4.
- the speech analysis system S may include a plurality of sound collection devices 2, a plurality of local terminals 3, and a plurality of external terminals 4.
- the speech analysis system S may also include other devices such as servers and terminals.
- the voice analysis device 1 is a computer that analyzes the voice uttered by the user in a predetermined analysis target region R, and provides the analysis result to the user or an external user.
- the analysis target area R is, for example, a room in a company or public facility, a library or library, a classroom in a school or cram school, an event venue, a park, or the like.
- the user is a person who stays in the analysis target area R and makes sounds for the purpose of conversation or the like.
- the external user is a person who is outside the analysis target area R, and is, for example, an analyst.
- the voice analysis device 1 analyzes the voice acquired by the sound collection device 2 and outputs the analysis result to the local terminal 3 or external terminal 4.
- the voice analysis device 1 is connected to a sound collection device 2, a local terminal 3, and an external terminal 4 by wire or wirelessly via a network such as a local area network or the Internet.
- the sound collection device 2 is a device that is placed in the analysis target region R and captures the sounds uttered by the user.
- the sound collecting device 2 includes, for example, a microphone array including sound collecting sections such as a plurality of microphones arranged in different directions.
- the microphone array includes, for example, a plurality of (e.g., eight) microphones arranged at equal intervals on the same circumference in a horizontal plane relative to the ground.
- the voice analysis device 1 identifies the position where the utterance is made by estimating the direction of arrival of the voice to each of the plurality of sound collection devices 2 based on the voice collected using the microphone array.
- the sound collection device 2 transmits the voice acquired using the microphone array to the voice analysis device 1 as voice data.
- the sound collection device 2 may include a single microphone instead of the microphone array.
- a plurality of sound collecting devices 2 are arranged in the analysis target region R at predetermined intervals.
- the voice analysis device 1 identifies the position where the utterance is made by comparing the intensities of the voices acquired by each of the plurality of sound collection devices 2.
- the local terminal 3 is an information terminal installed in the analysis target area R and outputs information.
- the local terminal 3 is, for example, a tablet terminal, a personal computer, or a digital signage.
- the local terminal 3 includes, for example, a display section such as a liquid crystal display, an audio output section such as a speaker, and a sound collection section such as a microphone.
- the local terminal 3 displays the information received from the speech analysis device 1 on the display section or outputs it from the speech output section.
- the local terminal 3 may function as a telephone terminal for making telephone calls with the external terminal 4.
- the external terminal 4 is an information terminal that receives settings related to analysis and outputs information.
- the external terminal 4 is, for example, a smartphone, a tablet terminal, or a personal computer.
- the external terminal 4 includes, for example, a display section such as a liquid crystal display, an audio output section such as a speaker, and a sound collection section such as a microphone.
- the external terminal 4 causes the display unit to display the information received from the speech analysis device 1.
- the voice analysis device 1 acquires the voices collected by each of the plurality of sound collection devices 2 arranged in the analysis target region R.
- the voice analysis device 1 uses the acquired voice to identify the position where the utterance was made.
- the speech analysis device 1 identifies the length of the utterance per unit time at each position in the analysis target area R by counting where in the analysis target area R the position where the utterance was made is located for each time. .
- the speech analysis device 1 calculates the degree of activity corresponding to the length of the utterance per specified unit time. For example, the activity level increases as the length of the utterance per unit time is longer, and the value decreases as the length of the utterance per unit time becomes shorter.
- the speech analysis device 1 causes at least one of the local terminal 3 and the external terminal 4 to display map information that associates each position within the analysis target region R with the degree of activity.
- the speech analysis system S identifies the length of utterance per unit time at each position within the analysis target area R based on the audio acquired by the sound collection device 2 placed in the analysis target area R. , the degree of activity corresponding to the length of the utterance is output in association with each position within the analysis target region R.
- the speech analysis system S can visualize the length of utterances at each position within the analysis target region R, rather than the loudness of the voice, making it easier to analyze whether vocal communication is actively taking place. be able to.
- FIG. 2 is a block diagram of the speech analysis system S according to this embodiment.
- arrows indicate main data flows, and data flows other than those shown in FIG. 2 may exist.
- each block shows the configuration of a functional unit rather than a hardware (device) unit. Therefore, the blocks shown in FIG. 2 may be implemented within a single device, or may be implemented separately within multiple devices. Data may be exchanged between blocks via any means such as a data bus, network, or portable storage medium.
- the speech analysis device 1 includes a storage section 11 and a control section 12.
- the speech analysis device 1 may be configured by two or more physically separate devices connected by wire or wirelessly. Further, the speech analysis device 1 may be configured by a cloud that is a collection of computer resources.
- the storage unit 11 is a storage medium including a ROM (Read Only Memory), a RAM (Random Access Memory), a hard disk drive, and the like.
- the storage unit 11 stores in advance a program to be executed by the control unit 12.
- the storage unit 11 may be provided outside the speech analysis device 1, and in that case, data may be exchanged with the control unit 12 via a network.
- the control unit 12 includes a reception unit 121, a voice acquisition unit 122, a specification unit 123, an activity level determination unit 124, an output control unit 125, and a call control unit 126.
- the control unit 12 is, for example, a processor such as a CPU (Central Processing Unit), and executes a program stored in the storage unit 11 to control the reception unit 121, the audio acquisition unit 122, the identification unit 123, and the activity level determination unit 124. , functions as an output control section 125 and a call control section 126. Further, at least part of the functions of the control unit 12 may be realized by the control unit 12 executing a program executed via a network.
- a processor such as a CPU (Central Processing Unit)
- FIG. 3 is a schematic diagram for explaining the relationship among the analysis target area R, the sound collection device 2, and the local terminal 3.
- the analysis target region R a plurality of sound collecting devices 2 and one or more local terminals 3 are arranged.
- the reception unit 121 determines the analysis target area R, the positions of the sound collection device 2 and the local terminal 3 within the analysis target area R, and the object area where an object (obstruction) such as a wall is located within the analysis target area R. Accepts settings.
- the external terminal 4 receives an operation for specifying the analysis target area R, the positions of the sound collection device 2 and the local terminal 3, and the object area from an external user, and transmits information indicating the specified contents to the voice analysis device.
- the reception unit 121 stores information associating the analysis target region R, the positions of the sound collection device 2 and the local terminal 3, and the object region based on the information received from the external terminal 4. The information is stored in the unit 11.
- the reception unit 121 may accept settings of sub-regions included in the analysis target region R.
- the sub-region is a region that is at least a part of the analysis target region R that is of interest during analysis.
- a coffee area that is an area that includes a coffee machine
- a desk area that is an area that includes a desk
- a sofa area that is an area that includes a sofa, etc.
- the external terminal 4 receives an operation for specifying a sub-region within the analysis target region R and the name of the sub-region from an external user, and transmits information indicating the specified contents to the speech analysis device 1.
- the receiving unit 121 causes the storage unit 11 to store information associating the sub-areas with the names of the sub-areas, based on the information received from the external terminal 4 .
- the reception unit 121 may accept settings for intervention conditions used to determine whether or not to output intervention information.
- the intervention condition is, for example, that the activity level corresponding to the length of utterance per unit time determined by the activity level determination unit 124 is equal to or greater than a predetermined threshold value.
- the intervention information is, for example, a message containing the name of a sub-area that satisfies the intervention condition.
- the external terminal 4 receives an operation for specifying intervention conditions and intervention information from an external user, and transmits information indicating the specified contents to the speech analysis device 1.
- the reception unit 121 causes the storage unit 11 to store information in which intervention conditions and intervention information are associated, based on the information received from the external terminal 4 .
- the audio acquisition unit 122 acquires the audio collected by each of the plurality of sound collection devices 2 arranged in the analysis target region R.
- the sound collection device 2 transmits, for example, audio data representing sounds collected using a microphone array to the audio analysis device 1.
- the sound collection device 2 constantly transmits voice data to the voice analysis device 1, or transmits voice data for a predetermined period (one hour, one day, etc.) to the voice analysis device 1 in bulk.
- the voice acquisition unit 122 stores the voice data received from the sound collection device 2 in the storage unit 11, and acquires the voice indicated by the voice data.
- the audio acquisition unit 122 may perform a predetermined filtering process on the acquired audio. For example, the audio acquisition unit 122 may remove, from the acquired audio, audio collected during a period different from a period associated with the analysis target region R in advance (business hours of a company or public facility, etc.). Furthermore, the voice acquisition unit 122 may remove, for example, sounds different from voices emitted by humans (sounds in a frequency band corresponding to human voices, etc.) from the acquired voices. Thereby, the speech analysis device 1 can perform analysis by excluding speech that is not important for analysis, and can improve the accuracy of the analysis results.
- the audio acquisition unit 122 acquires the arrival direction of the audio collected by each of the plurality of sound collection devices 2 for each time (for example, every 10 milliseconds to 1000 milliseconds). For example, the audio acquisition unit 122 performs known sound source localization processing on multiple channels of audio collected by the microphone array included in the sound collection device 2 .
- the sound source localization process is a process for estimating the position of a sound source included in the audio acquired by the audio acquisition unit 122.
- the audio acquisition unit 122 performs sound source localization processing to acquire a reliability distribution indicating the reliability distribution of the existence of a sound source based on the position of the sound collection device 2.
- the reliability is a value corresponding to the likelihood that a sound source exists at that position, and may be a probability, for example.
- the reliability distribution represents the arrival direction of the sound with respect to the sound collection device 2.
- FIG. 4(a) is a schematic diagram for explaining a method in which the audio acquisition unit 122 acquires the direction of arrival of audio.
- the example in FIG. 4A represents the reliability distribution P acquired by the voice acquisition unit 122 based on the voices collected by each of the three sound collection devices 2.
- the vertical and horizontal axes of the reliability distribution P correspond to coordinates within the analysis target region R.
- the microphone array cannot specify the distance from the sound collection device 2 to the sound source, in the reliability distribution P, regions with the same reliability are distributed linearly (radially) with the sound collection device 2 as a reference. Since the reliability of the presence of the sound source on the straight line connecting the sound collection device 2 and the sound source increases, the linear region in the reliability distribution P where the reliability is equal to or higher than a predetermined value indicates the arrival of sound to the sound collection device 2.
- Direction D is shown.
- the direction of arrival D is not limited to a straight line that includes the position of the sound collecting device 2, but may be expressed as a region having a width of a predetermined angle or length based on the position of the sound collecting device 2.
- the voice analysis device 1 estimates the direction of arrival D, but the direction of arrival D may be estimated based on the voice acquired by each of the plurality of sound collection devices 2 using a microphone array.
- the voice acquisition unit 122 receives from each of the plurality of sound collection devices 2 information indicating the direction of arrival D estimated by the sound collection device 2 .
- the identification unit 123 identifies the position where the utterance was made within the analysis target region R at each time (for example, every 10 to 1000 milliseconds) based on the plurality of arrival directions D for the plurality of sound collection devices 2. Identify the utterance position.
- FIG. 4(b) is a schematic diagram for explaining the method by which the specifying unit 123 specifies the utterance position.
- the identification unit 123 superimposes a plurality of reliability distributions P generated from sounds collected by a plurality of sound collection devices 2.
- the specifying unit 123 overlaps the plurality of reliability distributions P by, for example, calculating the sum or product of the reliabilities indicated by the plurality of reliability distributions P at each position in the analysis target region R.
- FIG. 4(b) shows a reliability distribution P1 generated by superimposing the three reliability distributions P illustrated in FIG. 4(a).
- the identification unit 123 identifies the utterance position using a reliability distribution P1 obtained by superimposing a plurality of reliability distributions P.
- the utterance position may be represented by one point within the analysis target region R, or may be represented by a region within the analysis target region R.
- the specifying unit 123 specifies, for example, a position or area whose reliability is equal to or greater than a predetermined value in the reliability distribution P1 as the utterance position.
- the position where the plurality of directions of arrival D indicated by the plurality of reliability distributions P intersects is a position with high reliability in the reliability distribution P1 obtained by superimposing the plurality of reliability distributions P. Therefore, the specifying unit 123 may specify the intersection position D1 where a plurality of straight lines along the plurality of arrival directions D intersect as the utterance position.
- the intersection position D1 may be a region where a plurality of regions extending along a plurality of directions of arrival D intersect.
- the voice analysis device 1 identifies the utterance position based on the arrival direction D of the voice with respect to the plurality of sound collection devices 2, so even if the distance from one sound collection device 2 to the sound source cannot be determined. It is also possible to pinpoint the utterance position with high accuracy.
- the specifying unit 123 may specify the utterance position by considering the object region where the object is located within the analysis target region R received by the receiving unit 121.
- FIG. 5 is a schematic diagram for explaining the relationship between the direction of arrival D and the object region R2. The example in FIG. 5 shows a state in which an object region R2 exists in the middle of the direction of arrival D.
- the identifying unit 123 determines the utterance position by excluding a part in the direction of arrival D that is farther from the object region R2 with respect to the position of the sound collector 2. Identify.
- the specifying unit 123 identifies, for example, a line segment between the sound collection device 2 and the object region R2 along a first arrival direction among the plurality of arrival directions D, and a second arrival direction among the plurality of arrival directions D.
- the intersection position D1 where the line segment between the sound collection device 2 and the object region R2 along the second arrival direction intersects is specified as the utterance position.
- the speech analysis device 1 can suppress erroneous recognition that the sound source is beyond an obstacle such as a wall, and can improve the accuracy of the utterance position.
- the identification unit 123 may estimate the number of users who have uttered the utterance at the utterance position.
- the specifying unit 123 performs a process of emphasizing the sound in the arrival direction D for each of the plurality of sounds that the sound acquisition unit 122 has acquired from the plurality of sound collection devices 2 .
- the identifying unit 123 emphasizes the sound in the direction of arrival D, for example, by suppressing the sound input from a direction different from the direction of arrival D to the microphone array included in the sound collection device 2.
- the identifying unit 123 performs known speaker recognition processing on each of the plurality of voices in which the voice in the direction of arrival D is emphasized, thereby recognizing one or more speakers who have uttered each of the plurality of voices.
- the identifying unit 123 recognizes one or more speakers corresponding to one or more generated clusters, for example, by clustering the speech divided at predetermined intervals using deep learning.
- the identifying unit 123 estimates one or more speakers who are common to all the voices among the one or more speakers who uttered each of the plurality of voices as the user who made the utterance at the utterance position.
- the specifying unit 123 causes the storage unit 11 to store information associating a speaking position with a user who spoke at the speaking position for each time. Thereby, the speech analysis device 1 can exclude speakers who spoke at a position different from the speaking position and estimate the user who spoke at the speaking position with high accuracy.
- the identification unit 123 identifies the speaking position using the sounds collected by the plurality of sound collection devices 2 including a single microphone instead of the sounds collected by the plurality of sound collection devices 2 including the microphone array. It's okay.
- a plurality of sound collecting devices 2 are arranged at predetermined intervals. When a user makes a sound within the analysis target region R, each sound collection device 2 acquires a sound with a higher intensity as it is closer to the user, and a sound with a lower intensity as it is farther from the user.
- the specifying unit 123 compares the intensities of sounds acquired by each of the plurality of sound collecting devices 2 at the same time, and selects the sound collecting device 2 with the highest sound intensity, or a plurality of sound collecting devices 2 with the highest sound intensity above a threshold value.
- the utterance position is specified based on the position of the sound collection device 2. Thereby, the speech analysis device 1 can specify the utterance position even when using the sound collection device 2 that does not include a microphone array.
- the specifying unit 123 specifies the length of the utterance per unit time at each position within the analysis target region R, based on the utterance position for each time specified by the specifying unit 123. For example, at each position within the analysis target region R (for example, a rectangular region obtained by dividing the analysis target region R), the specifying unit 123 totals the time during which the utterance position was present at the position per unit time (for example, 1 minute). do. For example, if an utterance position exists at a certain position for 30 seconds in one minute going back from the current time, the length of the utterance per unit time at that position is 30 seconds.
- the activity determining unit 124 determines the activity corresponding to the length of utterance per unit time specified by the specifying unit 123 at each position within the analysis target region R. For example, the activity determining unit 124 sets the activation value to be larger as the length of the utterance per unit time specified by the specifying unit 123 is longer, and to be smaller as the length of the utterance per unit time specified by the specifying unit 123 is shorter. Determine as degree.
- the activation level determination unit 124 may determine the value of the length of utterance per unit time itself as the activation level, or may determine the value of the length of utterance per unit time converted according to a predetermined rule as the activation level. It may be determined as a degree.
- the activity determining unit 124 may determine the activity by considering the number of users who spoke at the speaking position. In this case, the activity determining unit 124 determines that, for example, the longer the length of the utterance per unit time specified by the specifying unit 123 is, the higher the value is, and the shorter the length of the utterance per unit time specified by the specifying unit 123 is, the smaller the length of the utterance is. A provisional activity value is calculated.
- the activity determining unit 124 calculates the activity by correcting the provisional activity according to the number of people specified by the specifying unit 123.
- the activity determining unit 124 corrects the provisional activity so that, for example, the activity when there is a plurality of people is greater than the activity when there is one person.
- the voice analysis device 1 can reflect the number of people estimated from the voice in the degree of activity.
- the output control unit 125 causes at least one of the local terminal 3 or the external terminal 4 to display map information in which each position within the analysis target region R is associated with the activity determined by the activity determination unit 124. For example, the output control unit 125 generates, as map information, a heat map in which information (color, pattern, etc.) corresponding to the degree of activity of each position in the analysis target region R is superimposed on a map representing the analysis target region R. do. Further, the output control unit 125 may generate map information indicating the positions of each of the plurality of sound collecting devices 2 arranged in the analysis target region R, in addition to the activity level of each position within the analysis target region R. . The output control unit 125 transmits the generated map information to at least one of the local terminal 3 and the external terminal 4.
- the output control unit 125 repeatedly display map information indicating the degree of activity determined by the degree of activity determination unit 124 at predetermined time intervals on at least one of the local terminal 3 or the external terminal 4. Thereby, the voice analysis system S can notify the user or an external user of the latest communication status in the analysis target area R.
- a situation with a high degree of activation is regarded as a positive element or a negative element, or a situation with a low degree of activation is regarded as a positive element or a negative element. It depends on the type of the analysis target region R. For example, in the analysis target area R where it is desirable to be quiet (for example, in a library or a library, or in a classroom at a school or cram school where it is desirable for students to be quiet during classes or tests), the activity level is A situation where the activity level is large may be regarded as a negative element, or a situation where the activity level is small may be regarded as a positive element.
- the output control unit 125 transmits intervention information associated with the intervention condition to the local terminal 3 or external terminal 4. It may be output from at least one side. For example, the output control unit 125 acquires the intervention conditions and intervention information received by the reception unit 121 from the storage unit 11. The output control unit 125 determines whether the degree of activity at each position within the analysis target region R satisfies an intervention condition (for example, whether it is equal to or greater than a threshold indicated by the intervention condition).
- an intervention condition for example, whether it is equal to or greater than a threshold indicated by the intervention condition.
- the output control unit 125 generates intervention information associated with the intervention condition in response to the degree of activity at any position within the analysis target region R satisfying the intervention condition.
- the output control unit 125 outputs, for example, a message including the name of the sub-area including the position where the degree of activity satisfies the intervention condition (“The coffee area is busy”, “Please be quiet in the library”, etc.) as intervention information. Generate as.
- intervention information when the degree of activation is high, intervention information with positive content (e.g., information to promote communication) is generated, or intervention information with negative content (e.g., information to suppress communication) is generated.
- intervention information with positive content e.g., information to promote communication
- intervention information with negative content e.g., information to suppress communication
- Whether or not to generate the information for the analysis may be determined depending on the type of the analysis target region R. As described above, for example, in the analysis target region R where quietness is desirable, a situation with a high degree of activity may be regarded as a negative element
- the intervention condition is not limited to the case where the degree of activity becomes equal to or greater than a predetermined threshold value, but instead or in addition to this, it is also possible to use the case where the degree of activity becomes less than or equal to a predetermined threshold value.
- intervention information when the activation level is low, either intervention information with positive content (e.g., praise for being quiet) is generated, or intervention information with negative content (e.g., information that praises being quiet) is generated.
- intervention information with positive content e.g., praise for being quiet
- intervention information with negative content e.g., information that praises being quiet
- the output control unit 125 may output intervention information from all local terminals 3. Further, the output control unit 125 may output intervention information only from among the plurality of local terminals 3, those located within a sub-region including a position that satisfies the intervention condition. Thereby, the voice analysis system S can notify intervention information to users around the position where the degree of activity satisfies the intervention condition.
- FIG. 6(a) is a schematic diagram of the local terminal 3 displaying map information and intervention information.
- the local terminal 3 displays the map information and intervention information received from the speech analysis device 1 on the display section.
- the local terminal 3 displays a heat map H, which is map information, and a message M, which represents intervention information, on the display unit.
- the external terminal 4 may similarly display the heat map H and the message M on the display section.
- FIG. 6(b) is a schematic diagram of the local terminal 3 outputting intervention information in the form of audio.
- the local terminal 3 outputs the voice V that displays the intervention information received from the voice analysis device 1 from the voice output section.
- the voice V may be generated by the output control unit 125 of the voice analysis device, or may be generated by the local terminal 3.
- the speech analysis system S visualizes the length of utterances at each position within the analysis target area R as map information, thereby determining whether vocal communication is actively taking place within the analysis target area R. It can be made easier to analyze. Furthermore, the speech analysis system S can adjust communication within the analysis target region R to promote or suppress communication by outputting intervention information in response to the degree of activity satisfying a predetermined condition. .
- the output control unit 125 may change the content of the intervention information depending on the person within the analysis target region R.
- the intervention information is associated in advance with, for example, a person or an attribute of the person (age, gender, clothing, etc.).
- the output control unit 125 recognizes a person within the analysis target region R, for example, by performing known person recognition processing on a captured image around the local terminal 3 acquired by a camera included in the local terminal 3.
- the output control unit 125 may recognize a person located somewhere in the analysis target region R, or may recognize only a person located in a specific sub-region.
- the output control unit 125 causes at least one of the local terminal 3 and the external terminal 4 to output intervention information associated with the recognized person or the attribute of the person in response to the intervention condition being satisfied.
- the voice analysis system S can output intervention information suitable for the person within the analysis target region R.
- the output control unit 125 may cause the external terminal 4 to display comparison information for comparing the activity levels of different periods within the analysis target region R.
- the receiving unit 121 receives from the external terminal 4 the designation of the sub-area to be compared. Further, the receiving unit 121 may receive a designation of a period to be compared from the external terminal 4.
- the output control unit 125 generates comparison information that associates the degree of activity in the first period in the designated sub-region with the degree of activity in the second period in the sub-region.
- the output control unit 125 transmits the generated comparison information to at least one of the local terminal 3 and the external terminal 4.
- FIGS. 7(a) and 7(b) are schematic diagrams of the external terminal 4 displaying comparison information.
- the external terminal 4 displays the comparison information received from the speech analysis device 1.
- the external terminal 4 sends a message representing the comparison result of the heat map H of each of the first period and the second period and the activity level of the first period and the second period in the specified sub-region. M and are displayed as comparison information.
- a designated sub-region within the entire analysis target region R is highlighted.
- the message M is, for example, a message representing the amount or rate of increase/decrease in activity between the first period and the second period in the sub-region.
- the external terminal 4 compares the heat map H1 in the designated sub-region or the entire analysis target region R with the activity level for multiple periods in the designated sub-region or the entire analysis target region R.
- a message M representing the result is displayed as comparison information.
- the heat map H1 differs from the heat map H that shows the activity level on the map illustrated in FIG. 6(a) and FIG. This is a heat map showing corresponding information (color, pattern, etc.). Therefore, the heat map H1 visualizes the difference in activity between multiple time periods in the same area.
- the message M is, for example, a message representing a time period in which the activity level is high or low in the sub-region or the entire analysis target region R.
- the speech analysis system S can make it easier to analyze increases and decreases in the activity level and trends in the activity level for each time period by associating and visualizing the activity level for different periods.
- the output control unit 125 may output past audio at the specified position from the external terminal 4.
- the receiving unit 121 receives designation of a position within the analysis target region R and a past period on the external terminal 4 displaying map information or comparison information.
- the output control unit 125 acquires, from the storage unit 11 , the audio at the specified position and period from the audio acquired by the audio acquisition unit 122 , and outputs it from the audio output unit of the external terminal 4 .
- the speech analysis system S can easily analyze the relationship between the degree of activity and the actual speech content.
- the output control unit 125 may display movement information including the locus of movement of the speaking position on at least one of the local terminal 3 or the external terminal 4.
- the specifying unit 123 specifies, for example, the temporal change in the utterance position at each specified time as the locus of movement of the utterance position.
- the identifying unit 123 acquires from the storage unit 11 information that is generated by the above-described speaker recognition process and associates the speaking position and the user who spoke at the speaking position on a time-by-time basis. Then, the identifying unit 123 identifies the locus of movement of the speaking position corresponding to the specific user (speaker) based on the acquired information.
- the output control unit 125 transmits movement information including the locus of movement specified by the identification unit 123 to at least one of the local terminal 3 and the external terminal 4.
- FIG. 8 is a schematic diagram of the external terminal 4 displaying movement information.
- the external terminal 4 displays the movement information received from the speech analysis device 1 on the display section.
- the external terminal 4 displays the movement trajectory T indicated by the movement information on the display unit.
- the local terminal 3 may similarly display the movement trajectory T on the display unit.
- the call control unit 126 may start a call between the local terminal 3 selected on the map information and the external terminal 4 after the output control unit 125 displays the map information on the external terminal 4.
- the output control unit 125 for example.
- On a map representing the analysis target area R information (color, pattern, etc.) corresponding to the activity level of each position within the analysis target area R and the position of one or more local terminals 3 placed in the analysis target area R are displayed.
- a heat map in which information (such as an icon) indicating , and are superimposed is displayed on the external terminal 4 as map information.
- the reception unit 121 receives the selection of one of the local terminals 3 to be the destination of the call from among the one or more local terminals 3 in the map information displayed on the external terminal 4. For example, in order to support communication in the analysis target area R from outside the analysis target area R, the external user selects the local terminal 3 located at a location where the degree of activity is low in the map information.
- the call control unit 126 starts transmitting and receiving audio between the selected local terminal 3 and the external terminal 4 in response to selection of one or more local terminals 3.
- the local terminal 3 functions as a telephone terminal for making a telephone call with the external terminal 4, and outputs the voice received from the external terminal 4 from an audio output section such as a speaker, and also outputs the voice received from the external terminal 4 from a microphone or the like of the local terminal 3.
- the audio input to the sound section is transmitted to the external terminal 4.
- the call control unit 126 may allow audio to be exchanged bidirectionally between the selected local terminal 3 and the external terminal 4, or may output audio from the external terminal 4 to the local terminal 3 in one direction.
- the voice analysis system S can make it easier for an external user who wishes to make a call with the local terminal 3 to select the local terminal 3 to call based on the activity level.
- the external user can support activation of communication in the analysis target area R by intervening with the local terminal 3 in the analysis target area R from the outside by voice.
- FIG. 9 is a diagram showing a flowchart of an exemplary speech analysis method executed by the speech analysis device 1 according to the present embodiment.
- the reception unit 121 receives from the external terminal 4 the analysis target area R, the positions of the sound collection device 2 and the local terminal 3 within the analysis target area R, and the object area where an object such as a wall is located within the analysis target area R.
- the settings of are accepted (S11).
- the audio acquisition unit 122 acquires the audio collected by each of the plurality of sound collection devices 2 arranged in the analysis target region R (S12).
- the audio acquisition unit 122 acquires the time-by-time arrival direction D of the audio collected by each of the plurality of sound collection devices 2 (S13).
- the direction of arrival D may be estimated by the voice analysis device 1 or may be estimated by each of the plurality of sound collection devices 2.
- the specifying unit 123 specifies the utterance position, which is the position where the utterance was made, within the analysis target region R for each time based on the plurality of arrival directions D with respect to the plurality of sound collecting devices 2 (S14).
- the specifying unit 123 may specify the utterance position by considering the object region where the object is located within the analysis target region R received by the receiving unit 121.
- the specifying unit 123 specifies the length of the utterance per unit time at each position within the analysis target region R, based on the utterance position for each time specified by the specifying unit 123 (S15).
- the activity determining unit 124 determines the activity corresponding to the length of utterance per unit time specified by the specifying unit 123 at each position within the analysis target region R (S16). For example, the activity level increases as the length of the utterance per unit time specified by the specifying unit 123 increases, and decreases as the length of the utterance per unit time specified by the specifying unit 123 decreases.
- the output control unit 125 causes at least one of the local terminal 3 and the external terminal 4 to output map information in which each position within the analysis target region R is associated with the activity determined by the activity determination unit 124 (S17 ). Further, the output control unit 125 may cause the external terminal 4 to display comparison information for comparing the activity levels of different periods within the analysis target region R.
- the output control unit 125 transmits the intervention information associated with the intervention condition to the local terminal 3 or external terminal 4. (S19).
- the speech analysis device 1 ends the process when the activity level determined by the activity level determination unit 124 does not satisfy the predetermined intervention condition (NO in S18).
- the speech analysis system S specifies the length of utterance per unit time at each position in the analysis target region R based on the sound acquired by the sound collection device 2 placed in the analysis target region R. Then, the degree of activity corresponding to the length of the utterance is output in association with each position within the analysis target region R. As a result, the speech analysis system S can visualize the length of utterances at each position within the analysis target region R, rather than the loudness of the voice, making it easier to analyze whether vocal communication is actively taking place. be able to.
- the speech analysis system S can adjust communication within the analysis target region R to promote or suppress communication by outputting intervention information in response to the degree of activity satisfying a predetermined condition. Moreover, the speech analysis system S can make it easier to analyze increases and decreases in the activity level and trends in the activity level for each time period by associating and visualizing the activity level for different periods.
- the reception unit 121 accepts the setting for setting the open space as the analysis target region R.
- the audio acquisition unit 122 acquires the sounds emitted by animals, which are collected by each of the plurality of sound collection devices 2 arranged in the analysis target region R, which is an open space. Then, the speech analysis device 1 specifies the length of the utterance at each position, as in the above-described embodiment, and outputs information corresponding to the degree of activity corresponding to the length of the utterance.
- the voice analysis system S can easily analyze whether communication among animals, not limited to humans, is actively occurring in an open space.
- the processor of the speech analysis device 1 executes each step (process) included in the speech analysis method shown in FIG. That is, the processor of the speech analysis device 1 executes the speech analysis method shown in FIG. 9 by executing a program for executing the speech analysis method shown in FIG. Some of the steps included in the speech analysis method shown in FIG. 9 may be omitted, the order of the steps may be changed, or a plurality of steps may be performed in parallel.
- Speech analysis system 1 Speech analysis device 11 Storage section 12 Control section 121 Reception section 122 Speech acquisition section 123 Specification section 124 Activity level determination section 125 Output control section 126 Call control section 2 Sound collection device 3 Local terminal 4 External terminal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本発明の一実施形態に係る音声分析装置1は、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部122と、音声を用いて、領域内の各位置における単位時間あたりの発話の長さを特定する特定部123と、領域内の各位置と、単位時間あたりの発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部125と、を有する。特定部123は、複数の集音装置に対する複数の音声の到来方向に基づいて、発話が行われた位置を特定する。
Description
本発明は、音声を分析するための音声分析装置、音声分析方法及び音声分析プログラムに関する。
特許文献1には、空間における音響を表すスペクトログラムから所定の条件を満たす音を抽出し、抽出した音が存在する方向ごとの音圧を表示するシステムが開示されている。
会社や学校において、人間同士のコミュニケーションが活発に行われているかどうかを分析することが求められている。人間が発する声の大きさには個人差があり、また場所や状況によって声の大きさが変わるため、分析者は音圧や音量を参照してもコミュニケーションが活発に行われているかどうかを分析することが難しい場合がある。
本発明はこれらの点に鑑みてなされたものであり、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることを目的とする。
本発明の第1の態様の音声分析装置は、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部と、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定する特定部と、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部と、を有する。
前記音声取得部は、前記複数の集音装置それぞれに対する前記音声の到来方向を取得し、前記特定部は、前記複数の集音装置に対する複数の前記到来方向に基づいて、前記発話が行われた位置を特定してもよい。
前記音声分析装置は、前記領域内において物体が位置する物体領域の設定を受け付ける受付部をさらに有し、前記特定部は、前記到来方向に沿った直線が前記物体領域と交わる場合に、前記到来方向の中で前記集音装置の位置を基準として前記物体領域よりも遠い部分を除外して、前記発話が行われた位置を特定してもよい。
前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報を重畳した情報であってもよい。
前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報と、前記領域に配置された一又は複数の通話端末の位置を示す情報と、を重畳した情報であり、前記音声分析装置は、前記情報端末に表示された前記マップ情報において前記一又は複数の通話端末のいずれかが選択されたことに応じて、選択された前記通話端末と前記情報端末との間で音声の授受を開始させる通話制御部をさらに有してもよい。
前記出力制御部は、前記領域内の位置における前記活性度が所定の条件を満たしたことに応じて、前記条件に関連付けられた介入情報を前記情報端末に出力してもよい。
前記音声分析装置は、前記情報端末から、前記条件、及び当該条件と関連付けられた前記介入情報の設定を受け付ける受付部をさらに有してもよい。
前記特定部は、前記発話が行われた位置の時間変化を、前記発話が行われた位置の移動の軌跡として特定し、前記出力制御部は、前記移動の軌跡を含む情報を前記情報端末に表示させてもよい。
前記出力制御部は、前記領域の少なくとも一部であるサブ領域における第1期間の前記活性度と、前記サブ領域における第2期間の前記活性度と、を関連付けて前記情報端末に表示させてもよい。
前記特定部は、前記複数の集音装置から取得した複数の前記音声それぞれを発した一又は複数の話者を認識することによって、前記領域内の各位置における前記発話を行った人物の人数を推定し、前記音声分析装置は、前記単位時間あたりの前記発話の長さを用いて暫定活性度を算出し、前記人数に応じて前記暫定活性度を補正することによって前記活性度を決定する活性度決定部をさらに有してもよい。
前記活性度決定部は、前記人数が複数人である場合の前記活性度を、前記人数が1人である場合の前記活性度よりも大きくしてもよい。
前記出力制御部は、所定の時間間隔で決定された前記活性度を含む前記マップ情報を繰り返し前記情報端末に表示させてもよい。
本発明の第2の態様の音声分析方法は、プロセッサが実行する、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、を有する。
本発明の第3の態様の音声分析プログラムは、プロセッサに、所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、を実行させる。
本発明によれば、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができるという効果を奏する。
[音声分析システムSの概要]
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置1と、集音装置2と、現地端末3と、外部端末4と、を含む。音声分析システムSは、複数の集音装置2、複数の現地端末3及び複数の外部端末4を含んでもよい。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
図1は、本実施形態に係る音声分析システムSの模式図である。音声分析システムSは、音声分析装置1と、集音装置2と、現地端末3と、外部端末4と、を含む。音声分析システムSは、複数の集音装置2、複数の現地端末3及び複数の外部端末4を含んでもよい。音声分析システムSは、その他のサーバ、端末等の機器を含んでもよい。
音声分析装置1は、所定の分析対象領域Rにおいてユーザによって発せられた音声を分析し、分析結果をユーザ又は外部ユーザに提供するコンピュータである。分析対象領域Rは、例えば、会社や公共施設の部屋、図書館や図書室、学校や塾の教室、イベント会場、公園等の領域である。ユーザは、分析対象領域Rに滞在し、会話等を目的として音声を発する人間である。外部ユーザは、分析対象領域R外にいる人間であり、例えば分析者である。音声分析装置1は、集音装置2が取得した音声を分析し、分析結果を現地端末3又は外部端末4に出力する。音声分析装置1は、ローカルエリアネットワーク、インターネット等のネットワークを介して、集音装置2、現地端末3及び外部端末4に有線又は無線で接続される。
集音装置2は、分析対象領域Rに配置され、ユーザによって発せられた音声を取得する装置である。集音装置2は、例えば、異なる向きに配置された複数のマイクロフォン等の集音部を含むマイクロフォンアレイを備える。マイクロフォンアレイは、例えば、地面に対する水平面において、同一円周上に等間隔で配置された複数個(例えば、8個)のマイクロフォンを含む。音声分析装置1は、マイクロフォンアレイを用いて集音した音声に基づいて複数の集音装置2それぞれへの音声の到来方向を推定することにより、発話が行われた位置を特定する。集音装置2は、マイクロフォンアレイを用いて取得した音声を音声データとして音声分析装置1へ送信する。
また、集音装置2は、マイクロフォンアレイに代えて、単一のマイクロフォンを備えてもよい。この場合に、分析対象領域Rには、複数の集音装置2が所定間隔で配置される。音声分析装置1は、複数の集音装置2それぞれが取得した音声の強度を比較することにより、発話が行われた位置を特定する。
現地端末3は、分析対象領域Rに設置され、情報を出力する情報端末である。現地端末3は、例えば、タブレット端末、パーソナルコンピュータ又はデジタルサイネージである。現地端末3は、例えば、液晶ディスプレイ等の表示部と、スピーカ等の音声出力部と、マイクロフォン等の集音部と、を有する。現地端末3は、音声分析装置1から受信した情報を、表示部に表示させ、又は音声出力部から出力する。現地端末3は、外部端末4との間で通話を行うための通話端末として機能してもよい。
外部端末4は、分析に関する設定を受け付けるとともに、情報を出力する情報端末である。外部端末4は、例えば、スマートフォン、タブレット端末又はパーソナルコンピュータである。外部端末4は、例えば、液晶ディスプレイ等の表示部と、スピーカ等の音声出力部と、マイクロフォン等の集音部と、を有する。外部端末4は、音声分析装置1から受信した情報を、表示部に表示させる。
本実施形態に係る音声分析システムSが音声を分析する処理の概要を以下に説明する。音声分析装置1は、分析対象領域Rに配置された複数の集音装置2それぞれが集音した音声を取得する。音声分析装置1は、取得した音声を用いて、発話が行われた位置を特定する。音声分析装置1は、時間ごとに発話が行われた位置が分析対象領域Rのどこにあるかを集計することによって、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定する。
音声分析装置1は、特定した単位時間あたりの発話の長さに対応する活性度を算出する。活性度は、例えば、単位時間あたりの発話の長さが長いほど大きく、単位時間あたりの発話の長さが短いほど小さい値である。音声分析装置1は、分析対象領域R内の各位置と、活性度と、を関連付けたマップ情報を、現地端末3又は外部端末4の少なくとも一方に表示させる。
このように、音声分析システムSは、分析対象領域Rに配置された集音装置2が取得した音声に基づいて、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定し、発話の長さに対応する活性度を分析対象領域R内の各位置と関連付けて出力する。これにより、音声分析システムSは、音声の大きさではなく、分析対象領域R内の各位置における発話の長さを可視化できるため、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。
[音声分析システムSの構成]
図2は、本実施形態に係る音声分析システムSのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示したもの以外のデータの流れがあってもよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
図2は、本実施形態に係る音声分析システムSのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示したもの以外のデータの流れがあってもよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
音声分析装置1は、記憶部11と、制御部12と、を有する。音声分析装置1は、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。また、音声分析装置1は、コンピュータ資源の集合であるクラウドによって構成されてもよい。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部11は、制御部12が実行するプログラムを予め記憶している。記憶部11は、音声分析装置1の外部に設けられてもよく、その場合にネットワークを介して制御部12との間でデータの授受を行ってもよい。
制御部12は、受付部121と、音声取得部122と、特定部123と、活性度決定部124と、出力制御部125と、通話制御部126と、を有する。制御部12は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部11に記憶されたプログラムを実行することにより、受付部121、音声取得部122、特定部123、活性度決定部124、出力制御部125及び通話制御部126として機能する。また、制御部12の機能の少なくとも一部は、制御部12がネットワーク経由で実行されるプログラムを実行することによって実現されてもよい。
以下、音声分析システムSが実行する処理について詳細に説明する。図3は、分析対象領域R、集音装置2及び現地端末3の関係を説明するための模式図である。分析対象領域Rには、複数の集音装置2と、一又は複数の現地端末3と、が配置されている。
受付部121は、分析対象領域Rと、分析対象領域R内における集音装置2及び現地端末3の位置と、分析対象領域R内において壁等の物体(障害物)が位置する物体領域と、の設定を受け付ける。外部端末4は、例えば、分析対象領域Rと、集音装置2及び現地端末3の位置と、物体領域と、を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置1に送信する。音声分析装置1において、受付部121は、外部端末4から受信した情報に基づいて、分析対象領域Rと、集音装置2及び現地端末3の位置と、物体領域と、を関連付けた情報を記憶部11に記憶させる。
また、受付部121は、分析対象領域Rが含むサブ領域の設定を受け付けてもよい。サブ領域は、分析時に着目する分析対象領域Rの少なくとも一部である領域である。図3の例では、コーヒーマシンを含む領域であるコーヒーエリア、デスクを含む領域であるデスクエリア、ソファを含む領域であるソファエリア等がサブ領域として設定され得る。外部端末4は、例えば、分析対象領域R内のサブ領域と、サブ領域の名称と、を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置1に送信する。音声分析装置1において、受付部121は、外部端末4から受信した情報に基づいて、サブ領域と、サブ領域の名称と、を関連付けた情報を記憶部11に記憶させる。
また、受付部121は、介入情報を出力するか否かの判定に用いられる介入条件の設定を受け付けてもよい。介入条件は、例えば、活性度決定部124によって決定される、単位時間あたりの発話の長さに対応する活性度が、所定の閾値以上であることである。介入情報は、例えば、介入条件を満たしたサブ領域の名称を含むメッセージである。外部端末4は、例えば、介入条件及び介入情報を指定する操作を外部ユーザから受け付け、指定された内容を示す情報を音声分析装置1に送信する。音声分析装置1において、受付部121は、外部端末4から受信した情報に基づいて、介入条件及び介入情報を関連付けた情報を記憶部11に記憶させる。
音声取得部122は、分析対象領域Rに配置された複数の集音装置2それぞれが集音した音声を取得する。集音装置2は、例えば、マイクロフォンアレイを用いて集音した音声を示す音声データを、音声分析装置1に送信する。集音装置2は、音声データを音声分析装置1に常時送信し、又は所定期間(1時間、1日等)の音声データをまとめて音声分析装置1に送信する。音声分析装置1において、音声取得部122は、集音装置2から受信した音声データを記憶部11に記憶させ、音声データが示す音声を取得する。
音声取得部122は、取得した音声に対して、所定のフィルタリング処理を行ってもよい。音声取得部122は、例えば、取得した音声から、分析対象領域Rに予め関連付けられた期間(会社や公共施設の業務時間等)とは異なる期間に集音された音声を除去してもよい。また、音声取得部122は、例えば、取得した音声から、人間が発する音声(人間の声に対応する周波数帯の音等)とは異なる音を除去してもよい。これにより、音声分析装置1は、分析に重要でない音声を除外して分析を行い、分析結果の精度を向上できる。
音声取得部122は、複数の集音装置2それぞれが集音した音声の時間ごと(例えば、10ミリ秒~1000ミリ秒ごと)の到来方向を取得する。音声取得部122は、例えば、集音装置2が備えるマイクロフォンアレイが集音した複数チャネルの音声に対して既知の音源定位処理を行う。音源定位処理は、音声取得部122が取得した音声に含まれる音源の位置を推定する処理である。音声取得部122は、音源定位処理によって、集音装置2の位置を基準とした音源が存在する信頼度の分布を示す信頼度分布を取得する。信頼度は、その位置に音源が存在する尤もらしさに対応する値であり、例えば確率であってもよい。信頼度分布は、集音装置2に対する音声の到来方向を表している。
図4(a)は、音声取得部122が音声の到来方向を取得する方法を説明するための模式図である。図4(a)の例は、音声取得部122が3つの集音装置2それぞれが集音した音声に基づいて取得した信頼度分布Pを表している。
信頼度分布Pの縦軸及び横軸は、分析対象領域R内の座標に対応している。信頼度分布Pは、各位置(座標)の色が明るいほど(白色に近いほど)音源が存在する信頼度が高く、各位置の色が暗いほど(黒色に近いほど)音源が存在する信頼度が低いことを表している。
マイクロフォンアレイでは集音装置2から音源までの距離を特定できないため、信頼度分布Pにおいて集音装置2を基準として直線状(放射線状)に同じ信頼度の領域が分布する。集音装置2と音源とを結ぶ直線上で音源が存在する信頼度が高くなるため、信頼度分布Pにおいて信頼度が所定値以上である直線状の領域が、集音装置2に対する音声の到来方向Dを示している。到来方向Dは、集音装置2の位置を含む直線に限られず、集音装置2の位置を基準とした所定の角度又は長さの幅を有する領域として表されてもよい。
本実施形態では音声分析装置1が到来方向Dを推定しているが、複数の集音装置2それぞれがマイクロフォンアレイを用いて取得した音声に基づいて到来方向Dを推定してもよい。この場合に、音声分析装置1において、音声取得部122は、複数の集音装置2それぞれから、当該集音装置2が推定した到来方向Dを示す情報を受信する。
特定部123は、複数の集音装置2に対する複数の到来方向Dに基づいて、時間ごと(例えば10ミリ秒~1000ミリ秒ごと)に、分析対象領域R内で発話が行われた位置である発話位置を特定する。図4(b)は、特定部123が発話位置を特定する方法を説明するための模式図である。
特定部123は、複数の集音装置2が集音した音声から生成した複数の信頼度分布Pを重ね合わせる。特定部123は、例えば、分析対象領域R内の各位置において複数の信頼度分布Pが示す信頼度の和又は積を算出することにより、複数の信頼度分布Pを重ね合わせる。図4(b)は、図4(a)に例示した3つの信頼度分布Pを重ね合わせることによって生成した信頼度分布P1を表している。
特定部123は、複数の信頼度分布Pを重ね合わせた信頼度分布P1を用いて、発話位置を特定する。発話位置は、分析対象領域R内の1点で表されてもよく、分析対象領域R内の領域で表されてもよい。特定部123は、例えば、信頼度分布P1において信頼度が所定値以上である位置又は領域を、発話位置として特定する。
複数の信頼度分布Pが示す複数の到来方向Dが交差する位置は、複数の信頼度分布Pを重ね合わせた信頼度分布P1において信頼度が高い位置となる。そのため、特定部123は、複数の到来方向Dに沿った複数の直線が交差する交差位置D1を、発話位置として特定してもよい。到来方向Dが幅を有する領域である場合に、交差位置D1は、複数の到来方向Dに沿って延在する複数の領域が交差する領域であってもよい。
このように、音声分析装置1は、複数の集音装置2に対する音声の到来方向Dに基づいて発話位置を特定するため、1つの集音装置2から音源までの距離を特定できない場合であっても、高い精度で発話位置を特定できる。
特定部123は、受付部121が受け付けた分析対象領域R内において物体が位置する物体領域を考慮して、発話位置を特定してもよい。図5は、到来方向Dと物体領域R2との関係を説明するための模式図である。図5の例では、到来方向Dの途中に物体領域R2が存在している状態を表している。
特定部123は、到来方向Dに沿った直線が物体領域R2と交わる場合に、到来方向Dの中で集音装置2の位置を基準として物体領域R2よりも遠い部分を除外して、発話位置を特定する。特定部123は、例えば、複数の到来方向Dのうち第1の到来方向に沿った集音装置2と物体領域R2との間の線分と、複数の到来方向Dのうち第2の到来方向又は第2の到来方向に沿った集音装置2と物体領域R2との間の線分と、が交差する交差位置D1を、発話位置として特定する。これにより、音声分析装置1は、壁等の障害物の先に音源があると誤認識することを抑制し、発話位置の精度を向上できる。
特定部123は、発話位置を特定することに加えて、発話位置において発話を行ったユーザの人数を推定してもよい。特定部123は、音声取得部122が複数の集音装置2から取得した複数の音声それぞれに対して、到来方向Dの音声を強調する処理を行う。特定部123は、例えば、集音装置2が備えるマイクロフォンアレイに対して到来方向Dとは異なる方向から入力された音声を抑圧することにより、到来方向Dの音声を強調する。
特定部123は、到来方向Dの音声が強調された複数の音声それぞれに対して既知の話者認識処理を行うことにより、複数の音声それぞれを発した一又は複数の話者を認識する。特定部123は、例えば、所定期間ごとに分割した音声を深層学習によってクラスタリングすることで、生成した一又は複数のクラスタに対応する一又は複数の話者を認識する。
そして特定部123は、複数の音声それぞれを発した一又は複数の話者のうち、全ての音声に共通する一又は複数の話者を、発話位置において発話を行ったユーザとして推定する。特定部123は、時間ごとに、発話位置と、当該発話位置において発話を行ったユーザと、を関連付けた情報を記憶部11に記憶させる。これにより、音声分析装置1は、発話位置とは異なる位置で発話を行った話者を除外し、発話位置において発話を行ったユーザを高い精度で推定できる。
特定部123は、マイクロフォンアレイを備える複数の集音装置2が集音した音声に代えて、単一のマイクロフォンを備える複数の集音装置2が集音した音声を用いて、発話位置を特定してもよい。この場合に、分析対象領域Rには、複数の集音装置2が所定間隔で配置されている。ユーザが分析対象領域R内で音声を発すると、各集音装置2は、ユーザに近いほど高い強度の音声を取得し、ユーザから遠いほど低い強度の音声を取得する。
特定部123は、複数の集音装置2それぞれが同時期に取得した音声の強度を比較し、取得した音声の強度が最も高い集音装置2、又は取得した音声の強度が閾値以上である複数の集音装置2の位置に基づいて、発話位置を特定する。これにより、音声分析装置1は、マイクロフォンアレイを備えない集音装置2を用いる場合であっても、発話位置を特定できる。
特定部123は、特定部123が特定した時間ごとの発話位置に基づいて、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定する。特定部123は、例えば、分析対象領域R内の各位置(例えば、分析対象領域Rを分割した矩形領域)において、単位時間(例えば、1分間)に当該位置に発話位置が存在した時間を集計する。例えばある位置に現在時刻から遡って1分間のうち30秒間にわたって発話位置が存在した場合に、当該位置における単位時間あたりの発話の長さは30秒である。
活性度決定部124は、分析対象領域R内の各位置において、特定部123が特定した単位時間あたりの発話の長さに対応する活性度を決定する。活性度決定部124は、例えば、特定部123が特定した単位時間あたりの発話の長さが長いほど大きく、特定部123が特定した単位時間あたりの発話の長さが短いほど小さい値を、活性度として決定する。活性度決定部124は、例えば、単位時間あたりの発話の長さの値自体を活性度として決定してもよく、単位時間あたりの発話の長さの値を所定の規則に従って変換した値を活性度として決定してもよい。
また、活性度決定部124は、発話位置において発話を行ったユーザの人数を考慮して、活性度を決定してもよい。この場合に、活性度決定部124は、例えば、特定部123が特定した単位時間あたりの発話の長さが長いほど大きく、特定部123が特定した単位時間あたりの発話の長さが短いほど小さい値である暫定活性度を算出する。
活性度決定部124は、特定部123が特定した人数に応じて暫定活性度を補正することによって、活性度を算出する。活性度決定部124は、例えば、人数が複数人である場合の活性度を、人数が1人である場合の活性度よりも大きくするように、暫定活性度を補正する。これにより、音声分析装置1は、音声から推定した人数を活性度に反映することができる。
出力制御部125は、分析対象領域R内の各位置と、活性度決定部124が決定した活性度と、を関連付けたマップ情報を、現地端末3又は外部端末4の少なくとも一方に表示させる。出力制御部125は、例えば、分析対象領域Rを表す地図上に、分析対象領域R内の各位置の活性度に対応する情報(色、模様等)を重畳したヒートマップを、マップ情報として生成する。また、出力制御部125は、分析対象領域R内の各位置の活性度に加えて、分析対象領域Rに配置された複数の集音装置2それぞれの位置を示すマップ情報を生成してもよい。出力制御部125は、生成したマップ情報を、現地端末3又は外部端末4の少なくとも一方に送信する。
出力制御部125は、活性度決定部124が所定の時間間隔で決定した活性度を示すマップ情報を、現地端末3又は外部端末4の少なくとも一方に繰り返し表示させることが望ましい。これにより、音声分析システムSは、分析対象領域Rにおける最新のコミュニケーションの状況を、ユーザ又は外部ユーザに通知することができる。
なお、活性度が大きい状況を肯定的な要素として捉えるか、若しくは、否定的な要素として捉えるか、又は、活性度が小さい状況を肯定的な要素として捉えるか、若しくは、否定的な要素として捉えるかは、分析対象領域Rの種類による。例えば、静かな方が望ましい分析対象領域R(図書館や図書室の場合や、学校や塾の教室で授業中やテスト中のように生徒が静かにしている方が望ましい場合など)では、活性度が大きい状況を否定的な要素とし、又は、活性度が小さい状況を肯定的な要素として、捉えてもよい。
また、出力制御部125は、活性度決定部124が決定した活性度が所定の介入条件を満たしたことに応じて、当該介入条件に関連付けられた介入情報を、現地端末3又は外部端末4の少なくとも一方から出力させてもよい。出力制御部125は、例えば、受付部121が受け付けた介入条件及び介入情報を記憶部11から取得する。出力制御部125は、分析対象領域R内の各位置における活性度が、介入条件を満たすか否か(例えば、介入条件が示す閾値以上か否か)を判定する。
出力制御部125は、分析対象領域R内のいずれかの位置における活性度が介入条件を満たしたことに応じて、当該介入条件に関連付けられた介入情報を生成する。出力制御部125は、例えば、活性度が介入条件を満たした位置を含むサブ領域の名称を含むメッセージ(「コーヒーエリアが盛り上がっています」、「図書室では静かにしてください」等)を介入情報として生成する。この場合、活性度が大きい場合の介入情報として、肯定的な内容の介入情報(例えば、コミュニケーションを促進するための情報)を生成するか、否定的な内容の介入情報(例えば、コミュニケーションを抑制するための情報)を生成するかは、分析対象領域Rの種類により定めればよい。上述したように、例えば、静かな方が望ましい分析対象領域Rでは、活性度が大きい状況を否定的な要素として捉え、否定的な内容の介入情報を生成してもよい。
また、介入条件としては、活性度が所定の閾値以上になった場合に限らず、これに代えて又はこれとともに、活性度が所定の閾値以下になった場合を用いることも可能である。この場合も、活性度が小さい場合の介入情報として、肯定的な内容の介入情報(例えば、静かにできていることをほめる情報)を生成するか、否定的な内容の介入情報(例えば、静かにできていないことに注意を促す情報)を生成するかは、分析対象領域Rの種類により定めることができる。そして、出力制御部125は、生成した介入情報を、現地端末3又は外部端末4の少なくとも一方に送信する。
出力制御部125は、全ての現地端末3から、介入情報を出力させてもよい。また、出力制御部125は、複数の現地端末3のうち、介入条件を満たした位置を含むサブ領域内に配置された現地端末3のみから、介入情報を出力させてもよい。これにより、音声分析システムSは、活性度が介入条件を満たした位置の周辺にいるユーザに向けて介入情報を通知することができる。
図6(a)は、マップ情報及び介入情報を表示している現地端末3の模式図である。現地端末3は、音声分析装置1から受信したマップ情報及び介入情報を表示部上に表示する。図6(a)の例では、現地端末3は、マップ情報であるヒートマップHと、介入情報を表すメッセージMと、を表示部上に表示している。外部端末4は、同様にヒートマップH及びメッセージMを表示部上に表示してもよい。
図6(b)は、介入情報を音声により出力している現地端末3の模式図である。現地端末3は、音声分析装置1から受信した介入情報を表示す音声Vを、音声出力部から出力している。音声Vは、音声分析装置の出力制御部125によって生成されてもよく、現地端末3によって生成されてもよい。
このように、音声分析システムSは、分析対象領域R内の各位置における発話の長さをマップ情報として可視化することにより、分析対象領域R内で音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。また、音声分析システムSは、活性度が所定条件を満たしたことに応じて介入情報を出力することにより、コミュニケーションを促進又は抑制するように、分析対象領域R内のコミュニケーションを調整することができる。
出力制御部125は、分析対象領域R内にいる人物に応じて、介入情報の内容を変更してもよい。この場合に、介入情報は、例えば、人物又は人物の属性(年齢、性別、服装等)に予め関連付けられている。出力制御部125は、例えば、現地端末3が備えるカメラによって取得された現地端末3周辺の撮像画像に対して既知の人物認識処理を行うことにより、分析対象領域R内にいる人物を認識する。出力制御部125は、分析対象領域Rのどこかにいる人物を認識してもよく、特定のサブ領域にいる人物のみを認識してもよい。そして出力制御部125は、介入条件が満たされたことに応じて、認識した人物又は人物の属性に関連付けられた介入情報を、現地端末3又は外部端末4の少なくとも一方から出力させる。これにより、音声分析システムSは、分析対象領域R内にいる人物に合った介入情報を出力することができる。
出力制御部125は、分析対象領域R内において異なる期間の活性度を比較するための比較情報を、外部端末4に表示させてもよい。この場合に、受付部121は、外部端末4から、比較対象とするサブ領域の指定を受け付ける。また、受付部121は、外部端末4から、比較対象とする期間の指定を受け付けてもよい。出力制御部125は、指定されたサブ領域における第1期間の活性度と、当該サブ領域における第2期間の活性度と、を関連付けた比較情報を生成する。出力制御部125は、生成した比較情報を、現地端末3又は外部端末4の少なくとも一方に送信する。
図7(a)、図7(b)は、比較情報を表示している外部端末4の模式図である。外部端末4は、音声分析装置1から受信した比較情報を表示する。図7(a)の例では、外部端末4は、第1期間及び第2期間それぞれのヒートマップHと、指定されたサブ領域における第1期間及び第2期間の活性度の比較結果を表すメッセージMと、を比較情報として表示している。ヒートマップHにおいて、分析対象領域R全体の中で、指定されたサブ領域が強調表示されている。メッセージMは、例えば、サブ領域における第1期間及び第2期間の間の活性度の増減の量又は割合を表すメッセージである。
図7(b)の例では、外部端末4は、指定されたサブ領域又は分析対象領域R全体におけるヒートマップH1と、指定されたサブ領域又は分析対象領域R全体における複数期間の活性度の比較結果を表すメッセージMと、を比較情報として表示している。
ヒートマップH1は、図6(a)、図7(a)に例示した地図上で活性度を表すヒートマップHとは異なり、時間帯ごとに、サブ領域又は分析対象領域R全体の活性度に対応する情報(色、模様等)を表したヒートマップである。そのため、ヒートマップH1は、同じ領域における複数の時間帯の間の活性度の違いを可視化している。メッセージMは、例えば、サブ領域又は分析対象領域R全体において活性度が大きい又は小さい時間帯を表すメッセージである。
このように、音声分析システムSは、異なる期間の活性度を関連付けて可視化することにより、活性度の増減や、時間帯ごとの活性度の傾向を分析しやすくすることができる。
出力制御部125は、指定された位置における過去の音声を外部端末4から出力させてもよい。この場合に、受付部121は、マップ情報又は比較情報を表示している外部端末4において、分析対象領域R内の位置及び過去の期間の指定を受け付ける。出力制御部125は、音声取得部122が取得した音声のうち、指定された位置及び期間の音声を記憶部11から取得し、外部端末4の音声出力部から出力させる。これにより、音声分析システムSは、活性度と実際の音声内容との関係を分析しやすくすることができる。
出力制御部125は、発話位置の移動の軌跡を含む移動情報を、現地端末3又は外部端末4の少なくとも一方に表示させてもよい。この場合に、特定部123は、例えば、特定した時間ごとの発話位置の時間変化を、発話位置の移動の軌跡として特定する。特定部123は、上述の話者認識処理によって生成した、発話位置と、当該発話位置において発話を行ったユーザと、を時間ごとに関連付けた情報を、記憶部11から取得する。そして特定部123は、取得した情報に基づいて、特定のユーザ(話者)に対応する発話位置の移動の軌跡を特定する。出力制御部125は、特定部123が特定した移動の軌跡を含む移動情報を、現地端末3又は外部端末4の少なくとも一方に送信する。
図8は、移動情報を表示している外部端末4の模式図である。外部端末4は、音声分析装置1から受信した移動情報を表示部上に表示する。図8の例では、外部端末4は、移動情報が示す移動の軌跡Tを表示部上に表示している。現地端末3は、同様に移動の軌跡Tを表示部上に表示してもよい。これにより、音声分析システムSは、話者が分析対象領域R内でどのように移動してコミュニケーションをとるかを分析しやすくすることができる。
通話制御部126は、出力制御部125が外部端末4にマップ情報を表示させた後に、マップ情報上で選択された現地端末3と外部端末4との間で通話を開始させてもよい。この場合に、出力制御部125は、例えば。分析対象領域Rを表す地図上に、分析対象領域R内の各位置の活性度に対応する情報(色、模様等)と、分析対象領域Rに配置された一又は複数の現地端末3の位置を示す情報(アイコン等)と、を重畳したヒートマップを、マップ情報として外部端末4に表示させる。
受付部121は、外部端末4に表示されたマップ情報において、一又は複数の現地端末3のうち、通話先とするいずれかの現地端末3の選択を受け付ける。外部ユーザは、例えば、分析対象領域R外から分析対象領域Rにおけるコミュニケーションを支援するために、マップ情報において活性度が小さい場所に配置された現地端末3を選択する。通話制御部126は、一又は複数の現地端末3のいずれかが選択されたことに応じて、選択された現地端末3と外部端末4との間で音声の授受を開始させる。現地端末3は、外部端末4との間で通話を行うための通話端末として機能し、外部端末4から受信した音声をスピーカ等の音声出力部から出力するとともに、現地端末3のマイクロフォン等の集音部に入力された音声を外部端末4に送信する。通話制御部126は、選択された現地端末3と外部端末4との間で双方向に音声を授受させてもよく、外部端末4から現地端末3へ一方向に音声を出力させてもよい。
これにより、音声分析システムSは、現地端末3との通話を希望する外部ユーザが、活性度に基づいて通話先の現地端末3を選択しやすくすることができる。外部ユーザは、外部から分析対象領域R内の現地端末3に音声によって介入することにより、分析対象領域Rにおけるコミュニケーションの活発化を支援することができる。
[音声分析方法のフローチャート]
図9は、本実施形態に係る音声分析装置1が実行する例示的な音声分析方法のフローチャートを示す図である。受付部121は、外部端末4から、分析対象領域Rと、分析対象領域R内における集音装置2及び現地端末3の位置と、分析対象領域R内において壁等の物体が位置する物体領域と、の設定を受け付ける(S11)。
図9は、本実施形態に係る音声分析装置1が実行する例示的な音声分析方法のフローチャートを示す図である。受付部121は、外部端末4から、分析対象領域Rと、分析対象領域R内における集音装置2及び現地端末3の位置と、分析対象領域R内において壁等の物体が位置する物体領域と、の設定を受け付ける(S11)。
音声取得部122は、分析対象領域Rに配置された複数の集音装置2それぞれが集音した音声を取得する(S12)。音声取得部122は、複数の集音装置2それぞれが集音した音声の時間ごとの到来方向Dを取得する(S13)。到来方向Dは、音声分析装置1によって推定されてもよく、複数の集音装置2それぞれによって推定されてもよい。
特定部123は、複数の集音装置2に対する複数の到来方向Dに基づいて、時間ごとに、分析対象領域R内で発話が行われた位置である発話位置を特定する(S14)。ここで特定部123は、受付部121が受け付けた分析対象領域R内において物体が位置する物体領域を考慮して、発話位置を特定してもよい。
特定部123は、特定部123が特定した時間ごとの発話位置に基づいて、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定する(S15)。活性度決定部124は、分析対象領域R内の各位置において、特定部123が特定した単位時間あたりの発話の長さに対応する活性度を決定する(S16)。活性度は、例えば、特定部123が特定した単位時間あたりの発話の長さが長いほど大きく、特定部123が特定した単位時間あたりの発話の長さが短いほど小さい値である。
出力制御部125は、分析対象領域R内の各位置と、活性度決定部124が決定した活性度と、を関連付けたマップ情報を、現地端末3又は外部端末4の少なくとも一方に出力させる(S17)。また、出力制御部125は、分析対象領域R内において異なる期間の活性度を比較するための比較情報を、外部端末4に表示させてもよい。
出力制御部125は、活性度決定部124が決定した活性度が所定の介入条件を満たした場合に(S18のYES)、当該介入条件に関連付けられた介入情報を、現地端末3又は外部端末4の少なくとも一方から出力させる(S19)。音声分析装置1は、活性度決定部124が決定した活性度が所定の介入条件を満たさない場合に(S18のNO)、処理を終了する。
[本実施形態の効果]
本実施形態に係る音声分析システムSは、分析対象領域Rに配置された集音装置2が取得した音声に基づいて、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定し、発話の長さに対応する活性度を分析対象領域R内の各位置と関連付けて出力する。これにより、音声分析システムSは、音声の大きさではなく、分析対象領域R内の各位置における発話の長さを可視化できるため、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。
本実施形態に係る音声分析システムSは、分析対象領域Rに配置された集音装置2が取得した音声に基づいて、分析対象領域R内の各位置における単位時間あたりの発話の長さを特定し、発話の長さに対応する活性度を分析対象領域R内の各位置と関連付けて出力する。これにより、音声分析システムSは、音声の大きさではなく、分析対象領域R内の各位置における発話の長さを可視化できるため、音声によるコミュニケーションが活発に行われているかどうかを分析しやすくすることができる。
また、音声分析システムSは、活性度が所定条件を満たしたことに応じて介入情報を出力することにより、コミュニケーションを促進又は抑制するように、分析対象領域R内のコミュニケーションを調整することができる。また、音声分析システムSは、異なる期間の活性度を関連付けて可視化することにより、活性度の増減や、時間帯ごとの活性度の傾向を分析しやすくすることができる。
[変形例]
上述の実施形態では、音声分析システムSが会社や公共施設等の閉鎖空間において人間によって発せられた音声を分析する例を説明したが、音声分析システムSは、公園等の開放空間において人間に限らない猿や鳥等の動物によって発せられた音声を分析してもよい。
上述の実施形態では、音声分析システムSが会社や公共施設等の閉鎖空間において人間によって発せられた音声を分析する例を説明したが、音声分析システムSは、公園等の開放空間において人間に限らない猿や鳥等の動物によって発せられた音声を分析してもよい。
この場合に、音声分析装置1において、受付部121は、開放空間を分析対象領域Rとする設定を受け付ける。音声取得部122は、開放空間である分析対象領域Rに配置された複数の集音装置2それぞれが集音した、動物によって発せられた音声を取得する。そして音声分析装置1は、上述の実施形態と同様に各位置の発話の長さを特定し、発話の長さに対応する活性度に対応する情報を出力する。
このように、音声分析システムSは、開放空間における、人間に限らない動物のコミュニケーションが活発に行われているかどうかも分析しやすくすることができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
音声分析装置1のプロセッサは、図9に示す音声分析方法に含まれる各ステップ(工程)を実行する。すなわち、音声分析装置1のプロセッサは、図9に示す音声分析方法を実行するためのプログラムを実行することによって図9に示す音声分析方法を実行する。図9に示す音声分析方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
S 音声分析システム
1 音声分析装置
11 記憶部
12 制御部
121 受付部
122 音声取得部
123 特定部
124 活性度決定部
125 出力制御部
126 通話制御部
2 集音装置
3 現地端末
4 外部端末
1 音声分析装置
11 記憶部
12 制御部
121 受付部
122 音声取得部
123 特定部
124 活性度決定部
125 出力制御部
126 通話制御部
2 集音装置
3 現地端末
4 外部端末
Claims (14)
- 所定の領域に配置された複数の集音装置それぞれが集音した音声を取得する音声取得部と、
前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定する特定部と、
前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させる出力制御部と、
を有する、音声分析装置。 - 前記音声取得部は、前記複数の集音装置それぞれに対する前記音声の到来方向を取得し、
前記特定部は、前記複数の集音装置に対する複数の前記到来方向に基づいて、前記発話が行われた位置を特定する、
請求項1に記載の音声分析装置。 - 前記領域内において物体が位置する物体領域の設定を受け付ける受付部をさらに有し、
前記特定部は、前記到来方向に沿った直線が前記物体領域と交わる場合に、前記到来方向の中で前記集音装置の位置を基準として前記物体領域よりも遠い部分を除外して、前記発話が行われた位置を特定する、
請求項2に記載の音声分析装置。 - 前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報を重畳した情報である、
請求項1から3のいずれか一項に記載の音声分析装置。 - 前記マップ情報は、前記領域を表す地図上に、前記活性度に対応する情報と、前記領域に配置された一又は複数の通話端末の位置を示す情報と、を重畳した情報であり、
前記情報端末に表示された前記マップ情報において前記一又は複数の通話端末のいずれかが選択されたことに応じて、選択された前記通話端末と前記情報端末との間で音声の授受を開始させる通話制御部をさらに有する、
請求項4に記載の音声分析装置。 - 前記出力制御部は、前記領域内の位置における前記活性度が所定の条件を満たしたことに応じて、前記条件に関連付けられた介入情報を前記情報端末に出力する、
請求項1又は2に記載の音声分析装置。 - 前記情報端末から、前記条件、及び当該条件と関連付けられた前記介入情報の設定を受け付ける受付部をさらに有する、
請求項6に記載の音声分析装置。 - 前記特定部は、前記発話が行われた位置の時間変化を、前記発話が行われた位置の移動の軌跡として特定し、
前記出力制御部は、前記移動の軌跡を含む情報を前記情報端末に表示させる、
請求項1から3のいずれか一項に記載の音声分析装置。 - 前記出力制御部は、前記領域の少なくとも一部であるサブ領域における第1期間の前記活性度と、前記サブ領域における第2期間の前記活性度と、を関連付けて前記情報端末に表示させる、
請求項1から3のいずれか一項に記載の音声分析装置。 - 前記特定部は、前記複数の集音装置から取得した複数の前記音声それぞれを発した一又は複数の話者を認識することによって、前記領域内の各位置における前記発話を行った人物の人数を推定し、
前記単位時間あたりの前記発話の長さを用いて暫定活性度を算出し、前記人数に応じて前記暫定活性度を補正することによって前記活性度を決定する活性度決定部をさらに有する、
請求項1から3のいずれか一項に記載の音声分析装置。 - 前記活性度決定部は、前記人数が複数人である場合の前記活性度を、前記人数が1人である場合の前記活性度よりも大きくする、
請求項10に記載の音声分析装置。 - 前記出力制御部は、所定の時間間隔で決定された前記活性度を含む前記マップ情報を繰り返し前記情報端末に表示させる、
請求項1から3のいずれか一項に記載の音声分析装置。 - プロセッサが実行する、
所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、
前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、
前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、
を有する、音声分析方法。 - プロセッサに、
所定の領域に配置された複数の集音装置それぞれが集音した音声を取得するステップと、
前記音声を用いて、前記領域内の各位置における単位時間あたりの発話の長さを特定するステップと、
前記領域内の各位置と、前記単位時間あたりの前記発話の長さに対応する活性度と、を関連付けたマップ情報を、情報端末に表示させるステップと、
を実行させる、音声分析プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/019170 WO2023209898A1 (ja) | 2022-04-27 | 2022-04-27 | 音声分析装置、音声分析方法及び音声分析プログラム |
PCT/JP2022/045694 WO2023210052A1 (ja) | 2022-04-27 | 2022-12-12 | 音声分析装置、音声分析方法及び音声分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/019170 WO2023209898A1 (ja) | 2022-04-27 | 2022-04-27 | 音声分析装置、音声分析方法及び音声分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023209898A1 true WO2023209898A1 (ja) | 2023-11-02 |
Family
ID=88518226
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/019170 WO2023209898A1 (ja) | 2022-04-27 | 2022-04-27 | 音声分析装置、音声分析方法及び音声分析プログラム |
PCT/JP2022/045694 WO2023210052A1 (ja) | 2022-04-27 | 2022-12-12 | 音声分析装置、音声分析方法及び音声分析プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/045694 WO2023210052A1 (ja) | 2022-04-27 | 2022-12-12 | 音声分析装置、音声分析方法及び音声分析プログラム |
Country Status (1)
Country | Link |
---|---|
WO (2) | WO2023209898A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007025859A (ja) * | 2005-07-13 | 2007-02-01 | Sharp Corp | 実世界コミュニケーション管理装置 |
JP2013058221A (ja) * | 2012-10-18 | 2013-03-28 | Hitachi Ltd | 会議分析システム |
WO2019142233A1 (ja) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
WO2019142230A1 (ja) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
WO2021245759A1 (ja) * | 2020-06-01 | 2021-12-09 | ハイラブル株式会社 | 音声会議装置、音声会議システム及び音声会議方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016082356A (ja) * | 2014-10-15 | 2016-05-16 | 株式会社ニコン | 電子機器およびプログラム |
JP2018036690A (ja) * | 2016-08-29 | 2018-03-08 | 米澤 朋子 | 一対多コミュニケーションシステムおよびプログラム |
-
2022
- 2022-04-27 WO PCT/JP2022/019170 patent/WO2023209898A1/ja unknown
- 2022-12-12 WO PCT/JP2022/045694 patent/WO2023210052A1/ja unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007025859A (ja) * | 2005-07-13 | 2007-02-01 | Sharp Corp | 実世界コミュニケーション管理装置 |
JP2013058221A (ja) * | 2012-10-18 | 2013-03-28 | Hitachi Ltd | 会議分析システム |
WO2019142233A1 (ja) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
WO2019142230A1 (ja) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
WO2021245759A1 (ja) * | 2020-06-01 | 2021-12-09 | ハイラブル株式会社 | 音声会議装置、音声会議システム及び音声会議方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023210052A1 (ja) | 2023-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10453443B2 (en) | Providing an indication of the suitability of speech recognition | |
US11290826B2 (en) | Separating and recombining audio for intelligibility and comfort | |
KR102694487B1 (ko) | 선택적 청취를 지원하는 시스템 및 방법 | |
US9293133B2 (en) | Improving voice communication over a network | |
US11335322B2 (en) | Learning device, learning method, voice synthesis device, and voice synthesis method | |
US9344815B2 (en) | Method for augmenting hearing | |
CN112352441B (zh) | 增强型环境意识系统 | |
JP5236631B2 (ja) | 表示装置、表示方法、表示プログラム | |
JP7453714B2 (ja) | 議論分析装置及び議論分析方法 | |
CN108762494A (zh) | 显示信息的方法、装置及存储介质 | |
US11602287B2 (en) | Automatically aiding individuals with developing auditory attention abilities | |
JP2020095210A (ja) | 議事録出力装置および議事録出力装置の制御プログラム | |
CN109671430A (zh) | 一种语音处理方法及装置 | |
KR20230043080A (ko) | 대화기반 정신장애선별방법 및 그 장치 | |
Weisser et al. | Complex acoustic environments: Review, framework, and subjective model | |
CN113709291A (zh) | 音频处理方法、装置、电子设备及可读存储介质 | |
WO2023209898A1 (ja) | 音声分析装置、音声分析方法及び音声分析プログラム | |
Azar et al. | Sound visualization for the hearing impaired | |
JP6589042B1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
US20230005488A1 (en) | Signal processing device, signal processing method, program, and signal processing system | |
US20190362701A1 (en) | Generation and visualization of distraction index parameter with environmental response | |
US20230421984A1 (en) | Systems and methods for dynamic spatial separation of sound objects | |
US20230421983A1 (en) | Systems and methods for orientation-responsive audio enhancement | |
KR102369263B1 (ko) | 인공지능 기반 대상자의 치매 검사를 위한 아웃바운드 콜의 음량 제어 방법, 장치 및 시스템 | |
EP4329609A1 (en) | Methods and devices for hearing training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22940175 Country of ref document: EP Kind code of ref document: A1 |