WO2019130817A1 - 情報処理装置及び発話解析方法 - Google Patents

情報処理装置及び発話解析方法 Download PDF

Info

Publication number
WO2019130817A1
WO2019130817A1 PCT/JP2018/040837 JP2018040837W WO2019130817A1 WO 2019130817 A1 WO2019130817 A1 WO 2019130817A1 JP 2018040837 W JP2018040837 W JP 2018040837W WO 2019130817 A1 WO2019130817 A1 WO 2019130817A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
display
keyword
predetermined
control unit
Prior art date
Application number
PCT/JP2018/040837
Other languages
English (en)
French (fr)
Inventor
祐毅 小林
菜美 西村
知子 真野
Original Assignee
京セラドキュメントソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラドキュメントソリューションズ株式会社 filed Critical 京セラドキュメントソリューションズ株式会社
Priority to US16/753,453 priority Critical patent/US11404064B2/en
Priority to CN201880061642.9A priority patent/CN111149153B/zh
Priority to JP2019562805A priority patent/JP6904435B2/ja
Publication of WO2019130817A1 publication Critical patent/WO2019130817A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to an information processing apparatus and an utterance analysis method, and more particularly to a technology for analyzing contents uttered by a person.
  • This technology stores the speech time and speech time length uttered by each member of the group, divides the speech time and speech time length of each member into time series for each group, and speaks the speech time length of all members of the group The ratio of the speaking time length of each member to is calculated, and a graph in which the speaking density contribution rate of each member is drawn is generated for each group.
  • the present invention has been made in view of the above-described circumstances, and an object thereof is to display the content of a remark made at a group meeting or the like.
  • An information processing apparatus includes: a first detection unit configured to detect each utterance made in the utterance from voice data in which an utterance of each person in a group consisting of a plurality of people is recorded; (1) A textification unit that converts the contents of each utterance detected by the detection unit into text, and a second detection that detects a predetermined keyword included in each utterance based on text data converted into text by the textification unit A display unit; and a display control unit that causes the display unit to display a predetermined keyword detected by the second detection unit.
  • a speech detection step of detecting each speech in the speech from speech data in which speech of each person in a group consisting of a plurality of people is recorded. And a textification step for converting the contents of each utterance detected in the utterance detection step into text, and a keyword for detecting a predetermined keyword included in each utterance based on the text data converted into text in the textification step. And a display control step of causing the display unit to display a predetermined keyword detected in the keyword detection step.
  • the display unit, the audio input unit to which an electrical signal indicating audio is input, and the audio input unit each time an electrical signal is input A storage unit that stores voice data based on the electrical signal for each person who has produced the voice, and a processor, and the processor executes the evaluation program to extract and extract a portion corresponding to the speech from the voice data Included in the message based on a first detection unit that detects the second portion as a message, a textification unit that converts the content of the utterance detected by the first detection unit into text, and text data converted into text by the textification unit A second detection unit that detects a predetermined keyword, and a display control unit that causes the display unit to display the predetermined keyword detected by the second detection unit , And a control unit that serves as a.
  • FIG. 1 is a diagram showing an information processing apparatus according to a first embodiment of the present invention, and a target person whose speech analysis is performed by the information processing apparatus.
  • the information processing apparatus 1 acquires, as voice data, voices uttered by each person belonging to a plurality of predetermined conversation groups G1 to G3. For example, a plurality of persons P11, P12, P13 belonging to the group G1, persons P21, P22, P23 belonging to the group G2, persons P31, P32, P33 belonging to the group G3 (in this embodiment, each person belonging to three groups Although it is explained that there are nine people in total, it is not limited to this.) Performs meetings, discussions, classes, or meetings (hereinafter collectively referred to simply as "meetings") on a group basis. It is assumed that
  • Each person in the conversation group speaks using the headset 2 having a microphone function. That is, each headset 2 used by each person acquires the voice of the conversation of the person wearing the headset 2, converts the voice into an electrical signal indicating the voice, and outputs the electric signal to the information processing device 1.
  • the information processing apparatus 1 and each headset 2 are connected by, for example, wired communication by cable connection or wireless communication such as Bluetooth (registered trademark) or wireless LAN.
  • the information processing apparatus 1 converts the electrical signal indicating the voice output from each headset 2 into voice data consisting of a digital voice signal, and for each headset 2, that is, nine people P11 to P33.
  • the voice data about is stored in each.
  • FIG. 2 is a block diagram showing an outline of an internal configuration of the information processing apparatus 1.
  • the information processing apparatus 1 is, for example, a computer.
  • the information processing apparatus 1 includes a control unit 10, a read only memory (ROM) 112, a random access memory (RAM) 113, a hard disk drive (HDD) 114, a display unit 115, a communication interface 118, and an instruction input. And a unit 119. These units are capable of transmitting and receiving data or signals to each other via a central processing unit (CPU) bus.
  • CPU central processing unit
  • the control unit 10 controls the operation of the entire information processing apparatus 1.
  • the ROM 112 stores an operation program for the basic operation of the information processing device 1.
  • the RAM 113 is used as an operation area or the like of the control unit 10.
  • the HDD 114 stores the speech analysis program according to the first embodiment of the present invention in part of its storage area. Further, the HDD 114 stores the above-mentioned audio data of nine persons P11 to P33.
  • the HDD 114 is also an example of a storage unit in the claims. However, a non-volatile ROM (for example, built in the control unit 10) included in the information processing apparatus 1 may function as the storage unit.
  • Identification information for specifying the headset 2 is attached in advance to the headset 2 connected to the information processing apparatus 1.
  • the identification information is not particularly limited as long as it is information that can identify the headset 2. For example, there is an identification number.
  • the HDD 114 stores the identification information for each headset 2 in advance.
  • the HDD 114 also stores each of the identification information in association with group information for specifying a group in accordance with an instruction input by the user via the instruction input unit 119.
  • the HDD 114 stores identification information of the headset 2 used by each of the persons P21, P22, and P23 in association with group information specifying the group G1.
  • the HDD 114 also stores identification information of the headset 2 used by each of the persons P21, P22, and P23 in association with group information specifying the group G2.
  • the HDD 114 further stores identification information of the headset 2 used by each of the persons P31, P32, and P33 in association with group information specifying the group G3.
  • the display unit 115 is formed of an LCD (Liquid Crystal Display) or the like, and displays operation guidance or the like for the operator who operates the information processing apparatus 1.
  • LCD Liquid Crystal Display
  • the communication interface 118 has a USB interface or a wireless LAN interface.
  • the communication interface 118 functions as an interface for performing data communication with each of the headsets 2.
  • the communication interface 118 is an example of the voice input unit in the claims.
  • the instruction input unit 119 includes a keyboard, a mouse, and the like, and the operator inputs an operation instruction.
  • the control unit 10 is configured of a processor, a RAM, a ROM, and the like.
  • the processor is a CPU, a micro processing unit (MPU), an application specific integrated circuit (ASIC), or the like.
  • the speech analysis program stored in the HDD 114 is executed by the processor, whereby the control unit 100, the first detection unit 101, the text conversion unit 102, the second detection unit 103, and the display control unit It functions as the sorting unit 105 and the extracting unit 106.
  • the control unit 100, the first detection unit 101, the text conversion unit 102, the second detection unit 103, the display control unit 104, the sorting unit 105, and the extraction unit 106 may be configured by a hardware circuit.
  • the control unit 100 has a function of controlling the operation control of the entire information processing apparatus 1.
  • the first detection unit (speech detection unit) 101 detects a speech in speech recorded in speech data from each of speech data of nine persons P11 to P33 stored in the HDD 114.
  • FIG. 3 is a diagram showing an example of audio data.
  • the vertical axis in FIG. 3 represents the amplitude of sound (in dB), and the horizontal axis represents time.
  • the first detection unit 101 analyzes the audio data, and among the amplitudes indicated by the audio data, the amplitude (for example, a predetermined amplitude or more) continuously for a predetermined time (for example, 0.25 seconds) or more.
  • the part where 20 dB) continues is detected as a message.
  • the first detection unit 101 detects the a part, the b part, and the c part as a message.
  • the text conversion unit 102 has a known voice recognition function, and thereby converts the contents of the speech of each person included in the voice data into characters by character conversion.
  • the second detection unit (keyword detection unit) 103 detects a predetermined keyword included in each utterance based on the text data converted into text by the text conversion unit 102.
  • the display control unit 104 causes the display unit 115 to display the predetermined keyword detected by the second detection unit 103. In addition, the display control unit 104 causes the display unit 115 to display, among the predetermined keywords detected by the second detection unit 103, keywords whose number of detections is equal to or more than a predetermined first value.
  • the sorting unit (type sorting unit) 105 sorts the predetermined keywords detected by the second detection unit 103 into respective predetermined types.
  • the display control unit 104 causes the display unit 115 to display a type whose total number of detections of the respective keywords belongs to a predetermined second value or more and a keyword belonging to the type.
  • the extraction unit (word extraction unit) 106 extracts a word other than the predetermined keyword from the text data converted into text by the text conversion unit 102.
  • the display control unit 104 causes the display unit 115 to display, of the words extracted by the extraction unit 106, words whose number of detections is equal to or greater than a predetermined third value.
  • FIG. 4 is a flowchart showing speech analysis processing by the information processing device 1 according to the first embodiment.
  • the scene in which the utterance analysis is performed is a scene in which each person belonging to the conversation groups G1 to G3 is holding a meeting for each group.
  • Each of the persons P11 to P33 wears the headset 2, and the headsets 2 are communicably connected to the information processing apparatus 1 as described above.
  • the people P11 to P33 speak during the meeting in the respective groups to which they belong.
  • the voice uttered by the people P11 to P33 is collected by the headset 2 of each of the people P11 to P33, and is output to the information processing device 1.
  • the information processing apparatus 1 acquires audio data from each headset 2 via the communication interface 118 (step S1). That is, when the communication interface 118 receives an electrical signal indicating the voice output from each headset 2, the first detection unit 101 converts the electrical signal indicating the acquired voice into a digital voice signal. It is converted into voice data and stored in the HDD 114. The first detection unit 101 stores the voice data in the HDD 114 for each of the persons P11 to P33, that is, in association with the identification information stored in the HDD 114.
  • the first detection unit 101 detects, as described above, each utterance in the speech indicated by the voice data from each of the voice data stored in the HDD 114 for each of the persons P11 to P33. (Step S2).
  • the text conversion unit 102 converts the contents of the speech of each person included in the voice data into characters by converting the characters by the voice recognition function (step S3).
  • the first detection unit 101 stores the time zone corresponding to each utterance of the people P11 to P33 in the voice data in the HDD 114, and the textification unit 102 recognizes the time zone portion in the voice data as the utterance. , Convert the contents of the said speech into characters.
  • the second detection unit 103 detects a predetermined keyword included in each utterance based on the text data converted into text as described above by the text conversion unit 102 (step S4). For example, when “water vapor”, “air pressure”, “change”, and “melt” are stored in HDD 114 as predetermined keywords, the second detection unit 103 is a text obtained by converting the above statement into a text. It is determined whether the data contains the keyword. If the second keyword is included, the second detector 103 detects the keyword and counts up the number of occurrences of the keyword. The second detection unit 103 stores the number of occurrences of each keyword in the HDD 114 in association with the identification information.
  • the display control unit 104 causes the display unit 115 to display the keywords detected by the second detection unit 103 (step S5).
  • a predetermined keyword is as shown in the above example, as shown in FIG. 5, the display control unit 104 displays the number of appearances of each keyword based on the identification information and the group information stored in the HDD 114. Images are collected on a group basis, and an image indicating each keyword and the number of appearances of each keyword is displayed on the display unit 115 for each group of people P11 to P33.
  • the display control unit 104 causes the display unit 115 to display the keyword (the keyword of the number of detection “0”) not detected by the second detection unit 103 as the number of detection “0”. It is also good.
  • the display control unit 104 displays an image showing each keyword and the number of appearances of each keyword through all the groups as shown in FIG. 6 according to the screen switching instruction input from the operator by the operation of the instruction input unit 119. Is displayed on the display unit 115.
  • the display control unit 104 has the top three keywords with the number of appearances as shown in FIG.
  • the display unit 115 displays the images arranged in descending order.
  • FIG. 8 is a diagram showing speech analysis processing by the information processing device 1 according to the second embodiment.
  • the display control unit 104 Among the keywords detected by the second detection unit 103, a keyword whose number of detections is equal to or greater than a predetermined first value is detected (step S15), and each detected keyword is displayed together with the number of each detection It is displayed on the part 115 (step S16).
  • the display control unit 104 detects a keyword whose number of detections is equal to or more than the first value, and detects the detected keyword and its detection. Only the number is displayed on the display unit 115 for each group.
  • the first and second embodiments it is possible to display the contents of the utterance made at a group meeting etc. so as to be visible to the user. Thereby, the user can visually recognize the display and accurately grasp the content of the speech by the meeting attendee.
  • FIG. 10 is a diagram showing speech analysis processing by the information processing device 1 according to the third embodiment.
  • the display control unit 104 In accordance with the number of times of detection of each keyword, the points attached to each keyword in advance are added up for each keyword (step S25), and the keywords are displayed on the display unit 115 together with the added points (step S26). Furthermore, the display control unit 104 may calculate and display the sum of points of all keywords for each of the groups G1 to G3. In the third embodiment, a plurality of predetermined keywords are used.
  • the HDD 114 stores, for each keyword, a predetermined point added once for each detection count.
  • the point is set in advance by the organizer or the like according to the degree of importance in the conference, and stored in the HDD 114 by the operation of the instruction input unit 119, for example.
  • the display control unit 104 adds points attached to the keyword each time the keyword is detected. For this reason, the keywords detected frequently have high points to be counted.
  • the HDD 114 sets two points for “water vapor”, three points for “atmospheric pressure”, and one point for “change” as the points set for each keyword.
  • the display control unit 104 counts points for each keyword according to the number of times of detection of each keyword.
  • the display control unit 104 further calculates the point sum of all the keywords for each of the groups G1 to G3 and causes the display unit 115 to display a display screen such as "total result" shown in FIG.
  • the display unit 115 displays each keyword and the sum of points of all the keywords for each of the groups G1 to G3.
  • the user can grasp how much important keywords are used in the meeting by visually recognizing the displayed keywords and the total points, and further, the points of all the keywords By visualizing the total, it is possible to obtain an indicator for determining which group held the most meaningful meeting.
  • FIG. 12 is a flowchart showing speech analysis processing by the information processing apparatus 1 according to the fourth embodiment.
  • the sorting unit 105 is detected by the second detection unit 103 after the processing up to keyword detection is finished as in steps S1 to S4 in the first embodiment (steps S31 to S34).
  • These keywords are sorted into predetermined types (step S35).
  • the HDD 114 stores “weather”, “sports”, and “society” as predetermined types.
  • the HDD 114 further stores, in advance, keywords “fine”, “cloudy”, “rain”, “cloud”, “white” and “smoke” as keywords belonging to the type "weather”.
  • the HDD 114 further stores in advance keywords “tennis”, “baseball”, “soccer”, “cancel”, “finals”, “wins and loses” as keywords belonging to the type "sports”.
  • the HDD 114 further stores, in advance, keywords “economy”, “company”, “stock price”, “business”, “sales”, and “profit and loss” as keywords belonging to the type “society”.
  • the second detection unit 103 starts with “fine”, “cloudy”, “rain”, “cloud”, “white”, “smoke”, “tennis”, “baseball”, “soccer”, “discontinue”, from each utterance by each person Detect the final, “win and lose", "company”, “stock price”, “economy”, “sales” and “profit and loss”. Then, the sorting unit 105 determines to which of the types “weather”, “sports” and “society” the detected keywords belong, and sorts the detected keywords according to the type.
  • FIG. 13 shows an example of a type, keywords belonging to the type, and the number of detections. The sorting unit 105 sorts the appeared keywords into various types, counts the number of detected keywords belonging to each type, and stores the number of detected in the HDD 114 together with the keywords.
  • the display control unit 104 detects a type whose number of detections is equal to or more than a predetermined second value (step S36). That is, the display control unit 104 detects the type in which the total of the detection numbers of the keywords belonging to the type is equal to or more than the second value. For example, in the case where the second value is “150” and the type, the keyword belonging to the type, and the number of detections shown in FIG. 13, the display control unit 104 detects the type “social” for the group G1, for example. Do.
  • the display control unit 104 causes the display unit 115 to display the detected type together with the detected number of each keyword belonging to the type (step S37).
  • the display control unit 104 detects the type "society" for the group G1, detects the type "weather” for the group G2, and detects the type "weather” for the group G3, as shown in FIG.
  • the detected type, each keyword belonging to the type, and the number of detected each are displayed on the display unit 115.
  • the detected keywords are sorted into various types, and a type in which the total number of detections of the respective keywords is greater than or equal to the second value is displayed. It becomes possible to accurately grasp the type in which each keyword appears frequently.
  • FIG. 15 is a flowchart showing speech analysis processing by the information processing apparatus 1 according to the fifth embodiment.
  • the extracting unit 106 converts the text converted into text in step S33. From the data, a word other than the predetermined keyword is extracted (step S45). That is, in the third embodiment, the display control unit 104 detects the predetermined keyword, and the extraction unit 106 extracts a word other than the predetermined keyword.
  • the display control unit 104 detects a word whose number of detections is equal to or more than a predetermined third value among the words extracted by the extraction unit 106 (step S46), and detects each of the detected words. It is displayed on the display unit 115 together with the number of detections (step S47).
  • the display control unit 104 is a word other than the above-described predetermined keyword and the number of detections is equal to or more than the third value. A certain word and the number of detected words are displayed on the display unit 115.
  • the user initially focuses on the user to detect and display a word having a large number of occurrences even if it is not a predetermined keyword in a group meeting etc. Although it did not, it is possible to grasp the words that the meeting attendees paid attention to when actually meeting it.
  • the display control unit 104 may cause the display unit 115 to display each word detected in step S36 in a display form different from each keyword detected in step S34, as shown in an example in FIG. 17, for example. (Bracket in step S47 of FIG. 15).
  • FIG. 18 is a flowchart showing speech analysis processing by the information processing device 1 according to the sixth embodiment.
  • the display control unit 104 is detected by the second detection unit 103 after the processing up to keyword detection is finished as in steps S1 to S4 in the first embodiment (steps S51 to S54).
  • the number of detected keywords is counted for each of the keywords.
  • the display control unit 104 determines the size of the image when displaying the keyword on the display unit 115 according to the number of detected keywords counted (step S55).
  • the display control unit 104 increases the size of the image as the number of detected keywords increases. Further, the display control unit 104 determines the display position of the image at the time of displaying the keyword on the display unit 115 according to the number of detected keywords counted (step S55).
  • the display control unit 104 sets the display position of the image closer to the vertical center of the display screen of the display unit 115 as the number of detected keywords increases. At this time, the display control unit 104 sets different display positions on the display screen of the display unit 115 for each of the keywords.
  • the display control unit 104 causes the display to be displayed in a tag cloud format, as shown in FIG. ).
  • the user can visually and intuitively grasp which keyword has the largest number of appearances.
  • FIG. 20 is a flowchart showing a process of displaying additional information about each keyword displayed on the display unit 115.
  • the display control unit 104 when the display control unit 104 causes the display unit 115 to display each keyword or the word in the tag cloud format, the display unit 115 is operated by the operation of the input unit 119 including a mouse or the like by the operator.
  • the display control unit 104 detects the keyword displayed at the position designated by the input unit 119 (step S62), and the detected keyword is selected.
  • the additional information stored in the HDD 114 in association is specified (step S63).
  • the display control unit 104 further causes the display screen of the display unit 115 to display the specified additional information as illustrated in FIG. 21 (step S64).
  • the additional information is, for example, information such as the number of occurrences of a keyword, a speech time at a meeting, who made the speech, and the like.
  • the additional information is stored in the HDD 114.
  • the user can visually recognize the additional information on the displayed keyword with a simple operation.
  • FIGS. 1 to 21 are merely embodiments of the present invention, and are not intended to limit the present invention to the configurations and processes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(1)は、第1検出部(101)と、テキスト化部(102)と、第2検出部(103)と、表示部(115)と、表示制御部(104)とを備える。第1検出部(101)は、複数人数からなるグループにおける各人の発話が記録された音声データから、当該発話の中でされている各発言を検出する。テキスト化部(102)は、第1検出部(101)によって検出された各発言の内容をテキスト化する。第2検出部(103)は、テキスト化部(102)によってテキスト化されたテキストデータに基づいて、各発言に含まれる予め定められたキーワードを検出する。表示制御部(104)は、第2検出部(103)によって検出された予め定められたキーワードを表示部(115)に表示させる。

Description

情報処理装置及び発話解析方法
 本発明は、情報処理装置及び発話解析方法に関し、特に、人により発話された内容を解析する技術に関する。
 今日では、グループ毎に討論の活性化を推定してその状況を明示する技術が提案されている(下記特許文献1参照)。この技術は、グループの各メンバーが発話した発話時刻及び発話時間長を記憶しておき、グループ毎に、各メンバーの発話時刻及び発話時間長を時系列に区分し、グループ全メンバーの発話時間長に対する各メンバーの発話時間長の比を算出して、グループ毎に、各メンバーの発話密度寄与率を描画したグラフを生成するというものである。
特開2016-162339号公報
 しかしながら、上記技術は、グループ内における各メンバーの発話時間に基づいて当該各メンバーの貢献度を示すものに過ぎず、当該グループによる討論においてされた発言の内容を表示することを実現するものではない。
 本発明は、上記の事情に鑑みなされたものであり、グループでの会議等においてされた発言の内容を表示することを目的とする。
 本発明の一局面に係る情報処理装置は、複数人数からなるグループにおける各人の発話が記録された音声データから、当該発話の中でされている各発言を検出する第1検出部と、第1検出部によって検出された各発言の内容をテキスト化するテキスト化部と、テキスト化部によってテキスト化されたテキストデータに基づいて、各発言に含まれる予め定められたキーワードを検出する第2検出部と、表示部と、第2検出部によって検出された予め定められたキーワードを表示部に表示させる表示制御部と、を備えるものである。
 また、本発明の他の一局面に係る発話解析方法は、複数人数からなるグループにおける各人の発話が記録された音声データから、当該発話の中でされている各発言を検出する発言検出ステップと、発言検出ステップで検出された各発言の内容をテキスト化するテキスト化ステップと、テキスト化ステップでテキスト化されたテキストデータに基づいて、各発言に含まれる予め定められたキーワードを検出するキーワード検出ステップと、キーワード検出ステップで検出された予め定められたキーワードを表示部に表示させる表示制御ステップと、を備えるものである。
 また、本発明の他の一局面に係る情報処理装置は、表示部と、音声を示す電気信号が入力される音声入力部と、音声入力部に電気信号が入力される度に、入力された電気信号に基づく音声データを、音声を発した人ごとに記憶する記憶部と、プロセッサーを含み、当該プロセッサーが評価プログラムを実行することにより、音声データから発言に対応する部分を抽出し、抽出された部分を発言として検出する第1検出部と、第1検出部によって検出された発言の内容をテキスト化するテキスト化部と、テキスト化部によってテキスト化されたテキストデータに基づいて、発言に含まれる予め定められたキーワードを検出する第2検出部と、第2検出部によって検出された前記予め定められたキーワードを前記表示部に表示させる表示制御部と、して機能する制御ユニットと、を備える。
 本発明によれば、グループでの会議等においてされた発言の内容を表示することが可能になる。
本発明の第1実施形態に係る情報処理装置、及び当該情報処理装置により発話解析が行われる対象者を示す図である。 情報処理装置の内部構成の概略を示すブロック図である。 音声データの一例を示す図である。 第1実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 表示部の表示画面の一例を示す図である。 表示部の表示画面の一例を示す図である。 表示部の表示画面の一例を示す図である。 第2実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 表示部の表示画面の一例を示す図である。 第3実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 ポイント例を示す図である。 表示部の表示画面の一例を示す図である。 第4実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 種別、種別に属するキーワード、及び検出数の例を示す図である。 表示部の表示画面の一例を示す図である。 第5実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 表示部の表示画面の一例を示す図である。 表示部の表示画面の一例を示す図である。 第6実施形態に係る情報処理装置による発話解析処理を示すフローチャートである。 表示部の表示画面の一例を示す図である。 表示部に表示されている各キーワードについての付加情報を表示させる処理を示すフローチャートである。 表示部の表示画面の一例を示す図である。
 以下、本発明の一実施形態に係る情報処理装置、発話解析方法、及び発話解析プログラムについて図面を参照して説明する。図1は、本発明の第1実施形態に係る情報処理装置、及び当該情報処理装置により発話解析が行われる対象者を示す図である。
 情報処理装置1は、予め定められた複数人からなる複数の会話グループG1~G3に属する各人が発した音声を音声データとして取得する。例えば、グループG1に属する人P11,P12,P13、グループG2に属する人P21,P22,P23、グループG3に属する人P31,P32,P33からなる複数人(本実施形態では3つのグループに属する各人からなる合計9人として説明するが、これに限定されるものではない。)が、グループ単位でミーティング、討論、授業、又は会議など(以下、総称して単に「会議」という。)を行っているものとする。
 当該会話グループの各人は、マイクロフォン機能を備えたヘッドセット2を使用した状態で発声する。すなわち、当該各人が用いるそれぞれのヘッドセット2は、ヘッドセット2を装着した人の会話の音声を取得し、当該音声を示す電気信号に変換して、情報処理装置1に出力する。情報処理装置1と、各ヘッドセット2とは、例えば、ケーブル接続による有線通信、又は、Bluetooth(登録商標)若しくは無線LAN等の無線通信により接続されている。情報処理装置1は、各ヘッドセット2から出力されてくる上記音声を示す電気信号を、ディジタルの音声信号からなる音声データに変換し、ヘッドセット2毎、すなわち、上記人P11~P33の9人についての音声データをそれぞれに蓄積する。
 次に、第1実施形態に係る情報処理装置1の構成について説明する。図2は、情報処理装置1の内部構成の概略を示すブロック図である。
 情報処理装置1は、例えばコンピューターである。情報処理装置1は、制御ユニット10と、ROM(Read Only Memory)112と、RAM(Random Access Memory)113と、HDD(Hard Disk Drive)114と、表示部115と、通信インターフェイス118と、指示入力部119とを備える。これら各部は、互いにCPU(Central Processing Unit)バスによりデータ又は信号の送受信が可能とされている。
 制御ユニット10は、情報処理装置1全体の動作制御を司る。ROM112は、情報処理装置1の基本動作についての動作プログラムを記憶する。RAM113は、制御ユニット10の動作領域等として使用される。
 HDD114は、その記憶領域の一部に、本発明の第1実施形態に係る発話解析プログラムを記憶している。また、HDD114は、上記人P11~P33の9人についてのそれぞれの上記音声データを記憶する。なお、HDD114は、特許請求の範囲における記憶部の一例でもある。但し、情報処理装置1が備える不揮発性ROM(例えば、制御ユニット10が内蔵)が当該記憶部として機能してもよい。
 情報処理装置1と接続されているヘッドセット2には、当該ヘッドセット2を特定するための識別情報が予め付されている。識別情報としては、ヘッドセット2を特定可能な情報であれば特に限定されないが、例えば、識別番号がある。HDD114は、ヘッドセット2ごとに当該識別情報を予め記憶している。HDD114はまた、指示入力部119を介してユーザーによって入力される指示に応じて、識別情報のそれぞれを、グループを特定するためのグループ情報と対応付けて記憶している。
 本実施の形態では、HDD114は、人P21,P22,P23がそれぞれ使用しているヘッドセット2の識別情報を、グループG1を特定するグループ情報と対応付けて記憶している。HDD114はまた、人P21,P22,P23がそれぞれ使用しているヘッドセット2の識別情報を、グループG2を特定するグループ情報と対応付けて記憶している。HDD114はさらに、人P31,P32,P33がそれぞれ使用しているヘッドセット2の識別情報を、グループG3を特定するグループ情報と対応付けて記憶している。
 表示部115は、LCD(Liquid Crystal Display)等からなり、情報処理装置1を操作する操作者に対する操作案内等が表示される。
 通信インターフェイス118は、USBインターフェイス又は無線LANインターフェイス等を有する。通信インターフェイス118は、上記各ヘッドセット2とのデータ通信を行うためのインターフェイスとして機能する。通信インターフェイス118は、特許請求の範囲における音声入力部の一例である。
 指示入力部119は、キーボード又はマウス等から構成され、操作指示が操作者によって入力される。
 制御ユニット10は、プロセッサー、RAM、及びROMなどから構成される。プロセッサーは、CPU、MPU(Micro Processing Unit)、又はASIC(Application Specific Integrated Circuit)等である。この制御ユニット10は、HDD114に記憶されている発話解析プログラムが上記のプロセッサーで実行されることにより、制御部100、第1検出部101、テキスト化部102、第2検出部103、表示制御部104、仕分部105、及び抽出部106として機能する。なお、制御部100、第1検出部101、テキスト化部102、第2検出部103,表示制御部104、仕分部105、及び抽出部106は、ハード回路により構成されてもよい。
 制御部100は、情報処理装置1全体の動作制御を司る機能を有する。
 第1検出部(発言検出部)101は、HDD114に記憶されている人P11~P33の9人についての音声データのそれぞれから、音声データに記録されている発話の中でされている発言を検出する。図3は、音声データの一例を示す図である。図3の縦軸は音の振幅(単位dB)、横軸は時刻を示す。第1検出部101は、音声データを解析し、音声データが示す振幅のうち、予め定められた規定時間(例えば、0.25秒)以上連続して、予め定められた大きさ以上の振幅(例えば、20dB)が続く部分を発言として検出する。図3に示す音声データでは、第1検出部101は、a部分、b部分、及びc部分を発言として検出する。
 テキスト化部102は、既知の音声認識機能を備え、これにより、上記音声データに含まれる上記各人の発言の内容をキャラクター変換してテキスト化する。
 第2検出部(キーワード検出部)103は、テキスト化部102によってテキスト化されたテキストデータに基づいて、各発言に含まれる予め定められたキーワードを検出する。
 表示制御部104は、第2検出部103によって検出された上記予め定められたキーワードを表示部115に表示させる。また、表示制御部104は、第2検出部103によって検出された上記予め定められたキーワードのうち、検出数が予め定められた第1の値以上であるキーワードを、表示部115に表示させる。
 仕分部(種別仕分部)105は、第2検出部103によって検出された上記予め定められたキーワードを、予め定められたそれぞれの種別に仕分ける。表示制御部104は、属する各キーワードの検出数の合計が予め定められた第2の値以上である種別及び当該種別に属するキーワードを、表示部115に表示させる。
 抽出部(単語抽出部)106は、テキスト化部102によってテキスト化されたテキストデータから、上記予め定められたキーワード以外の単語を抽出する。表示制御部104は、抽出部106によって抽出された単語のうち、検出数が予め定められた第3の値以上である単語を表示部115に表示させる。
 次に、第1実施形態に係る情報処理装置1による発話解析処理について説明する。図4は、第1実施形態に係る情報処理装置1による発話解析処理を示すフローチャートである。
 当該発話解析が行われる場面は、会話グループG1~G3に属する各人が、それぞれのグループ毎に会議を行っている場面である。人P11~P33は、各自がヘッドセット2を装着し、各ヘッドセット2は上述したように情報処理装置1に対して通信可能に接続されている。この状態で、人P11~P33は、各自が属するそれぞれのグループにおいて会議中に発話を行う。人P11~P33によって発話された音声は、人P11~P33のそれぞれのヘッドセット2により集音され、情報処理装置1に出力される。
 情報処理装置1は、通信インターフェイス118を介して、各ヘッドセット2から音声データを取得する(ステップS1)。すなわち、通信インターフェイス118が、各ヘッドセット2から出力されてくる上記音声を示す電気信号を受信すると、第1検出部101が、当該取得された音声を示す電気信号を、ディジタルの音声信号からなる音声データに変換してHDD114に記憶させる。第1検出部101は、人P11~P33毎に、すなわち、HDD114に記憶されている識別情報に対応付けて、当該音声データをHDD114に記憶させる。
 続いて、第1検出部101は、人P11~P33毎にHDD114に記憶されている音声データのそれぞれから、当該音声データが示す発話の中でされている各発言を、上述したようにして検出する(ステップS2)。
 そして、テキスト化部102は、上記音声データに含まれる上記各人の発言の内容を、音声認識機能によりキャラクター変換してテキスト化する(ステップS3)。第1検出部101は、上記音声データにおける、人P11~P33の各発言にあたる時間帯をHDD114に記憶させており、テキスト化部102は、上記音声データにおける当該時間帯部分を発言と認識して、当該発言の内容をキャラクター変換してテキスト化する。
 続いて、第2検出部103は、テキスト化部102によって上記のようにテキスト化されたテキストデータに基づいて、各発言に含まれる予め定められたキーワードを検出する(ステップS4)。例えば、HDD114に、予め定められたキーワードとして、「水蒸気」、「気圧」、「変化」及び「融解」が記憶されている場合、第2検出部103は、上記発言がテキスト化されてなるテキストデータに、当該キーワードが含まれているか否かを判断する。第2検出部103は、当該キーワードが含まれている場合には、キーワードを検出して、当該キーワードの出現数をカウントアップする。第2検出部103は、各キーワードの出現数を識別情報に対応付けて、HDD114に記憶させておく。
 そして、表示制御部104は、第2検出部103によって検出された上記各キーワードを表示部115に表示させる(ステップS5)。予め定められたキーワードが上記の例に示すものである場合、図5に示すように、表示制御部104は、HDD114に記憶されている識別情報及びグループ情報に基づいて、各キーワードの出現数をグループ毎に集計し、人P11~P33のグループ毎に、各キーワードと各キーワードの出現数とを示す画像を表示部115に表示させる。なお、図5に示すように、表示制御部104は、第2検出部103によって検出されなかったキーワード(検出数「0」のキーワード)を、検出数「0」として表示部115に表示させてもよい。
 また、表示制御部104は、指示入力部119の操作で操作者から入力される画面切換指示に従って、図6に示すように、全グループを通じた、各キーワードと各キーワードの出現数とを示す画像を表示部115に表示させる。或いは、表示制御部104は、指示入力部119の操作で操作者から入力される画面切換指示に従って、図7に示すように、全グループを通じて、出現数が上位の3つのキーワードを、出現数が多い順に並べた画像を表示部115に表示させる。
 図8は、第2実施形態に係る情報処理装置1による発話解析処理を示す図である。図8に示すように、第2実施形態では、第1実施形態におけるステップS1~ステップS4と同様にしてキーワード検出までの処理を終えた後(ステップS11~ステップS14)、表示制御部104は、第2検出部103によって検出されたキーワードのうち、検出数が予め定められた第1の値以上であるキーワードを検出して(ステップS15)、当該検出した各キーワードをそれぞれの検出数と共に、表示部115に表示させる(ステップS16)。
 例えば、表示制御部104は、図9に示すように、第1の値が「12」である場合、検出数が第1の値以上であるキーワードを検出して、当該検出したキーワード及びその検出数のみをグループ毎に表示部115に表示させる。
 これら第1及び第2実施形態によれば、グループでの会議等においてされた発言の内容を、ユーザーが視認可能となるように表示することができる。これにより、ユーザーは、当該表示を視認して、会議出席者による発言の内容を正確に把握することが可能になる。
 図10は、第3実施形態に係る情報処理装置1による発話解析処理を示す図である。第3の実施形態では、図10に示すように、第1実施形態におけるステップS1~ステップS4と同様にしてキーワード検出までの処理を終えた後(ステップS21~ステップS24)、表示制御部104は、各キーワードの検出回数に応じて、各キーワードに予め付されているポイントをキーワード毎に集計し(ステップS25)、集計したポイントと共に、各キーワードを表示部115に表示させる(ステップS26)。更には、表示制御部104は、グループG1~G3毎に、全キーワードのポイントの合計を算出して表示してもよい。なお、第3実施形態では、予め定められたキーワードは複数とされる。
 HDD114は、各キーワードについて、検出回数1回毎に加算される予め定められたポイントを記憶している。当該ポイントは、会議における重要度等に応じて主催者等が予め設定し、例えば指示入力部119の操作によりHDD114に記憶させる。表示制御部104は、キーワードを1回検出する度にそのキーワードに付されたポイントを加算する。このため、多く検出されたキーワードは、集計されるポイントが高くなる。
 例えば、図11Aに示すように、HDD114が、キーワードごとに設定されているポイントとして、「水蒸気」に対して2ポイント、「気圧」に対して3ポイント、「変化」に対して1ポイント、「融解」に対して5ポイントを記憶しているとき、表示制御部104は、各キーワードの検出回数に応じてポイントをキーワード毎に集計する。表示制御部104は更に、グループG1~G3毎に、全キーワードのポイント合計を算出し、図11Bに示す「集計結果」のような表示画面を表示部115に表示させることにより、集計したポイント及び各キーワードと、全キーワードのポイントの合計とをグループG1~G3毎に、表示部115に表示させる。
 この第3実施形態によれば、ユーザーは、表示されたキーワード及び集計ポイントを視認することで、その会議において、重要なキーワードがどの程度用いられているかを把握でき、更には、全キーワードのポイント合計を視認することで、どのグループが最も有意義な会議を行ったかを判断するための指標を得ることができる。
 次に、第4実施形態に係る情報処理装置1による発話解析処理について説明する。図12は、第4実施形態に係る情報処理装置1による発話解析処理を示すフローチャートである。
 第4実施形態では、第1実施形態におけるステップS1~ステップS4と同様にしてキーワード検出までの処理を終えた後(ステップS31~ステップS34)、仕分部105が、第2検出部103によって検出されたキーワードを、予め定められた種別に仕分ける(ステップS35)。例えば、HDD114は、予め定められた種別として、「天気」、「スポーツ」、及び「社会」を記憶している。HDD114は、更に、種別「天気」に属するキーワードとして、「晴れ」「曇り」「雨」「雲」「白い」「煙」というキーワードを予め記憶している。また、HDD114は、更に、種別「スポーツ」に属するキーワードとして、「テニス」「野球」「サッカー」「中止」「決勝」「勝敗」というキーワードを予め記憶している。また、HDD114は、更に、種別「社会」に属するキーワードとして、「経済」「企業」「株価」「景気」「売上」「損益」というキーワードを予め記憶している。
 この場合、第2検出部103は、各人による各発言から、まず、「晴れ」「曇り」「雨」「雲」「白い」「煙」「テニス」「野球」「サッカー」「中止」「決勝」「勝敗」「企業」「株価」「景気」「売上」「損益」を検出する。そして、仕分部105は、検出された各キーワードを、種別「天気」「スポーツ」「社会」のいずれの種別に属するかを判断し、検出された各キーワードを種別毎に仕分ける。図13に、種別、種別に属するキーワード、及び検出数の例を示す。仕分部105は、出現したキーワードを各種別に仕分け、各種別に属する各キーワードの検出数をカウントしておき、当該検出数をキーワードと共にHDD114に記憶させる。
 続いて、表示制御部104は、検出数が予め定められた第2の値以上である種別を検出する(ステップS36)。すなわち、表示制御部104は、種別に属する各キーワードの検出数の合計が上記第2の値以上である種別を検出する。例えば、第2の値が「150」であり、図13に示した種別、種別に属するキーワード、及び検出数の場合、表示制御部104は、例えば、グループG1については、種別「社会」を検出する。
 そして、表示制御部104は、当該検出した種別を、当該種別に属する各キーワードのそれぞれの検出数と共に、表示部115に表示させる(ステップS37)。表示制御部104は、上記のように、グループG1については種別「社会」を検出し、グループG2については種別「天気」を検出し、グループG3についても種別「天気」を検出した場合、図14に例を示すように、検出した種別と、当該種別に属する各キーワード及びそれぞれの検出数を表示部115に表示させる。
 この第4実施形態によれば、検出したキーワードを各種別に仕分けし、更に、属する各キーワードの検出数の合計が第2の値以上である種別が表示されるので、ユーザーは、予め定められた各キーワードが多く出現する種別を的確に把握することが可能になる。
 次に、第5実施形態に係る情報処理装置1による発話解析処理について説明する。図15は、第5実施形態に係る情報処理装置1による発話解析処理を示すフローチャートである。
 第5実施形態では、第1実施形態におけるステップS1~ステップS4と同様にしてキーワード検出までの処理を終えた後(ステップS41~ステップS44)、抽出部106が、ステップS33でテキスト化されたテキストデータから、上記予め定められたキーワード以外の単語を抽出する(ステップS45)。すなわち、第3実施形態では、表示制御部104が、上記予め定められたキーワードを検出すると共に、抽出部106が、上記予め定められたキーワード以外の単語を抽出する。
 表示制御部104は、抽出部106によって抽出された上記単語のうち、検出数が予め定められた第3の値以上である単語を検出して(ステップS46)、当該検出した各単語をそれぞれの検出数と共に、表示部115に表示させる(ステップS47)。
 例えば、表示制御部104は、第3の値が例えば「15」である場合、図16に示すように、上記予め定められたキーワード以外の単語であって、検出数が第3の値以上である単語と、その検出数とを表示部115に表示させる。
 この第5実施形態によれば、グループでの会議等において、予め定められたキーワードではなくても、出現数の多い単語があれば検出して表示するため、ユーザーは、当初はユーザーが注目していなかったが、実際に会議をしてみると会議出席者が注目して発言した単語を把握することが可能になる。
 なお、表示制御部104は、ステップS36で検出した各単語を、例えば図17に例を示すように、ステップS34で検出された各キーワードとは異なる表示形態で表示部115に表示させてもよい(図15のステップS47における括弧書)。
 次に、第6実施形態に係る情報処理装置1による発話解析処理の第6実施形態について説明する。図18は、第6実施形態に係る情報処理装置1による発話解析処理を示すフローチャートである。
 第6実施形態では、第1実施形態におけるステップS1~ステップS4と同様にしてキーワード検出までの処理を終えた後(ステップS51~ステップS54)、表示制御部104は、第2検出部103によって検出された各キーワードについて、各キーワードの検出数をカウントする。そして、表示制御部104は、カウントした各キーワードの検出数に応じて、当該キーワードを表示部115に表示する際の画像の大きさを決定する(ステップS55)。表示制御部104は、検出数が多いキーワードほど、画像の大きさを大きくする。更に、表示制御部104は、カウントした各キーワードの検出数に応じて、当該キーワードを表示部115に表示する際の画像の表示位置を決定する(ステップS55)。例えば、表示制御部104は、検出数が多いキーワードほど、画像の表示位置を、表示部115の表示画面の縦方向中央部に近い位置とする。このとき、表示制御部104は、キーワードのそれぞれについて、表示部115の表示画面における異なる表示位置を設定する。
 また、表示制御部104は、このように画像大きさ及び表示位置を決定したキーワードを、表示部115に表示するとき、図19に例を示すようにして、タグクラウド形式で表示させる(ステップS56)。
 この第6実施形態によれば、ユーザーは、視覚的及び直感的に、いずれのキーワードが最も出現数が多いかを把握することが可能になる。
 次に、表示部115に表示されている各キーワードについての付加情報を表示させる処理を説明する。図20は、表示部115に表示されている各キーワードについての付加情報を表示させる処理を示すフローチャートである。
 第6実施形態において、表示制御部104が、表示部115にタグクラウド形式で各キーワード又は上記単語を表示させているときに、操作者によるマウス等からなる入力部119の操作で、表示部115の表示画面における位置が指定されたとき(S61でYES)、表示制御部104は、入力部119により指定された当該位置に表示されているキーワードを検出し(ステップS62)、当該検出したキーワードに対応付けてHDD114に記憶されている付加情報を特定する(ステップS63)。表示制御部104は、当該特定した付加情報を、図21に例を示すようにして、更に表示部115の表示画面に表示させる(ステップS64)。ここで、付加情報とは、例えば、キーワードの出現数、会議での発言時刻、誰による発言か、等の情報である。付加情報は、HDD114が記憶している。
 この第6実施形態によれば、ユーザーは、簡単な操作で、表示されているキーワードについての付加情報を視認することが可能である。
 また、上記実施形態において、図1乃至図21を用いて示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。

Claims (12)

  1.  複数人数からなるグループにおける各人の発話が記録された音声データから、当該発話の中でされている各発言を検出する第1検出部と、
     前記第1検出部によって検出された前記各発言の内容をテキスト化するテキスト化部と、
     前記テキスト化部によってテキスト化されたテキストデータに基づいて、前記各発言に含まれる予め定められたキーワードを検出する第2検出部と、
     表示部と、
     前記第2検出部によって検出された前記予め定められたキーワードを前記表示部に表示させる表示制御部と、を備える情報処理装置。
  2.  前記表示制御部は、前記第2検出部によって検出された前記予め定められたキーワードのうち、検出数が予め定められた第1の値以上であるキーワードを、前記表示部に表示させる請求項1に記載の情報処理装置。
  3.  前記第2検出部によって検出された前記予め定められたキーワードを、予め定められた各種別に仕分ける仕分部を更に備え、
     前記表示制御部は、属する各キーワードの検出数合計が予め定められた第2の値以上である種別及び当該種別に属するキーワードを、前記表示部に表示させる請求項1に記載の情報処理装置。
  4.  前記テキストデータから、前記予め定められたキーワード以外の単語を抽出する抽出部を更に備え、
     前記表示制御部は、前記抽出部によって抽出された単語のうち、検出数が予め定められた第3の値以上である単語を、前記表示部に表示させる請求項1に記載の情報処理装置。
  5.  前記表示制御部は、前記抽出部によって抽出された単語であって、検出数が予め定められた第3の値以上である単語を、他のキーワードとは表示形態を異ならせて前記表示部に表示させる請求項4に記載の情報処理装置。
  6.  前記予め定められたキーワードが複数とされ、当該各キーワードには、検出回数1回毎に予め定められたポイントが設定されており、前記表示制御部は、前記キーワード毎に検出回数に応じて当該ポイントを集計して、各キーワードを当該ポイントと共に前記表示部に表示させる請求項1に記載の情報処理装置。
  7.  前記表示制御部は、前記検出されたキーワードを、タグクラウドによる視覚的記述により前記表示部に表示させ、当該キーワードの大きさを、検出数が多くなるにつれて大きくし、検出数が最多のキーワードを最も大きく表示させる請求項1に記載の情報処理装置。
  8.  前記表示制御部は、前記予め定められたキーワードのそれぞれについて、前記表示部の表示画面における異なる表示位置を設定して、前記予め定められたキーワードのそれぞれを前記表示部に表示させる請求項7に記載の情報処理装置。
  9.  前記表示部の表示画面における位置を指定するポインター部を更に備え、
     前記表示制御部は、前記ポインター部により指定された位置に表示されているキーワードに対応付けられている付加情報を、更に前記表示部に表示させる請求項7に記載の情報処理装置。
  10.  複数人数からなるグループにおける各人の発話が記録された音声データから、当該発話の中でされている各発言を検出する発言検出ステップと、
     前記発言検出ステップで検出された前記各発言の内容をテキスト化するテキスト化ステップと、
     前記テキスト化ステップでテキスト化されたテキストデータに基づいて、前記各発言に含まれる予め定められたキーワードを検出するキーワード検出ステップと、
     前記キーワード検出ステップで検出された前記予め定められたキーワードを表示部に表示させる表示制御ステップと、を備える発話解析方法。
  11.  表示部と、
     音声を示す電気信号が入力される音声入力部と、
     前記音声入力部に前記電気信号が入力される度に、入力された前記電気信号に基づく音声データを、前記音声を発した人ごとに記憶する記憶部と、
     プロセッサーを含み、当該プロセッサーが発話解析プログラムを実行することにより、
      前記音声データから発言に対応する部分を抽出し、抽出された前記部分を発言として検出する第1検出部と、
      前記第1検出部によって検出された前記発言の内容をテキスト化するテキスト化部と、
      前記テキスト化部によってテキスト化されたテキストデータに基づいて、前記発言に含まれる予め定められたキーワードを検出する第2検出部と、
      前記第2検出部によって検出された前記予め定められたキーワードを前記表示部に表示させる表示制御部と、して機能する制御ユニットと、を備える情報処理装置。
  12.  前記記憶部はさらに、前記人を特定するための識別情報と、前記グループを特定するためのグループ情報とを対応付けて予め記憶し、
     前記制御ユニットはさらに、前記音声入力部に前記電気信号が入力されると、前記音声データを、前記識別情報に対応付けて記憶する制御部として機能し、
     前記表示制御部は、前記第2検出部によって検出された前記予め定められたキーワードを、前記グループ情報毎に前記表示部に表示させる、請求項11に記載の情報処理装置。
PCT/JP2018/040837 2017-12-25 2018-11-02 情報処理装置及び発話解析方法 WO2019130817A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/753,453 US11404064B2 (en) 2017-12-25 2018-11-02 Information processing apparatus and speech analysis method
CN201880061642.9A CN111149153B (zh) 2017-12-25 2018-11-02 信息处理装置以及说话解析方法
JP2019562805A JP6904435B2 (ja) 2017-12-25 2018-11-02 情報処理装置及び発話解析方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017248460 2017-12-25
JP2017-248460 2017-12-25

Publications (1)

Publication Number Publication Date
WO2019130817A1 true WO2019130817A1 (ja) 2019-07-04

Family

ID=67063406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040837 WO2019130817A1 (ja) 2017-12-25 2018-11-02 情報処理装置及び発話解析方法

Country Status (4)

Country Link
US (1) US11404064B2 (ja)
JP (1) JP6904435B2 (ja)
CN (1) CN111149153B (ja)
WO (1) WO2019130817A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248677A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 情報表示制御装置および情報表示方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7218547B2 (ja) * 2018-11-16 2023-02-07 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251898A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
JP2008009552A (ja) * 2006-06-27 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> インデクス生成装置、インデクス生成方法およびインデクス生成プログラム
JP2010224715A (ja) * 2009-03-23 2010-10-07 Olympus Corp 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2011066794A (ja) * 2009-09-18 2011-03-31 Sharp Corp 会議管理装置及び会議管理方法
JP2011221344A (ja) * 2010-04-12 2011-11-04 Toyota Motor Corp オペレーティングシステム及びオペレーティング方法
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JP2004016743A (ja) * 2002-06-20 2004-01-22 P To Pa:Kk 遊技機、遊技制御方法及びプログラム
CN101256583A (zh) * 2007-03-01 2008-09-03 索尼株式会社 信息处理设备和方法、程序和存储介质
EP2299440B1 (en) * 2009-09-11 2012-10-31 Vodafone Holding GmbH Method and Device for automatic recognition of given keywords and/or terms within voice data
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
JP5196199B2 (ja) * 2010-04-22 2013-05-15 日本電気株式会社 キーワード表示システム、キーワード表示方法及びプログラム
US9501540B2 (en) * 2011-11-04 2016-11-22 BigML, Inc. Interactive visualization of big data sets and models including textual data
CN104142964B (zh) * 2013-06-13 2019-11-05 腾讯科技(北京)有限公司 信息匹配的方法及装置
JP6401079B2 (ja) 2015-03-04 2018-10-03 Kddi株式会社 グループ毎の討論の活性化を推定する装置及びプログラム
ZA201504892B (en) * 2015-04-10 2016-07-27 Musigma Business Solutions Pvt Ltd Text mining system and tool
JP6737398B2 (ja) * 2017-03-24 2020-08-05 ヤマハ株式会社 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251898A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム
JP2008009552A (ja) * 2006-06-27 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> インデクス生成装置、インデクス生成方法およびインデクス生成プログラム
JP2010224715A (ja) * 2009-03-23 2010-10-07 Olympus Corp 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
JP2011066794A (ja) * 2009-09-18 2011-03-31 Sharp Corp 会議管理装置及び会議管理方法
JP2011221344A (ja) * 2010-04-12 2011-11-04 Toyota Motor Corp オペレーティングシステム及びオペレーティング方法
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248677A1 (ja) * 2022-06-22 2023-12-28 株式会社Jvcケンウッド 情報表示制御装置および情報表示方法

Also Published As

Publication number Publication date
US20200321004A1 (en) 2020-10-08
JP6904435B2 (ja) 2021-07-14
US11404064B2 (en) 2022-08-02
JPWO2019130817A1 (ja) 2020-10-22
CN111149153B (zh) 2023-11-07
CN111149153A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US10269374B2 (en) Rating speech effectiveness based on speaking mode
US9728188B1 (en) Methods and devices for ignoring similar audio being received by a system
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
US9286889B2 (en) Improving voice communication over a network
US20170365258A1 (en) Utterance presentation device, utterance presentation method, and computer program product
CN111739559A (zh) 一种话语预警方法、装置、设备及存储介质
JPWO2011033597A1 (ja) 信号分類装置
JP2016162339A (ja) グループ毎の討論の活性化を推定するプログラム、端末及びシステム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
WO2019130817A1 (ja) 情報処理装置及び発話解析方法
US20130016286A1 (en) Information display system, information display method, and program
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
JP6176041B2 (ja) 情報処理装置及びプログラム
JP7204337B2 (ja) 会議支援装置、会議支援システム、会議支援方法及びプログラム
CN107767862B (zh) 语音数据处理方法、系统及存储介质
JP2014123813A (ja) オペレータ対顧客会話自動採点装置およびその動作方法
JP2010176544A (ja) 会議支援装置
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
KR102291113B1 (ko) 회의록 작성 장치 및 방법
WO2020116001A1 (ja) 情報処理装置および情報処理方法
JP2019175382A (ja) 情報処理装置
JP2016157388A (ja) コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム
US20210335352A1 (en) Information processing apparatus
JP7444820B2 (ja) 感情判定装置、感情判定方法、及びプログラム
Chennoor et al. Human emotion detection from audio and video signals

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18894787

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019562805

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18894787

Country of ref document: EP

Kind code of ref document: A1