WO2019167756A1 - 情報処理方法、情報処理装置およびプログラム - Google Patents

情報処理方法、情報処理装置およびプログラム Download PDF

Info

Publication number
WO2019167756A1
WO2019167756A1 PCT/JP2019/006326 JP2019006326W WO2019167756A1 WO 2019167756 A1 WO2019167756 A1 WO 2019167756A1 JP 2019006326 W JP2019006326 W JP 2019006326W WO 2019167756 A1 WO2019167756 A1 WO 2019167756A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
voice
sound
terminal device
provision
Prior art date
Application number
PCT/JP2019/006326
Other languages
English (en)
French (fr)
Inventor
優樹 瀬戸
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201980013225.1A priority Critical patent/CN111727598B/zh
Priority to EP19761147.8A priority patent/EP3761623A4/en
Publication of WO2019167756A1 publication Critical patent/WO2019167756A1/ja
Priority to US16/989,159 priority patent/US20200372920A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q90/00Systems or methods specially adapted for administrative, commercial, financial, managerial or supervisory purposes, not involving significant data processing
    • G06Q90/20Destination assistance within a business structure or complex
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/14Central alarm receiver or annunciator arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/04Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems
    • H04M11/045Telephonic communication systems specially adapted for combination with other electrical systems with alarm systems, e.g. fire, police or burglar alarm systems using recorded signals, e.g. speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/4872Non-interactive information services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B7/00Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
    • G08B7/06Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources
    • G08B7/066Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources guiding along a path, e.g. evacuation path lighting strip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis

Definitions

  • the present invention relates to a technology for processing information.
  • Patent Document 1 discloses a configuration in which identification information is transmitted to a terminal device by acoustic communication, and the terminal device outputs related information corresponding to the identification information.
  • An object of the present invention is to utilize information related to sound collected by a plurality of terminal devices for various purposes.
  • an information processing method provides audio information indicating sound collected from a sound emitting device and collected by the terminal device from each of a plurality of terminal devices. And a plurality of audio information respectively received from the plurality of terminal devices is stored in a storage device.
  • An information processing apparatus performs, on a communication apparatus, an operation of receiving sound information indicating sound that is emitted from a sound emitting apparatus and collected by the terminal apparatus from each of a plurality of terminal apparatuses.
  • a storage control unit for storing a plurality of audio information respectively received from the plurality of terminal devices in a storage device.
  • a program according to a preferred aspect of the present invention is an operation for receiving sound information indicating sound collected from a sound emitting device and collected by the terminal device from each of a plurality of terminal devices by one or more processors. Is made to function as a communication control unit that causes the communication device to execute, and a storage control unit that stores a plurality of audio information respectively received from the plurality of terminal devices in the storage device.
  • FIG. 1 is a block diagram illustrating the configuration of an information providing system 100 according to the first embodiment of the invention.
  • the information providing system 100 includes a plurality of terminal devices 10A, a sound emitting device 20, a distribution device 30 (an example of an information processing device), and a terminal device 10B.
  • Each element of the information providing system 100 can communicate with each other via a communication network 70 including, for example, a mobile communication network or the Internet.
  • the information providing system 100 is a computer system for providing various types of information to the user of the terminal device 10A and the user of the terminal device 10B.
  • the terminal device 10A and the terminal device 10B are portable information terminals such as a mobile phone, a smartphone, a tablet terminal, or a personal computer.
  • the sound emitting device 20 is installed in a specific facility P.
  • the sound emitting device 20 is an output device that emits a voice V (hereinafter referred to as “guidance voice”) for guiding various information to the user of the facility P.
  • a voice V hereinafter referred to as “guidance voice”
  • transportation facilities such as stations or bus stops, transportation facilities such as railways or buses, commercial facilities such as dealers or restaurants, lodging facilities such as inns or hotels, exhibition facilities such as museums or museums, sightseeing such as historic sites or sights
  • a facility, an athletic facility such as a stadium or a gymnasium, etc. are exemplified as the facility P.
  • a guidance voice V that guides the business hours of the facility P, products sold in the facility, or the occurrence of an emergency (for example, a fire) in the facility P is emitted.
  • an emergency for example, a fire
  • guidance voice V in-car broadcast for notifying operation status such as train delays, arrival of trains, precautions when getting on and off, etc.
  • the sound emitting device 20 is installed in each of a plurality of facilities, and a guidance voice V (an example of a sound) is emitted in the facility.
  • the guidance voice V emitted by the sound emitting device 20 may be a voice produced by an employee of the facility P, or a voice prepared by voice synthesis or recording, for example.
  • the guidance voice V represented by the character string may be generated in real time by voice synthesis.
  • the sound emitting device 20 of the first embodiment emits the sound representing the sound information D1 and the sound representing the position information D2 in addition to the guidance sound V.
  • the voice information D1 is information indicating the content of the guidance voice V (for example, a character string representing the pronunciation content of the guidance voice V).
  • an identifier for identifying the content of the guidance voice V is used as the voice information D1.
  • Different voice information D1 is set in advance for each guidance voice V.
  • the position information D2 is information indicating a position where sound is emitted by the sound emitting device 20 (hereinafter referred to as “sound emitting position”). Different position information D2 is set in advance for each sound emission position. For example, the name of the facility P where the sound emitting device 20 is installed, the area where the facility P is located (for example, the Kanto region and the Kinki region), or the geographical point such as the latitude and longitude of the facility P The sound emission position is exemplified. The sound emission position is not limited to information indicating a specific geographical point, and may be, for example, the number of floors in the facility P or a specific location in the facility P.
  • the position information D2 may be information for identifying each sound emitting device 20. In the first embodiment, an identifier for identifying the sound emission position is used as the position information D2.
  • the sound emitting device 20 of the first embodiment functions as an acoustic device that reproduces the guidance voice V, and transmits audio information D1 and position information D2 to the surroundings by acoustic communication using sound waves as air vibration as a transmission medium. It also functions as a machine.
  • the sound information D1 and the position information D2 are transmitted to the surroundings by the sound communication that emits the sound of the sound information D1 and the position information D2 from the sound emitting device 20 that emits the guidance sound V.
  • the voice information D1 is transmitted every time the guidance voice V is emitted.
  • the voice information D1 is transmitted together with the sound of the guidance voice V (for example, in parallel with or before the sound of the guidance voice V).
  • the position information D2 is repeatedly transmitted at a predetermined cycle separately from the sound emission of the guidance voice V.
  • the position information D2 may be transmitted together with the sound of the guidance voice V.
  • the transmission of the audio information D1 and the transmission of the position information D2 do not overlap in time.
  • the acoustic signal X is generated by adding a voice signal representing the guidance voice V, a modulation signal representing the voice information D1 as an acoustic component, and a modulation signal representing the position information D2 as an acoustic component.
  • Each modulated signal is generated, for example, by frequency-modulating a carrier wave having a predetermined frequency with each piece of information (audio information D1 or position information D2).
  • the modulation signal may be generated by sequentially executing spread modulation of each information using a spread code and frequency conversion using a carrier wave of a predetermined frequency.
  • the frequency band of the modulated signal is a frequency band that can be emitted by the sound emitting device 20 and collected by the terminal device 10A, and the frequency band of the sound that the user of the terminal device 10A listens to in a normal environment.
  • a higher frequency band (for example, 18 kHz or more and 20 kHz or less) is set. Therefore, the user can hardly hear the acoustic components of the audio information D1 and the position information D2.
  • the frequency band of the modulation signal is arbitrary, and for example, a modulation signal within an audible band can be generated.
  • the plurality of terminal devices 10A in FIG. 1 are located in a facility P where the sound emitting device 20 is installed.
  • the terminal device 10A of the first embodiment acquires information (hereinafter referred to as “related information”) R related to the guidance voice V from the distribution device 30.
  • the related information R is, for example, a character string representing the utterance content of the guidance voice V, a translated sentence obtained by translating the character string into another language, or information (for example, URL) representing the location of the content related to the guidance voice V. is there.
  • the related information R may be expressed by sound or image.
  • a plurality of terminal devices 10A are located in other facilities.
  • FIG. 2 is a block diagram illustrating the configuration of the terminal device 10A.
  • the terminal device 10 ⁇ / b> A includes a control device 11, a storage device 12, a communication device 13, a sound collection device 14, and a reproduction device 15.
  • the terminal device 10A is typically an information terminal owned by a user as described above.
  • a display terminal for guidance such as an electronic bulletin board installed in a transportation facility or an electronic signboard (digital signage) installed in a commercial facility may be used as the terminal device 10A.
  • the sound collection device 14 is an acoustic device (microphone) that collects ambient sounds. Specifically, the sound collection device 14 collects the sound emitted by the sound emission device 20 into the facility P and generates an acoustic signal Y representing the waveform of the sound. Accordingly, the acoustic signal Y generated by the sound collection at the facility P includes the acoustic component of the audio information D1 and the acoustic component of the position information D2.
  • the position information D2 is also paraphrased as information indicating the position of the terminal device 10A when the guidance voice V is picked up.
  • the sound collection device 14 is used for voice communication between the terminal devices 10A or voice recording at the time of moving image shooting, and by acoustic communication using sound waves as air vibration as a transmission medium. It also functions as a receiver that receives the audio information D1 and the position information D2.
  • the A / D converter that converts the acoustic signal Y generated by the sound collection device 14 from analog to digital is not shown for convenience.
  • a separate sound collecting device 14 may be connected to the terminal device 10A by wire or wirelessly.
  • the control device 11 includes a single or a plurality of processors such as a CPU (Central Processing Unit) and controls each element of the terminal device 10A in an integrated manner.
  • the storage device 12 stores a program executed by the control device 11 and various data used by the control device 11.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of a plurality of types of recording media is arbitrarily used as the storage device 12.
  • the control device 11 realizes a plurality of functions (the information extraction unit 41 and the reproduction control unit 42) by executing a program stored in the storage device 12, as illustrated in FIG. Note that some functions of the control device 11 may be realized by a dedicated electronic circuit. Moreover, you may mount the function of the control apparatus 11 in a some apparatus.
  • the information extraction unit 41 extracts the sound information D1 and the position information D2 from the acoustic signal Y generated by the sound collection device 14. Specifically, the information extraction unit 41 corresponds to, for example, a filtering process that emphasizes a frequency band including an acoustic component of each piece of information (audio information D1 and position information D2) in the acoustic signal Y and a modulation process for each piece of information.
  • the audio information D1 and the position information D2 are extracted by the demodulating process.
  • the voice information D1 extracted by the information extraction unit 41 is used for acquiring related information R of the guidance voice V corresponding to the voice information D1 (that is, the guidance voice V emitted by the sound emitting device 20).
  • the communication device 13 communicates with the distribution device 30 via the communication network 70 under the control of the control device 11.
  • the communication device 13 of the first embodiment transmits the audio information D1 and the position information D2 extracted by the information extraction unit 41 to the distribution device 30.
  • the distribution device 30 acquires the related information R corresponding to the audio information D1 transmitted from the terminal device 10A and transmits it to the terminal device 10A.
  • the communication device 13 receives the related information R transmitted from the distribution device 30.
  • the process in which the distribution device 30 acquires the related information R will be described later.
  • audio information D1 and position information D2 are transmitted from each of the plurality of terminal devices 10A to the distribution device 30.
  • the reproduction control unit 42 causes the reproduction device 15 to reproduce the related information R received by the communication device 13.
  • the playback device 15 is an output device that plays back the related information R.
  • the playback device 15 includes a display device that displays an image represented by the related information R, and a sound emitting device that emits sound represented by the related information R. That is, reproduction by the reproduction device 15 includes display of an image and sound emission.
  • a separate playback device 15 may be connected to the terminal device 10A by wire or wirelessly.
  • the playback device 15 may include only one of the display device and the sound emitting device.
  • FIG. 3 is a flowchart illustrating a process executed by the control device 11 of the terminal device 10A.
  • the process of FIG. 3 is repeatedly executed at a predetermined cycle.
  • the information extraction unit 41 extracts the audio information D1 and the position information D2 from the acoustic signal Y generated by the sound collection device 14 (Sa1).
  • the information extraction unit 41 causes the communication device 13 to transmit the extracted voice information D1 and position information D2 to the distribution device 30 (Sa2).
  • the control device 11 stores the most recently received position information D2 in the storage device 12, and the position information D2 Is transmitted to the distribution apparatus 30.
  • the reproduction control unit 42 causes the reproduction device 15 to reproduce the related information R transmitted from the distribution device 30 (Sa3).
  • the related information R of the guidance voice V emitted from the sound emitting device 20 is provided to the user of the terminal device 10A.
  • FIG. 4 is a block diagram illustrating the configuration of the distribution apparatus 30.
  • the distribution device 30 is a server device (for example, a web server) that transmits various types of information to the terminal device 10A and the terminal device 10B via the communication network 70.
  • the related information R corresponding to the audio information D1 transmitted from the terminal device 10A is transmitted to each terminal device 10A.
  • information hereinafter referred to as “provided information”
  • Q information to be provided to the user of the terminal device 10B is transmitted to the terminal device 10B.
  • the distribution device 30 according to the first embodiment includes a control device 31, a storage device 32, and a communication device 33.
  • the distribution device 30 is realized by a single device or a set of a plurality of devices (that is, a server system) configured separately from each other.
  • the communication device 33 communicates with the terminal device 10A and the terminal device 10B via the communication network 70 under the control of the control device 31 (communication control unit 51).
  • the communication device 33 according to the first embodiment receives the audio information D1 and the position information D2 from each of the plurality of terminal devices 10A, and transmits related information R to the terminal device 10A.
  • the communication device 33 transmits the provision information Q to the terminal device 10B.
  • the control device 31 includes a single or a plurality of processors such as a CPU (Central Processing Unit) and controls each element of the distribution device 30 in an integrated manner.
  • the storage device 32 stores a program executed by the control device 11 and various data used by the control device 31.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of a plurality of types of recording media is arbitrarily used as the storage device 32.
  • the storage device 32 of the first embodiment stores a related table Ta, a voice table Tb, and a terminal table Tc.
  • FIG. 5 is a schematic diagram of the related table Ta.
  • the related table Ta is a table in which a plurality of related information R is registered. Specifically, for each of the plurality of audio information D1, related information R corresponding to the audio information D1 is registered.
  • the voice information D1 of the specific guidance voice V is associated with, for example, a character string representing the utterance content of the guidance voice V, or related information R representing a translated sentence obtained by translating the character string into another language.
  • FIG. 6 is a schematic diagram of the voice table Tb.
  • the voice table Tb is a data table in which a plurality of pieces of voice information D1 respectively transmitted from the plurality of terminal devices 10A are registered. Specifically, the voice information D1 and the position information D2 received from each terminal device 10A are registered in the voice table Tb in association with each other. Since the voice information D1 is transmitted from the terminal device 10A located in the vicinity of the plurality of sound emission positions (A, B, C,...) To the distribution device 30, the voice information D1 corresponding to various guidance voices V is stored in the voice table. Registered in Tb. That is, the voice table Tb is a set (big data) of a plurality of voice information D1.
  • the terminal table Tc is a table in which a plurality of terminal devices 10B (specifically, information for identifying the terminal device 10B) that are targets for transmitting the provision information Q are registered. For example, when the user of the terminal device 10B wants to obtain provision information corresponding to a specific sound emission position, the terminal device 10B is registered in the terminal table Tc according to an operation from the user with respect to the terminal device 10B. Further, for example, when the terminal device 10B automatically transmits a registration request to the terminal table Tc to the distribution device 30 (that is, without requiring an instruction from the user) triggered by reception of the voice information D1. Good.
  • control device 31 executes a plurality of functions (communication control unit 51, storage control unit 52, related information acquisition unit 53, and provision information generation unit) by executing a program stored in the storage device 12. 54) is realized. Note that some functions of the control device 11 may be realized by a dedicated electronic circuit. Further, the function of the control device 31 may be mounted on a plurality of devices.
  • the communication control unit 51 causes the communication device 33 to receive and transmit various types of information.
  • the storage control unit 52 stores the voice information D1 and the position information D2 received by the communication device 33 in the storage device 32 (specifically, the voice table Tb).
  • the related information acquisition unit 53 acquires related information R corresponding to the audio information D1 received by the communication device 33.
  • the provision information generation unit 54 generates the provision information Q by using a plurality of audio information D1 stored in the storage device 32.
  • FIG. 7 is a flowchart of a process in which the control device 31 acquires the related information R.
  • the communication control unit 51 causes the communication device 33 to receive the audio information D1 and the position information D2 transmitted from the terminal device 10A (Sb1).
  • audio information D1 and position information D2 are transmitted from each of the plurality of terminal devices 10A located in the vicinity of the plurality of sound emission positions.
  • the storage control unit 52 stores the plurality of audio information D1 received from the plurality of terminal devices 10A in the storage device 32 (Sb2). Specifically, the storage control unit 52 associates the audio information D1 and the position information D2 received from each terminal device 10A and registers them in the audio table Tb.
  • the related information acquisition unit 53 acquires related information R corresponding to the audio information D1 received by the communication device 33 (Sb3).
  • the related table Ta in FIG. 5 is used.
  • the related information acquisition unit 53 specifies the related information R associated with the audio information D1 received by the communication device 33 among the plurality of related information R registered in the related table Ta.
  • the communication control unit 51 causes the terminal device 10A to transmit the related information R specified by the related information acquisition unit 53 from the communication device 33 (Sb4).
  • the related information R of the guidance voice V is transmitted to the terminal device 10A that picks up the guidance voice V emitted from the sound emitting device 20.
  • FIG. 8 is a flowchart of a process in which the control device 31 generates the provision information Q.
  • the provision information generation unit 54 generates provision information Q using a plurality of pieces of sound information D1 registered in the sound table Tb of FIG. 6 (Sc1).
  • the communication control unit 51 causes the communication device 33 to transmit the provision information Q generated by the provision information generation unit 54 to the plurality of terminal devices 10B registered in the terminal table Tc (Sc2).
  • provision information Q generated by the distribution device 30 will be described.
  • an abnormal situation such as an emergency situation or an emergency situation occurs is exemplified.
  • a specific facility for example, a transportation facility
  • a traffic facility for example, a station
  • the provision information generation unit 54 generates the provision information Q using the voice table Tb. Specifically, the provided information generation unit 54 records the voice information D1 of the guidance voice V that informs the occurrence of an emergency and the position information D2 that indicates the sound emission position indicating the facility where the emergency has occurred. Number (hereinafter referred to as “number of registrations”) N is specified from the voice table Tb, and provided information indicating the occurrence of an emergency when the number N of registrations exceeds a threshold (that is, when the facility is congested due to an emergency) Q is generated. Provided information Q corresponding to the content of the guidance voice V indicated by the voice information D1 of the record whose registration number N exceeds the threshold is generated. For example, provision information Q indicating that the station is congested due to personal injury is generated.
  • the guidance voice V indicated by the voice information D1 of the record whose registration number N exceeds the threshold is the content that informs of an emergency such as a fire
  • the facility represented by the sound emission position indicated by the position information D2 of the record That is, the provision information Q indicating the facility where the fire has occurred may be generated.
  • the provision information Q indicating the evacuation route from the sound emission position indicated by the position information D2 may be generated.
  • an evacuation route associated with each of a plurality of sound emission positions is stored in advance in the storage device 32 and used for generating the provision information Q.
  • the position information D2 transmitted together with the audio information D1 from the terminal device 10A is information used for generating the provision information Q.
  • provision information relating to position information D2 indicating a specific position is generated.
  • the registration number N is the total number of records (combination of audio information D1 and position information D2) received from the terminal device 10A within a predetermined period (hereinafter referred to as “reference period”), for example.
  • the total number of records recorded in the storage device 32 is the registration number N. Counted.
  • the reception time is within the reference period among all the records stored in the storage device 32. The total number of records belonging to is counted as the registration number N.
  • the provision information generation unit 54 of the first embodiment selects a specific sound emission position (for example, a congested facility) among the plurality of pieces of sound information D1 registered in the sound table Tb.
  • the provision information Q is generated using two or more pieces of audio information D1 associated with the position information D2 shown.
  • the provision information Q corresponding to the content of the guidance voice V indicated by the plurality of voice information D1 registered in the voice table Tb is generated.
  • the provision information Q generated by the above procedure is transmitted to the plurality of terminal devices 10B registered in the terminal table Tc as described above.
  • the terminal device 10B reproduces the provided information Q transmitted from the distribution device 30. Specifically, the terminal device 10B reproduces the provision information Q by, for example, displaying a character string representing the provision information Q or emitting sound indicating the provision information Q.
  • a plurality of pieces of audio information D1 respectively received from a plurality of terminal devices 10A are stored in the storage device 32 (voice table Tb). It can be used for various purposes.
  • the provision information Q generated by using the plurality of pieces of sound information D1 stored in the storage device 32 is transmitted to the terminal device 10B, the sound transmitted from the plurality of terminal devices 10A.
  • the information D1 can be used to generate the provision information Q.
  • provided information Q is generated from two or more pieces of audio information D1 associated with position information D2 indicating a specific position among a plurality of pieces of audio information D1 stored in the storage device 32. Therefore, there is an advantage that the provision information Q can be generated from two or more pieces of voice information D1 each indicating the guidance voice V estimated to be collected at a specific position.
  • the terminal device 10A of the second embodiment transmits time information D3 to the distribution device 30 in addition to the voice information D1 and the position information D2.
  • the time information D3 is information indicating the time (typically date and time) when the terminal device 10A picks up the guidance voice V.
  • the time set in the terminal device 10A when the guidance voice V is collected is generated by the terminal device 10A as time information D3.
  • the time at which the information extraction unit 41 extracted the voice information D1 of the guidance voice V may be generated as the time information D3.
  • the sound information D1 and the position information D2 are transmitted from the sound emitting device 20 as in the first embodiment.
  • the communication control unit 51 of the distribution apparatus 30 causes the communication apparatus 33 to receive the audio information D1, the position information D2, and the time information D3.
  • the storage control unit 52 registers the voice information D1, the position information D2, and the time information D3 transmitted by the terminal device 10A in the voice table Tb.
  • FIG. 9 is a schematic diagram of an audio table Tb according to the second embodiment. As illustrated in FIG. 9, the audio information D1, the position information D2, and the time information D3 received from each terminal device 10A are associated with each other and registered as one record.
  • the related information acquisition unit 53 of the second embodiment acquires the related information R from the voice information D1 transmitted from the terminal device 10A and transmits the related information R to the terminal device 10A.
  • the provision information generation part 54 of 2nd Embodiment produces
  • the second embodiment exemplifies a case where the provision information Q that informs the congestion situation of a specific facility (for example, the cause of congestion and the degree of congestion) is generated.
  • a plurality of terminal devices 10A located in the vicinity of a specific sound emission position each pick up various guidance voices V, and voice information D1, position information D2, and time information D3 are sent to the distribution apparatus 30. Sent.
  • the time zone in which the commercial facility is congested (for example, morning) / Day / night) is registered in a concentrated manner in a short time. Therefore, for each time zone, the number of registered records N including the position information D2 indicating the sound emission position representing the specific commercial facility and the time information D3 is calculated to estimate the time zone in which the commercial facility is congested. can do.
  • the provision information generation unit 54 of the second embodiment generates provision information Q that informs the congestion situation of the commercial facility using a plurality of pieces of sound information D1 registered in the sound table Tb.
  • the provision information generation unit 54 specifies a record including position information D2 indicating a sound emission position representing a specific commercial facility from the voice table Tb.
  • the provided information generation unit 54 classifies the specified plurality of records for each time zone (morning / daytime / night) using the time indicated by the time information D3 of the record.
  • the degree of congestion (for example, high / normal / low) in each time slot is estimated according to the number N of registered records registered, and provided information Q representing the estimation result is generated.
  • the provision information Q represents the degree of congestion in each of the plurality of time zones. In addition, you may produce
  • the time information D3 is information used for generating the provision information Q.
  • provision information Q indicating the cause of congestion for each time zone is generated from the contents of the guidance voice V indicated by the voice information D1 classified for each time zone. For example, when the number N of registered records including the voice information D1 indicating the guidance voice V for notifying the occurrence of various events (for example, time sale, etc.) is large, the provision information Q indicating that the event is a cause of congestion Is generated. That is, provision information Q corresponding to the contents of a plurality of guidance voices V is generated.
  • the degree of congestion is not limited to the degree of congestion for each time period, and may be the degree of congestion for each day of the week or each month, for example.
  • provision information Q for notifying the congestion situation may be generated from the position information D2 and the time information D3 without using the voice information D1.
  • the provision information Q generated by the above procedure is transmitted to the plurality of terminal devices 10B registered in the terminal table Tc as described above.
  • the provision information generation unit 54 of the second embodiment uses the time information D3 indicating a specific time (for example, a time zone) among the plurality of sound information D1 registered in the sound table Tb.
  • the provision information Q is generated using the two or more associated voice information D1.
  • a plurality of audio information D1 stored in the storage device 32 can be used for various purposes (for example, generation of the provision information Q).
  • the provision information Q is generated from two or more pieces of voice information D1 associated with time information D3 indicating a specific time among a plurality of pieces of voice information D1 stored in the storage device 32.
  • the provision information Q can be generated from two or more pieces of voice information D1 each indicating the guidance voice V estimated to be collected at a specific time.
  • the terminal device 10A generates the time information D3, but the distribution device 30 may generate the time information D3.
  • time information D3 indicating the time when the audio information D1 and the position information D2 are received from the terminal device 10A is generated, and the time information D3 is associated with the audio information D1 and the position information D2 transmitted from the terminal device 10A.
  • One record is registered in the voice table Tb.
  • the terminal device 10A of the third embodiment transmits language information D4 to the distribution device 30 in addition to the voice information D1 and the position information D2.
  • the language information D4 is information indicating the language set in the terminal device 10A.
  • the method for acquiring the language information D4 is arbitrary. For example, a configuration in which the language information D4 is generated with reference to the language setting of the OS (Operating System) of the terminal device 10A, or the user of the terminal device 10A arbitrarily specifies
  • the language information D4 indicating the selected language may be generated.
  • the sound information D1 and the position information D2 are transmitted from the sound emitting device 20 as in the first embodiment.
  • the communication control unit 51 of the distribution device 30 causes the communication device 33 to receive the audio information D1, the position information D2, and the language information D4 transmitted by the terminal device 10A.
  • the storage control unit 52 registers the voice information D1, the position information D2, and the language information D4 received by the communication device 33 in the voice table Tb.
  • FIG. 10 is a schematic diagram of an audio table Tb according to the third embodiment. As illustrated in FIG. 10, the audio information D1, the position information D2, and the language information D4 received from each terminal device 10A are associated and registered as one record.
  • the related information acquisition part 53 of 3rd Embodiment acquires the related information R from the audio
  • the provision information generation part 54 of 3rd Embodiment produces
  • the provision information Q generated by the distribution device 30 according to the third embodiment will be described.
  • generated is illustrated.
  • the language in which the position information D2 indicating the sound emission position is associated with the common Information D4 is registered in the voice table Tb in a concentrated manner in a short time. Therefore, for each language, by calculating the registration number N of the records including the position information D2 indicating the specific sound emission position and the language information D4, it is possible to estimate a language with a large number of people used at the sound emission position. it can.
  • the provision information generation unit 54 of the third embodiment uses a plurality of audio information D1 registered in the audio table Tb to indicate a language that has a large number of people used at a specific sound emission position.
  • Provision information Q is generated.
  • the provision information generation unit 54 specifies a record including position information D2 indicating a specific sound emission position from the voice table Tb.
  • the provision information generating unit 54 generates the provision information Q by classifying the plurality of identified records for each language using the language indicated by the language information D4 of the record.
  • the number of people who use each language is estimated at the sound emission position indicated by the position information D2 of the record, and provision information Q indicating the language with the largest estimated number of people is generated. Is done. That is, the provision information Q indicating the language estimated to be used most at a specific sound emission position is generated. In 3rd Embodiment, it is estimated that the language with the largest number of the classified audio
  • the language information D4 is information used for generating the provision information Q. Note that provision information Q indicating a plurality of languages in which the number of classified records is positioned in descending order may be generated.
  • a display terminal for guidance such as an electronic bulletin board installed in a transportation facility or an electronic signboard (digital signage) installed in a commercial facility is exemplified as the terminal device 10B.
  • the distribution device 30 outputs the sound emission position indicated by the position information D2 corresponding to the language information D4 used for generating the provision information Q among the plurality of terminal apparatuses 10B registered in the terminal table Tc (that is, the provision information Q indicates).
  • the provision information Q is transmitted to the terminal device 10B located in the vicinity of a sound emission position where many users who use the language are located.
  • the terminal device 10B displays various types of information using, for example, the language indicated by the provision information Q transmitted from the distribution device 30. In other words, information is displayed in a language with a large number of users in the vicinity of the sound emission position 20.
  • the terminal device 10A generates the language information D4.
  • the sound emitting device 20 may transmit the language information D4 together with the voice information D1 and the position information D2 to the terminal device 10A.
  • information indicating the language of the guidance voice V is transmitted to the terminal device 10A as language information D4.
  • the terminal device 10A transmits the language information D4 transmitted from the sound emitting device 20 to the distribution device 30. In the above configuration, it is possible to collect information on which language of the guidance voice V is emitted from the sound emitting device 20.
  • the provision information generation unit 54 of the third embodiment is associated with language information D4 indicating a specific language among a plurality of pieces of voice information D1 registered in the voice table Tb.
  • the provision information Q is generated using the audio information D1.
  • a plurality of audio information D1 stored in the storage device 32 can be used for various purposes (for example, generation of the provision information Q).
  • the language information D4 can be used for various purposes.
  • the provision information Q is generated using the plurality of pieces of sound information D1 stored in the storage device 32 (the sound table Tb), but the plurality of pieces of sound information D1 stored in the storage device 32 is used. Is used for various purposes other than the generation of the provision information Q.
  • a plurality of voice information D1 stored in the storage device 32 or the contents thereof may be statistically analyzed to be used for various businesses (for example, marketing).
  • Information other than the voice information D1 stored in the storage device 32 for example, at least one of the position information D2, the time information D3, and the language information D4 may be used for the analysis.
  • the voice table Tb may be provided as a searchable database. As can be understood from the above description, the generation of the provision information Q is omitted.
  • the sound emitting device 20 emits the guidance sound V, but the sound emitted by the sound emitting device 20 is not limited to the guidance sound V. That is, the voice collected by the terminal device 10A may be a voice other than the guidance voice V.
  • the terminal device 10A may collect sound such as a musical sound (musical performance sound) or an alarm sound, and generate sound information D1 indicating the sound.
  • the guidance voice V is an example of a voice.
  • the identifier for identifying the guidance voice V is exemplified as the voice information D1, but the voice information D1 is not limited to the above examples.
  • a character string representing the utterance content of the guidance voice V may be used as the voice information D1.
  • the information extraction unit 41 of the terminal device 10A generates voice information D1 from the acoustic signal Y generated by the sound collection device 14 by collecting the Y guidance voice V.
  • a character string representing the utterance content of the guidance voice V is specified as voice information D1 by voice recognition for the acoustic signal Y.
  • the terminal device 10A transmits the voice information D1 generated by voice recognition to the distribution device 30 and receives the related information R corresponding to the voice information D1 (that is, a character string representing the utterance content of the guidance voice V) from the distribution device 30. To do. In the configuration in which the terminal device 10A generates the voice information D1 by voice recognition, it is not necessary for the sound emitting device 20 to transmit the voice information D1 to the terminal device 10A.
  • the sound information D1 may be transmitted from the sound emitting device 20 to the terminal device 10A, or the terminal device 10A collects the guidance sound V emitted from the sound emitting device 20. It may be generated.
  • the voice information D1 may be information (for example, URL) indicating the location of the information. As understood from the above examples, the voice information D1 is comprehensively expressed as information indicating the voice picked up by the terminal device.
  • the position information D2 is not limited to the identifier for identifying the sound emission position.
  • the sound emitting device 20 transmits a character string indicating the sound emission position (for example, the name of the facility) or information indicating the location of the content indicating the sound emission position (for example, URL) to the terminal device 10A as the position information D2. Also good.
  • the position information D2 and time information D3 exemplified in the above embodiments are comprehensively expressed as status information indicating the status of sound collection by the terminal device 10A. That is, the position where the guidance voice V is collected and the time when the guidance voice V is collected are exemplified as the situation of sound collection.
  • the situation information is not limited to the position information D2 and the time information D3.
  • an image captured by the terminal device 10A a position acquired using a positioning satellite (for example, a GPS satellite), a moving speed, an application usage status, a browsing history by a web browser, information notified by push, etc.
  • the situation information is arbitrary as long as the information is generated or acquired by the terminal device 10A when the guidance voice V is collected.
  • the terminal device 10A transmits the voice information D1 and the situation information to the distribution device 30, and in the third embodiment, the terminal device 10A transmits the voice information D1 and the situation information.
  • the language information D4 is transmitted to the distribution device 30, but it may be omitted that the terminal device 10A transmits information other than the voice information D1.
  • the information that the terminal device 10A transmits in addition to the voice information D1 is not limited to the situation information and the language information D4.
  • the terminal device 10 ⁇ / b> A that picks up the guidance voice V that notifies the occurrence of an emergency may pick up a sound other than the guidance voice V (for example, a siren) together with the guidance voice V.
  • information indicating the classification of sound collected by the terminal apparatus 10A together with the guidance voice V (hereinafter referred to as “classification information”) may be added to the voice information D1 and transmitted to the distribution apparatus 30.
  • classification information indicating sirens that notify an emergency or classification information indicating abnormal sounds such as explosion sounds and impact sounds is exemplified.
  • a known technique is arbitrarily used for generating the classification information.
  • classification information is generated by analysis of the acoustic signal Y.
  • the terminal device 10A transmits the audio information D1 and the classification information to the distribution device 30, and the distribution device 30 (storage control unit 52) stores the received audio information D1 and the classification information in association with each other in the storage device 32.
  • the terminal device 10A adds the audio signal Y including sound other than the guidance voice V to the audio information D1 and transmits it to the distribution device 30, and the distribution device 30 generates classification information by analyzing the acoustic signal Y. Also good.
  • information for example, identification information
  • related to the sound emitting device 20 that is the sound emission source of the guidance sound V collected by the terminal device 10A may be added to the sound information D1 and transmitted from the terminal device 10A.
  • the plurality of audio information D1 is used for generating the provision information Q.
  • the provision information Q may be generated without using the plurality of audio information D1.
  • the provision information Q may be generated using only the situation information.
  • the provision information Q indicating the degree of congestion may be generated for each sound emission position according to the number of pieces of position information D2 indicating each sound emission position registered in the voice table Tb.
  • the voice information D1 can be received only at a specific sound emission position where the guidance voice V can be collected, the voice information D1 can also be expressed as information indicating the sound emission position. Therefore, it is not essential to use the position information D2 transmitted from the plurality of terminal devices 10A in the generation of the provision information Q exemplified in the above-described embodiments. That is, the transmission of the position information D2 by the sound emitting device 20 is omitted.
  • the terminal device 10A receives the radio wave from a positioning satellite (for example, a GPS satellite) to acquire the accurate position information D2 of the terminal device 10A, and adds the position information D2 to the audio information D1 and transmits it. May be.
  • a positioning satellite for example, a GPS satellite
  • both the position information D2 specified from the satellite radio wave and the position information D2 received from the sound emitting device 20 by acoustic communication may be registered in the voice table Tb.
  • the positional information D2 specified from the satellite radio wave indicates the absolute position of the terminal device 10A, whereas the positional information D2 received by acoustic communication has a semantic difference that indicates the sound emitting position.
  • the absolute position indicated by the position information D2 specified from the satellite radio wave changes in conjunction with the movement of the moving body.
  • the sound emission position indicated by the received position information D2 does not change.
  • high-accuracy position information D2 (hereinafter referred to as “high-accuracy position information D2”) generated by a telecommunications carrier that manages the communication network 70 to which the terminal device 10A is connected may be used for generating the provision information Q.
  • the high-precision position information D2 corresponding to the position where the terminal device 10A is located at the time indicated by the time information D3 added to the sound information D1 is registered in the sound table Tb in association with the sound information D1.
  • the high-accuracy position information D2 generated by the telecommunications carrier can be used for utilizing a plurality of audio information D1.
  • the provision information Q may be generated according to the correspondence between the high-accuracy position information D2 and the voice table Tb.
  • the provision information Q may be generated from the voice table Tb in consideration of the movement tendency of many terminal devices 10A indicated by the high-precision position information D2.
  • the provision information Q is generated using a plurality of pieces of voice information D1, but it is not essential to use the plurality of pieces of voice information D1 in the generation of the provision information Q. That is, the provision information Q may be generated using one piece of audio information D1.
  • the distribution device 30 functions as an element that transmits the provision information Q generated using the audio information D1 to the terminal device 10B. The difference between the terminal device 10A and the terminal device 10B is not questioned.
  • the distribution device 30 transmits the related information R to the terminal device 10A, but transmission of the related information R to the terminal device 10A may be omitted. That is, the terminal device 10A is used as an information terminal for collecting the voice information D1 and transmitting it to the distribution device 30.
  • the provision information Q is transmitted to the terminal device 10B registered in the terminal table Tc.
  • the provision information Q is transmitted to at least one terminal device 10A among the plurality of terminal devices 10A in the information provision system 100.
  • the provision information Q may be transmitted.
  • the information provision Q may be provided to the business operator of the facility P where the sound emitting device 20 is installed.
  • the provision information generation unit 54 generates provision information Q that notifies the increasing tendency of the voice information D1 indicating the specific guidance voice V (for example, the guidance voice V emitted from the facility P).
  • the provision information Q is generated. For example, provision information Q notifying that the number of registered voice information D1 indicating a specific guidance voice V has increased or provision information Q notifying the number of registered voice information D1 is generated.
  • the generated provision information Q is transmitted to the information terminal of the business operator of the facility P.
  • the information terminal of the business operator is a control device for controlling the sound emitting device 20, for example.
  • the information terminal estimates the congestion status (for example, the degree of congestion) of the facility P from the increasing tendency of the voice information D1 indicated by the provision information Q received from the distribution device 30. Next, the information terminal causes the sound emitting device 20 to emit the guidance voice V for guiding the user of the facility P to a place where the degree of congestion is low based on the estimated congestion situation.
  • the congestion status for example, the degree of congestion
  • the voice information D1 transmitted by each terminal device 10A for obtaining the related information R is stored in the storage device 32 (voice table Tb), but the terminal device 10A obtains the related information R. Therefore, the audio information D1 transmitted at a timing different from the audio information D1 transmitted for the purpose may be stored in the storage device 32.
  • the terminal device 10 ⁇ / b> A collects the guidance sound V
  • the terminal device 10 ⁇ / b> A transmits the sound information D ⁇ b> 1 to the distribution device 30 in order to acquire the related information R.
  • the terminal device 10A transmits the voice information D1 (and other information) to be stored in the storage device 32 (voice table Tb) to the distribution device 30.
  • a plurality of audio information D1 may be transmitted together at a preset time.
  • the audio information D1 transmitted from each terminal device 10A is stored in the distribution device 30 (audio table Tb), but the audio table Tb (in the information processing device separate from the distribution device 30). Audio information D1) may be stored.
  • Each terminal device 10A transmits audio information D1 to each of the distribution device 30 and the information processing device.
  • the distribution device 30 stores a related table Ta and transmits related information R corresponding to the audio information D1 to the terminal device 10A.
  • the storage device of the information processing device stores a speech table Tb including a plurality of speech information D1 received from each terminal device 10A.
  • the provided information Q is transmitted from the information processing device to the terminal device 10B.
  • the timing for transmitting the audio information D1 to the information processing apparatus is arbitrary. For example, it may be simultaneously with the transmission of the audio information D1 to the distribution device 30, or a plurality of audio information D1 may be transmitted together at a preset time. Note that the voice information D1 and information other than the voice information D1 (for example, situation information or language information D4) may be transmitted to the information processing apparatus.
  • the related information acquisition unit 53 acquires the related information R corresponding to the audio information D1 from the related table Ta, but the related information acquisition unit 53 may generate the related information R.
  • the related information R corresponding to the character string is generated from the voice information D1 indicating the character string representing the utterance content of the guidance voice V. That is, it is not essential to store the related table Ta in the storage device 32.
  • the terminal device 10A transmits the audio information D1 to the distribution device 30, but the transmission source of the audio information D1 is not limited to the terminal device 10A.
  • the sound emitting device 20 may transmit the audio information D1 to the distribution device 30.
  • the sound emitting device 20 transmits the sound information D1 to the distribution device 30 together with sound emission of the guidance sound V and the sound of the sound information D1.
  • the voice information D1 is transmitted to the distribution device 30 in parallel with or before the guidance voice V is emitted.
  • the sound information D1 is transmitted from the sound emitting device 20 installed in each of the plurality of facilities P to the distribution device 30.
  • the distribution device 30 stores the audio information D1 received from each sound emitting device 20 in the storage device 32.
  • a device managed in the facility P may transmit the voice information D1 of the guidance voice V emitted by the sound emitting device 20 to the distribution device 30 instead of the distribution device 20.
  • the voice table Tb exemplified in each of the above embodiments is also specified as a data structure.
  • the voice table Tb has a data structure including a plurality of pieces of voice information D1 each indicating the contents of the voice emitted from the sound emitting device 20 and picked up by the terminal device 10A. Is used for the process of generating the provision information Q using a plurality of audio information D1 included in the data structure.
  • a program for causing the control device 11 of the terminal device 10A to function as the information extraction unit 41 and the reproduction control unit 42 is not only for a single application software but also for various application software (for example, a browser) used in the terminal device 10A, for example. It may be provided as plug-in software.
  • the functions of the distribution device 30 or the terminal device 10 (10A and 10B) according to each embodiment described above are realized by the cooperation of the control device 31 and the program as illustrated in each embodiment.
  • the program according to each of the above embodiments may be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium is also included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating” signal), and does not exclude a volatile recording medium.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • the information processing method which concerns on the suitable aspect (1st aspect) of this invention receives the audio
  • the plurality of audio information can be used for various purposes.
  • provision information is generated using the plurality of audio information stored in the storage device, and the provision information is transmitted to the terminal device.
  • the provision information generated by using the plurality of pieces of sound information stored in the storage device is transmitted to the terminal device, the sound information transmitted from the plurality of terminal devices is used to generate the provision information. Can be used.
  • the provision information in the transmission of the provision information, is transmitted to at least one terminal device among the plurality of terminal devices.
  • provision information is transmitted to the terminal device which is a transmission source of audio information.
  • the provided information is information corresponding to the content of the voice indicated by the plurality of voice information.
  • the provision information according to the content of the sound collected by the plurality of terminal devices can be generated.
  • the voice information received from each terminal device is received from the terminal device the situation information indicating the state of the sound collection by the terminal device.
  • the situation information are associated with each other and stored in the storage device, and two or more pieces of voice information associated with the situation information indicating a specific situation among the plurality of pieces of voice information stored in the storage device are stored.
  • the provision information is generated using the information.
  • the provision information is generated from two or more pieces of audio information associated with the situation information indicating the specific situation among the plurality of pieces of audio information stored in the storage device, the provision information is collected under the specific situation. It is possible to generate the provision information from two or more pieces of sound information each indicating a sound that is estimated to be sounded.
  • the situation information includes position information indicating the position of the terminal device when the voice is collected as the situation, and a plurality of voices stored in the storage device Among the information, the provision information is generated using two or more pieces of audio information associated with position information indicating a specific position.
  • provided information is generated from two or more pieces of audio information associated with position information indicating a specific position among a plurality of pieces of audio information stored in the storage device, sound collection is performed at a specific position.
  • Provided information can be generated from two or more pieces of audio information each indicating the estimated audio.
  • the provision information regarding the specific position is generated.
  • the number of audio information associated with position information indicating a specific position exceeds a threshold, it can be estimated that there are many users of the terminal device at the position. Therefore, it is possible to generate provision information related to positions where there are many users.
  • the situation information includes time information indicating the time when the sound was collected as the situation, and is stored in the storage device
  • the provision information is generated using two or more pieces of voice information associated with time information indicating a specific time among a plurality of pieces of voice information.
  • provision information is generated from two or more pieces of audio information associated with time information indicating a specific time among a plurality of pieces of audio information stored in the storage device, sound collection is performed at a specific time.
  • Provided information can be generated from two or more pieces of audio information each indicating the estimated audio.
  • the time information associated with the sound information is used to classify the plurality of sound information into a plurality of time zones, and the time information is classified for each time zone.
  • the provision information according to the number of the voice information is generated. For example, according to the number of audio information classified for each time zone, the number of users located near the sound emitting device can be estimated for each time zone. Therefore, for example, it is possible to generate provision information indicating a congestion situation for each time zone.
  • language information indicating a language set in the terminal device is received from the terminal device, and the voice information received from each terminal device and The language information is associated with and stored in the storage device.
  • the language information indicating the language set in the terminal device that picks up the guidance voice is used for various purposes. It can be used for.
  • the plurality of voice information is classified into a plurality of languages, and the plurality of languages are classified.
  • the provided information indicating the language having the largest number of voice information is generated. It can be estimated that the language having the largest number of classified voice information among the plurality of languages is the most used language in the vicinity of the sound emitting device. Therefore, it is possible to generate provision information indicating a language most used in the vicinity of the sound emitting device.
  • the terminal in receiving the sound information, is obtained from an acoustic signal generated by collecting sound emitted from the sound emitting device.
  • the voice information generated by the device is received.
  • the terminal device since the terminal device generates the sound information by collecting the sound emitted from the sound emitting device, the sound emitting device is compared with the configuration in which the sound emitting device transmits the sound information to the terminal device. The configuration is simplified.
  • the information processing apparatus performs an operation for receiving, from the terminal device, voice information indicating the voice that is emitted from the sound emitting device and collected by the terminal device. And a storage control unit for storing a plurality of audio information respectively received from a plurality of terminal devices in a storage device.
  • a storage control unit for storing a plurality of audio information respectively received from a plurality of terminal devices in a storage device.
  • a program according to a preferred aspect (fourteenth aspect) of the present invention is an operation in which one or a plurality of processors receive sound information indicating sound collected by a terminal device from a sound emitting device and received from the terminal device. Are made to function as a communication control unit that causes the communication device to execute and a storage control unit that stores a plurality of audio information respectively received from a plurality of terminal devices in the storage device.
  • a communication control unit that causes the communication device to execute
  • a storage control unit that stores a plurality of audio information respectively received from a plurality of terminal devices in the storage device.
  • a data structure according to a preferred aspect (fifteenth aspect) of the present invention is a data structure including a plurality of pieces of audio information each indicating the content of sound emitted from a sound emitting device and collected by a terminal device,
  • the information processing apparatus is used for processing for generating provided information using the plurality of audio information.
  • the audio information transmitted from the plurality of terminal devices can be used for generating the provided information.
  • DESCRIPTION OF SYMBOLS 100 ... Information provision system, 10 ... Terminal device, 20 ... Sound emission device, 30 ... Distribution device, 11 ... Control device, 12 ... Storage device, 13 ... Communication device, 14 ... Sound collection device, 15 ... Playback device, 31 ... Control device, 32 ... storage device, 33 ... communication device, 41 ... information extraction unit, 42 ... reproduction control unit, 51 ... communication control unit, 52 ... storage control unit, 53 ... related information acquisition unit, 54 ... provided information generation unit , 70 ... a communication network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Emergency Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

情報処理装置は、複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を通信装置に受信させる通信制御部と、複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部とを具備する。

Description

情報処理方法、情報処理装置およびプログラム
 本発明は、情報を処理する技術に関する。
 端末装置が収集した情報を処理する各種の技術が従来から提案されている。例えば特許文献1には、識別情報が音響通信により端末装置に送信され、端末装置は当該識別情報に対応する関連情報を出力する構成が開示されている。
特開2016-153906号公報
 しかし、特許文献1の技術では、個々の端末装置が識別情報に対応する関連情報を取得するにとどまり、各端末装置が取得した識別情報を収集して全体として活用するという発想はなかった。本発明では、複数の端末装置がそれぞれ収音した音声に関する情報を様々な用途に活用することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信し、前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する。
 本発明の好適な態様に係る情報処理装置は、複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信する動作を通信装置に実行させる通信制御部と、前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部とを具備する。
 本発明の好適な態様に係るプログラムは、1または複数のプロセッサを、複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信する動作を通信装置に実行させる通信制御部、および、前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部として機能させる。
第1実施形態における情報提供システムの構成を例示するブロック図である。 端末装置の構成を例示するブロック図である。 端末装置の制御装置が実行する処理を例示するフローチャートである。 配信装置の構成を例示するブロック図である。 関連テーブルの模式図である。 音声テーブルの模式図である。 関連情報を生成する処理を例示するフローチャートである。 提供情報を生成する処理を例示するフローチャートである。 第2実施形態に係る音声テーブルの模式図である。 第3実施形態に係る音声テーブルの模式図である。
<第1実施形態>
 図1は、本発明の第1実施形態に係る情報提供システム100の構成を例示するブロック図である。図1に例示される通り、第1実施形態の情報提供システム100は、複数の端末装置10Aと放音装置20と配信装置30(情報処理装置の一例)と端末装置10Bとを具備する。情報提供システム100の各要素は、例えば移動体通信網またはインターネット等を含む通信網70を介して相互に通信可能である。情報提供システム100は、端末装置10Aの利用者と端末装置10Bの利用者とに各種の情報を提供するためのコンピュータシステムである。端末装置10Aおよび端末装置10Bは、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の可搬型の情報端末である。
<放音装置20>
 放音装置20は、特定の施設Pに設置される。具体的には、放音装置20は、施設Pの利用者に各種の情報を案内する音声(以下「案内音声」という)Vを放音する出力装置である。例えば、駅またはバス停等の交通施設、鉄道またはバス等の交通機関、販売店または飲食店等の商業施設、旅館またはホテル等の宿泊施設、博物館または美術館等の展示施設、史跡または名所等の観光施設、競技場または体育館等の運動施設、等が施設Pとして例示される。例えば施設Pの営業時間、施設内での販売商品、または、施設P内における非常事態(例えば火災等)の発生を案内する案内音声Vが放音される。または、電車またはバスの車輌(施設P)内において、電車の遅延等の運行状況、電車の到着、または、乗降時の注意事項等を通知する車内放送が案内音声Vとして例示される。なお、実際には複数の施設の各々に放音装置20が設置され当該施設内で案内音声V(音声の一例)が放音されるが、以下の説明では便宜的に1つの施設Pに着目する。なお、放音装置20が放音する案内音声Vは、施設Pの従業者が発音した音声でもよいし、例えば音声合成または録音により用意する音声でもよい。例えば従業者による文字列の指示に並行して、当該文字列が表す案内音声Vを音声合成によりリアルタイムで生成してもよい。
 第1実施形態の放音装置20は、案内音声Vのほかに、音声情報D1を表す音響と位置情報D2を表す音響とを放音する。音声情報D1は、案内音声Vの内容(例えば案内音声Vの発音内容を表す文字列)を示す情報である。第1実施形態では、案内音声Vの内容を識別する識別子が音声情報D1として利用される。案内音声V毎に相異なる音声情報D1が事前に設定される。
 位置情報D2は、放音装置20により音響が放音される位置(以下「放音位置」)を示す情報である。放音位置毎に相異なる位置情報D2が事前に設定される。例えば、放音装置20が設置されている施設Pの名称、当該施設Pが所在する地域(例えば関東地方および近畿地方等の区分)、または当該施設Pの緯度および経度等の地理的な地点が、放音位置として例示される。なお、放音位置は、地理的な特定の地点を示す情報に限定されず、例えば施設P内での階数や施設P内の特定の場所でもよい。また、位置情報D2は、各放音装置20を識別するための情報でもよい。第1実施形態では、放音位置を識別する識別子が位置情報D2として利用される。
 音響信号Xを放音装置20に供給することで、案内音声Vと音声情報D1を含む音響と位置情報D2を表す音響とが放音装置20から放音される。音響信号Xは、案内音声Vと音声情報D1を表す音響と位置情報D2を表す音響とを含む音を表す信号である。第1実施形態の放音装置20は、案内音声Vを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信により音声情報D1および位置情報D2を周囲に送信する送信機としても機能する。すなわち、第1実施形態では、案内音声Vを放音する放音装置20から音声情報D1および位置情報D2の音響を放音する音響通信により、当該音声情報D1および位置情報D2が周囲に送信される。音声情報D1は、案内音声Vの放音毎に送信される。例えば、案内音声Vの放音とともに(例えば案内音声Vの放音に並行または前後して)音声情報D1が送信される。他方、位置情報D2は、案内音声Vの放音とは別に所定の周期で反復的に送信される。なお、位置情報D2を案内音声Vの放音とともに送信してもよい。ただし、音声情報D1の送信と位置情報D2の送信とは時間的に重複しない。
 音響信号Xは、案内音声Vを表す音声信号と、音声情報D1を音響成分として表す変調信号と、位置情報D2を音響成分として表す変調信号とを加算することで生成される。各変調信号は、例えば所定の周波数の搬送波を各情報(音声情報D1または位置情報D2)により周波数変調することで生成される。なお、拡散符号を利用した各情報の拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号を生成してもよい。変調信号の周波数帯域は、放音装置20による放音と端末装置10Aによる収音とが可能な周波数帯域であり、かつ、端末装置10Aの利用者が通常の環境で聴取する音声の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)に設定される。したがって、利用者は、音声情報D1および位置情報D2の音響成分を殆ど聴取できない。ただし、変調信号の周波数帯域は任意であり、例えば可聴帯域内の変調信号を生成することも可能である。
<端末装置10A>
 図1の複数の端末装置10Aは、放音装置20が設置される施設Pに所在する。第1実施形態の端末装置10Aは、案内音声Vに関連する情報(以下「関連情報」という)Rを配信装置30から取得する。関連情報Rは、例えば、案内音声Vの発話内容を表す文字列、当該文字列を他言語に翻訳した翻訳文、または、案内音声Vに関連するコンテンツの所在を表す情報(例えばURL)等である。関連情報Rは、音声または画像で表現されてもよい。なお、他の施設にも同様に複数の端末装置10Aが所在する。
 図2は、端末装置10Aの構成を例示するブロック図である。図2に例示される通り、端末装置10Aは、制御装置11と記憶装置12と通信装置13と収音装置14と再生装置15とを具備する。端末装置10Aは、典型的には前述の通り、利用者が所有する情報端末である。ただし、交通機関に設置された電光掲示板、または商業施設に設置される電子看板(デジタルサイネージ)等の案内用の表示端末を端末装置10Aとして利用してもよい。
 収音装置14は、周囲の音響を収音する音響機器(マイクロホン)である。具体的には、収音装置14は、放音装置20が施設P内に放音した音響を収音し、当該音響の波形を表す音響信号Yを生成する。したがって、施設Pでの収音により生成された音響信号Yには、音声情報D1の音響成分と位置情報D2の音響成分とが含まれる。位置情報D2は、案内音声Vを収音したときの端末装置10Aの位置を示す情報とも換言される。
 以上の説明から理解される通り、収音装置14は、端末装置10Aの相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により音声情報D1および位置情報D2を受信する受信機としても機能する。なお、収音装置14が生成した音響信号Yをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。また、端末装置10Aと一体に構成された収音装置14に代えて、別体の収音装置14を有線または無線により端末装置10Aに接続してもよい。
 制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数のプロセッサを含み、端末装置10Aの各要素を統括的に制御する。記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に利用される。
 制御装置11は、図2に例示される通り、記憶装置12に記憶されたプログラムを実行することで複数の機能(情報抽出部41および再生制御部42)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置11の機能を複数の装置に搭載してもよい。
 情報抽出部41は、収音装置14が生成した音響信号Yから音声情報D1および位置情報D2を抽出する。具体的には、情報抽出部41は、例えば、音響信号Yのうち各情報(音声情報D1および位置情報D2)の音響成分を含む周波数帯域を強調するフィルタ処理と、各情報に対する変調処理に対応した復調処理とにより、音声情報D1および位置情報D2を抽出する。情報抽出部41が抽出した音声情報D1は、当該音声情報D1に対応する案内音声V(すなわち放音装置20により放音された案内音声V)の関連情報Rの取得に利用される。
 通信装置13は、制御装置11による制御のもとで通信網70を介して配信装置30と通信する。第1実施形態の通信装置13は、情報抽出部41が抽出した音声情報D1と位置情報D2とを配信装置30に送信する。配信装置30は、端末装置10Aから送信された音声情報D1に対応した関連情報Rを取得して端末装置10Aに送信する。通信装置13は、配信装置30から送信された関連情報Rを受信する。配信装置30が関連情報Rを取得する処理については後述する。なお、実際には複数の端末装置10Aのそれぞれから音声情報D1および位置情報D2が配信装置30に送信される。
 再生制御部42は、通信装置13が受信した関連情報Rを再生装置15に再生させる。再生装置15は、関連情報Rを再生する出力機器である。具体的には、再生装置15は、関連情報Rが表す画像を表示する表示装置と、当該関連情報Rが表す音響を放音する放音装置とを具備する。すなわち、再生装置15による再生は、画像の表示と音響の放音とを包含する。なお、端末装置10Aと一体に構成された再生装置15に代えて、別体の再生装置15を有線または無線により端末装置10Aに接続してもよい。また、再生装置15が表示装置および放音装置の一方のみを含む構成としてもよい。
 図3は、端末装置10Aの制御装置11が実行する処理を例示するフローチャートである。例えば所定の周期で図3の処理が反復的に実行される。図3の処理を開始すると、情報抽出部41は、収音装置14が生成した音響信号Yから音声情報D1と位置情報D2とを抽出する(Sa1)。情報抽出部41は、抽出した音声情報D1と位置情報D2とを、通信装置13から配信装置30に対して送信させる(Sa2)。なお、位置情報D2が所定の周期で反復的に放音装置20から送信される場合、制御装置11は、直近に受信した位置情報D2を記憶装置12に記憶しておいて、当該位置情報D2を配信装置30に対して送信する。再生制御部42は、配信装置30から送信された関連情報Rを再生装置15に再生させる(Sa3)。以上の処理により、放音装置20から放音された案内音声Vの関連情報Rが端末装置10Aの利用者に提供される。
<配信装置30>
 図4は、配信装置30の構成を例示するブロック図である。配信装置30は、端末装置10Aおよび端末装置10Bに通信網70を介して各種の情報を送信するサーバ装置(例えばウェブサーバ)である。各端末装置10Aに対しては、当該端末装置10Aから送信された音声情報D1に対応する関連情報Rが送信される。他方、端末装置10Bに対しては、当該端末装置10Bの利用者に提供するための情報(以下「提供情報」という)Qが送信される。図4に例示される通り、第1実施形態の配信装置30は、制御装置31と記憶装置32と通信装置33とを具備する。なお、配信装置30は、単体の装置で実現されるほか、相互に別体で構成された複数の装置の集合(すなわちサーバシステム)でも実現される。
 通信装置33は、制御装置31(通信制御部51)による制御のもとで通信網70を介して端末装置10Aおよび端末装置10Bと通信する。第1実施形態の通信装置33は、複数の端末装置10Aのそれぞれから音声情報D1および位置情報D2を受信し、当該端末装置10Aに関連情報Rを送信する。また、通信装置33は、端末装置10Bに提供情報Qを送信する。
 制御装置31は、例えばCPU(Central Processing Unit)等の単数または複数のプロセッサを含み、配信装置30の各要素を統括的に制御する。記憶装置32は、制御装置11が実行するプログラムと、制御装置31が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置32として任意に利用される。第1実施形態の記憶装置32は、関連テーブルTaと音声テーブルTbと端末テーブルTcとを記憶する。
 図5は、関連テーブルTaの模式図である。図5に例示される通り、関連テーブルTaは、複数の関連情報Rが登録されたテーブルである。具体的には、複数の音声情報D1の各々について、当該音声情報D1に対応する関連情報Rが登録される。特定の案内音声Vの音声情報D1には、例えば当該案内音声Vの発話内容を表す文字列、または、当該文字列を他言語に翻訳した翻訳文等を表す関連情報Rが対応付けられる。
 図6は、音声テーブルTbの模式図である。図6に例示される通り、音声テーブルTbは、複数の端末装置10Aからそれぞれ送信された複数の音声情報D1が登録されたデータテーブルである。具体的には、各端末装置10Aから受信した音声情報D1と位置情報D2とが対応付けて音声テーブルTbに登録される。複数の放音位置(A,B,C,…)の付近に所在する端末装置10Aから音声情報D1が配信装置30に送信されるから、多様な案内音声Vに対応する音声情報D1が音声テーブルTbに登録される。すなわち、音声テーブルTbは、複数の音声情報D1の集合(ビッグデータ)である。端末テーブルTcは、提供情報Qを送信する対象となる複数の端末装置10B(具体的には端末装置10Bを識別するための情報)が登録されたテーブルである。例えば、特定の放音位置に対応する提供情報を端末装置10Bの利用者が取得したい場合に、当該端末装置10Bに対する利用者からの操作に応じて端末装置10Bが端末テーブルTcに登録される。また、例えば音声情報D1の受信を契機として、端末テーブルTcへの登録要求を配信装置30に対して端末装置10Bが自動的に(すなわち利用者からの指示を必要とせずに)送信してもよい。
 制御装置31は、図4に例示される通り、記憶装置12に記憶されたプログラムを実行することで複数の機能(通信制御部51,記憶制御部52,関連情報取得部53および提供情報生成部54)を実現する。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置31の機能を複数の装置に搭載してもよい。
 通信制御部51は、各種の情報の受信および送信を通信装置33に実行させる。記憶制御部52は、通信装置33が受信した音声情報D1および位置情報D2を記憶装置32(具体的には音声テーブルTb)に記憶させる。関連情報取得部53は、通信装置33が受信した音声情報D1に対応する関連情報Rを取得する。提供情報生成部54は、記憶装置32に記憶された複数の音声情報D1を利用して提供情報Qを生成する。
 図7は、制御装置31が関連情報Rを取得する処理のフローチャートである。図5の処理を開始すると、通信制御部51は、端末装置10Aから送信された音声情報D1と位置情報D2とを通信装置33に受信させる(Sb1)。なお、実際は複数の放音位置の付近に所在する複数の端末装置10Aのそれぞれから音声情報D1と位置情報D2とが送信される。記憶制御部52は、複数の端末装置10Aからそれぞれ受信した複数の音声情報D1を記憶装置32に記憶させる(Sb2)。具体的には、記憶制御部52は、各端末装置10Aから受信した音声情報D1と位置情報D2とを対応付けて音声テーブルTbに登録する。関連情報取得部53は、通信装置33が受信した音声情報D1に対応する関連情報Rを取得する(Sb3)。関連情報Rの取得には、図5の関連テーブルTaが利用される。具体的には、関連情報取得部53は、関連テーブルTaに登録された複数の関連情報Rのうち、通信装置33が受信した音声情報D1に対応付けられた関連情報Rを特定する。通信制御部51は、関連情報取得部53が特定した関連情報Rを端末装置10Aに対して通信装置33から送信させる(Sb4)。以上の処理により、放音装置20から放音された案内音声Vを収音した端末装置10Aに当該案内音声Vの関連情報Rが送信される。
 図8は、制御装置31が提供情報Qを生成する処理のフローチャートである。例えば所定の時間毎に図8の処理が実行される。提供情報生成部54は、図6の音声テーブルTbに登録された複数の音声情報D1を利用して提供情報Qを生成する(Sc1)。通信制御部51は、提供情報生成部54が生成した提供情報Qを、端末テーブルTcに登録された複数の端末装置10Bに対して通信装置33から送信させる(Sc2)。
 以下、配信装置30が生成する提供情報Qについて説明する。以下の説明では、非常事態または緊急事態等の異常事態が発生した場合に生成される提供情報Qを例示する。特定の施設(例えば交通施設)で非常事態の発生による混雑が発生している場合を想定する。例えば、交通施設(例えば駅)における人身事故の発生により電車の遅延が発生し、それにより混雑が発生している場合が例示される。非常事態が発生した施設内の放音装置20の付近に所在する多数の端末装置10Aは、非常事態の発生を知らせる案内音声Vをそれぞれが収音して、当該案内音声Vに対応する音声情報D1と当該放音位置を示す位置情報D2とを配信装置30に送信する。非常事態が発生している施設を表す放音位置を示す位置情報D2と、非常事態の発生を知らせる案内音声Vの音声情報D1とのレコード(組合せ)が、短時間に集中して音声テーブルTbに登録される。したがって、そのレコードの数に応じて混雑の発生を推定し、音声情報D1に応じて混雑の原因を推定することができる。
 以上の事情を前提として、提供情報生成部54は、音声テーブルTbを利用して提供情報Qを生成する。具体的には、提供情報生成部54は、非常事態の発生を知らせる案内音声Vの音声情報D1と、当該非常事態が発生している施設を表す放音位置を示す位置情報D2とのレコードの数(以下「登録数」という)Nを音声テーブルTbから特定し、当該登録数Nが閾値を上回る場合(すなわち施設が非常事態により混雑している場合)に、非常事態の発生を示す提供情報Qを生成する。登録数Nが閾値を上回るレコードの音声情報D1が示す案内音声Vの内容に応じた提供情報Qが生成される。例えば人身事故により駅が混雑していることを示す提供情報Qが生成される。
 また、登録数Nが閾値を上回るレコードの音声情報D1が示す案内音声Vが火災等の非常事態を知らせる内容である場合には、例えば当該レコードの位置情報D2が示す放音位置が表す施設(つまり火災が発生している施設)を示す提供情報Qを生成してもよい。また、位置情報D2が示す放音位置からの避難経路を示す提供情報Qを生成してもよい。例えば、複数の放音位置の各々に対応付けられた避難経路が予め記憶装置32に記憶され、提供情報Qの生成に利用される。以上の説明から理解される通り、端末装置10Aから音声情報D1とともに送信された位置情報D2は、提供情報Qの生成に利用されるための情報である。第1実施形態では、特定の位置(例えば非常事態が発生している施設)を示す位置情報D2に関する提供情報が生成される。
 なお、登録数Nは、例えば所定の期間(以下「参照期間」という)内に端末装置10Aから受信したレコード(音声情報D1および位置情報D2の組合せ)の総数である。例えば、現時点から過去にわたる所定長の参照期間内において配信装置30が端末装置10Aから受信したレコードが記憶装置32に保持される構成では、記憶装置32に記録されたレコードの総数が登録数Nとして計数される。また、配信装置30が音声情報D1および位置情報D2を端末装置10Aから受信した時刻が記憶装置32に記憶される構成では、記憶装置32に記憶された全部のレコードのうち受信時刻が参照期間内に属するレコードの総数が登録数Nとして計数される。
 以上の説明から理解される通り、第1実施形態の提供情報生成部54は、音声テーブルTbに登録された複数の音声情報D1のうち、特定の放音位置(例えば混雑している施設)を示す位置情報D2に対応付けられた2以上の音声情報D1を利用して、提供情報Qを生成する。具体的には、音声テーブルTbに登録された複数の音声情報D1が示す案内音声Vの内容に応じた提供情報Qが生成される。以上の手順で生成された提供情報Qが前述の通り、端末テーブルTcに登録された複数の端末装置10Bに対して送信される。
 端末装置10Bは、配信装置30から送信された提供情報Qを再生する。具体的には、端末装置10Bは、例えば提供情報Qを表す文字列の表示、または、提供情報Qを表す音響の放音により、当該提供情報Qを再生する。
 以上の説明から理解される通り、第1実施形態では、複数の端末装置10Aからそれぞれ受信した複数の音声情報D1が記憶装置32(音声テーブルTb)に記憶されるから、複数の音声情報D1を様々な用途に活用するが可能である。第1実施形態では特に、記憶装置32に記憶された複数の音声情報D1を利用することで生成された提供情報Qが端末装置10Bに送信されるから、複数の端末装置10Aから送信された音声情報D1を提供情報Qの生成に活用することができる。また、第1実施形態では、記憶装置32に記憶された複数の音声情報D1のうち、特定の位置を示す位置情報D2に対応付けられた2以上の音声情報D1から提供情報Qが生成されるから、特定の位置で収音されたと推定される案内音声Vをそれぞれが示す2以上の音声情報D1から提供情報Qを生成することができるという利点がある。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下の各実施形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 第2実施形態の端末装置10Aは、音声情報D1と位置情報D2とに加えて、時刻情報D3を配信装置30に送信する。時刻情報D3は、端末装置10Aが案内音声Vを収音した時刻(典型的には日時)を示す情報である。例えば案内音声Vを収音したときに端末装置10Aに設定されている時刻が時刻情報D3として端末装置10Aにより生成される。なお、情報抽出部41が案内音声Vの音声情報D1を抽出した時刻を時刻情報D3として生成してもよい。音声情報D1と位置情報D2とは、第1実施形態と同様に、放音装置20から送信される。
 配信装置30の通信制御部51は、音声情報D1と位置情報D2と時刻情報D3とを通信装置33に受信させる。記憶制御部52は、端末装置10Aが送信した音声情報D1と位置情報D2と時刻情報D3とを音声テーブルTbに登録する。図9は、第2実施形態に係る音声テーブルTbの模式図である。図9に例示される通り、各端末装置10Aから受信した音声情報D1と位置情報D2と時刻情報D3とを対応付けて、1つのレコードとして登録する。
 第2実施形態の関連情報取得部53は、第1実施形態と同様に、端末装置10Aから送信された音声情報D1から関連情報Rを取得し、当該端末装置10Aに送信する。第2実施形態の提供情報生成部54は、第1実施形態と同様に、記憶装置32に記憶された複数の音声情報D1を利用して提供情報Qを生成する。
 以下、第2実施形態の配信装置30が生成する提供情報Qについて説明する。第2実施形態では、特定の施設の混雑の状況(例えば混雑の原因および混雑の度合)を知らせる提供情報Qを生成する場合を例示する。前述の通り、特定の放音位置の付近に所在する複数の端末装置10Aが各種の案内音声Vをそれぞれが収音して、音声情報D1と位置情報D2と時刻情報D3とが配信装置30に送信される。音声テーブルTbにおいて放音位置(例えば商業施設を表す放音位置)を示す位置情報D2が共通に対応付けられた時刻情報D3のうち、当該商業施設に混雑が発生している時間帯(例えば朝/昼/夜)を表す時刻情報D3は、短時間に集中して登録される。したがって、各時間帯について、特定の商業施設を表す放音位置を示す位置情報D2と時刻情報D3と含むレコードの登録数Nを算定することで、当該商業施設が混雑している時間帯を推定することができる。
 以上の事情を前提として、第2実施形態の提供情報生成部54は、音声テーブルTbに登録された複数の音声情報D1を利用して、商業施設の混雑の状況を知らせる提供情報Qを生成する。例えば、提供情報生成部54は、特定の商業施設を表す放音位置を示す位置情報D2を含むレコードを音声テーブルTbから特定する。つぎに、提供情報生成部54は、特定した複数のレコードを当該レコードの時刻情報D3が示す時刻を利用して時間帯(朝/昼/夜)毎に分類する。分類されたレコードの登録数Nに応じて各時間帯の混雑の度合(例えば高/普通/低)を推定し、推定の結果を表す提供情報Qが生成される。提供情報Qは、複数の時間帯の各々について当該時間帯の混雑の度合を表す。なお、各時間帯の混雑の度合を表す提供情報Qを時間帯毎に個別に生成してもよい。以上の説明から理解される通り、時間帯毎に分類された音声情報D1の数に応じた提供情報Qが生成される。時刻情報D3は、提供情報Qの生成に利用されるための情報である。
 また、時間帯毎に分類された音声情報D1が示す案内音声Vの内容から、時間帯毎の混雑の原因を示す提供情報Qが生成される。例えば各種のイベント(例えばタイムセール等)の発生を報知する案内音声Vを示す音声情報D1を含むレコードの登録数Nが多い場合には、当該イベントが混雑の原因であることを示す提供情報Qが生成される。すなわち、複数の案内音声Vの内容に応じた提供情報Qが生成される。なお、混雑の度合は、時間帯毎の混雑の度合に限定されず、例えば曜日毎や月毎の混雑の度合でもよい。また、音声情報D1を利用せずに、位置情報D2および時刻情報D3から混雑の状況を知らせる提供情報Qを生成してもよい。以上の手順で生成された提供情報Qが前述の通り、端末テーブルTcに登録された複数の端末装置10Bに対して送信される。
 以上の説明から理解される通り、第2実施形態の提供情報生成部54は、音声テーブルTbに登録された複数の音声情報D1のうち、特定の時刻(例えば時間帯)を示す時刻情報D3に対応付けられた2以上の音声情報D1を利用して、提供情報Qを生成する。第2実施形態でも第1実施形態と同様に、記憶装置32に記憶された複数の音声情報D1を様々な用途(例えば提供情報Qの生成)に活用することが可能である。第2実施形態では特に、記憶装置32に記憶された複数の音声情報D1のうち、特定の時刻を示す時刻情報D3に対応付けられた2以上の音声情報D1から提供情報Qが生成されるから、特定の時刻に収音されたと推定される案内音声Vをそれぞれが示す2以上の音声情報D1から提供情報Qを生成できるという利点がある。
 なお、第2実施形態では、端末装置10Aが時刻情報D3を生成したが、配信装置30が時刻情報D3を生成してもよい。例えば端末装置10Aから音声情報D1と位置情報D2とを受信した時刻を示す時刻情報D3が生成され、当該時刻情報D3が端末装置10Aから送信された音声情報D1と位置情報D2とに対応付けて、1つのレコードとして音声テーブルTbに登録する。
<第3実施形態>
 第3実施形態の端末装置10Aは、音声情報D1と位置情報D2とに加えて、言語情報D4を配信装置30に送信する。言語情報D4は、端末装置10Aに設定された言語を示す情報である。言語情報D4を取得する方法は任意であるが、例えば、端末装置10AのOS(Operating System)の言語設定を参照して言語情報D4を生成する構成、または端末装置10Aの利用者が任意に指定した言語を示す言語情報D4を生成する構成でもよい。音声情報D1と位置情報D2とは、第1実施形態と同様に、放音装置20から送信される。
 配信装置30の通信制御部51は、端末装置10Aが送信した音声情報D1と位置情報D2と言語情報D4とを通信装置33に受信させる。記憶制御部52は、通信装置33が受信した音声情報D1と位置情報D2と言語情報D4とを音声テーブルTbに登録する。図10は、第3実施形態に係る音声テーブルTbの模式図である。図10に例示される通り、各端末装置10Aから受信した音声情報D1と位置情報D2と言語情報D4とを対応付けて1つのレコードとして登録する。
 第3実施形態の関連情報取得部53は、第1実施形態と同様に、端末装置10Aから送信された音声情報D1から関連情報Rを取得し、当該端末装置10Aに送信する。第3実施形態の提供情報生成部54は、音声テーブルTbを利用して提供情報Qを生成する。
 以下、第3実施形態の配信装置30が生成する提供情報Qについて説明する。第3実施形態では、特定の放音位置の付近に所在する利用者が使用する言語を示す提供情報Qを生成する場合を例示する。放音位置の付近に特定の言語を使用する利用者(つまり特定の言語が設定された端末装置10A)が多く所在する場合、当該放音位置を示す位置情報D2が共通に対応付けられた言語情報D4が、短時間に集中して音声テーブルTbに登録される。したがって、各言語について、特定の放音位置を示す位置情報D2と言語情報D4とを含むレコードの登録数Nを算定することで、当該放音位置において使用する人数が多い言語を推定することができる。
 以上の事情を前提として、第3実施形態の提供情報生成部54は、音声テーブルTbに登録された複数の音声情報D1を利用して、特定の放音位置において使用する人数が多い言語を示す提供情報Qを生成する。例えば、提供情報生成部54は、特定の放音位置を示す位置情報D2を含むレコードを音声テーブルTbから特定する。次に、提供情報生成部54は、特定した複数のレコードを当該レコードの言語情報D4が示す言語を利用して言語毎に分類することで、提供情報Qを生成する。例えば、分類されたレコードの登録数Nに応じて、当該レコードの位置情報D2が示す放音位置において各言語を使用する人数を推定し、推定した人数が最も多い言語を示す提供情報Qが生成される。すなわち、特定の放音位置で最も使用されていると推定される言語を示す提供情報Qが生成される。第3実施形態では、複数の言語のうち分類された音声情報D1の数が最大である言語が、特定の放音位置で最も使用されていると推定される。言語情報D4は、提供情報Qの生成に利用される情報である。なお、分類されたレコードの数が降順で上位に位置する複数の言語を示す提供情報Qを生成してもよい。
 第3実施形態では、交通機関に設置された電光掲示板、または商業施設に設置される電子看板(デジタルサイネージ)等の案内用の表示端末を端末装置10Bとして例示する。配信装置30は、端末テーブルTcに登録された複数の端末装置10Bのうち、提供情報Qの生成に利用された言語情報D4に対応する位置情報D2が示す放音位置(すなわち提供情報Qが示す言語を使用する利用者が多く所在する放音位置)の付近に位置する端末装置10Bに、当該提供情報Qを送信する。端末装置10Bは、例えば配信装置30から送信された提供情報Qが示す言語により、各種の情報を表示する。すなわち、放音位置20の付近において使用する人数が多い言語により情報が表示される。
 なお、第3実施形態では、端末装置10Aが言語情報D4を生成したが、放音装置20が音声情報D1と位置情報D2とともに言語情報D4を端末装置10Aに送信してもよい。例えば、案内音声Vの言語を示す情報が言語情報D4として端末装置10Aに送信される。端末装置10Aは、放音装置20から送信された言語情報D4を配信装置30に送信する。また、以上の構成では、放音装置20からどの言語の案内音声Vが放音されているのかという情報収集が可能になる。
 以上の説明から理解される通り、第3実施形態の提供情報生成部54は、音声テーブルTbに登録された複数の音声情報D1のうち、特定の言語を示す言語情報D4に対応付けられた2以上の音声情報D1を利用して、提供情報Qを生成する。第3実施形態でも第1実施形態と同様に、記憶装置32に記憶された複数の音声情報D1を様々な用途(例えば提供情報Qの生成)に活用するが可能である。第3実施形態では特に、各端末装置10Aから受信した音声情報D1と言語情報D4と対応付けて記憶装置32に記憶されるから、言語情報D4を様々な用途に活用することができる。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、記憶装置32(音声テーブルTb)に記憶された複数の音声情報D1を利用して提供情報Qを生成したが、記憶装置32に記憶された複数の音声情報D1は、提供情報Qの生成以外の様々な用途に活用される。例えば、記憶装置32に記憶された複数の音声情報D1またはその内容を統計的に分析することで、各種の事業(例えばマーケティング)に活用してもよい。なお、記憶装置32に記憶された音声情報D1以外の情報(例えば位置情報D2、時刻情報D3および言語情報D4のうち少なくとも1つ)を分析に利用してもよい。また、音声テーブルTbを検索可能なデータベースとして提供してもよい。以上の説明から理解される通り、提供情報Qの生成は省略される。
(2)前述の各形態では、放音装置20が案内音声Vを放音したが、放音装置20が放音する音声は案内音声Vに限定されない。すなわち、端末装置10Aが収音する音声は案内音声V以外の音声でもよい。例えば、楽音(楽曲の演奏音)または警報音等の音声を端末装置10Aが収音し、当該音声を示す音声情報D1を生成してもよい。案内音声Vは、音声の一例である。
(3)前述の各形態では、案内音声Vを識別する識別子を音声情報D1として例示したが、音声情報D1は以上の例示に限定されない。例えば案内音声Vの発話内容を表す文字列を音声情報D1としてもよい。端末装置10Aの情報抽出部41は、Y案内音声Vの収音により収音装置14が生成した音響信号Yから音声情報D1を生成する。具体的には、音響信号Yに対する音声認識により、案内音声Vの発話内容を表す文字列を音声情報D1として特定する。音響信号Yに対する音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に利用される。端末装置10Aは、音声認識により生成した音声情報D1を配信装置30に送信し、当該音声情報D1(すなわち案内音声Vの発話内容を表す文字列)に対応する関連情報Rを配信装置30から受信する。端末装置10Aが音声認識により音声情報D1を生成する構成では、放音装置20が当該端末装置10Aに対して音声情報D1を送信することは不要である。すなわち、放音装置20による音声情報D1の送信は省略される。以上の説明から理解される通り、音声情報D1は、放音装置20が端末装置10Aに送信してもよいし、放音装置20から放音された案内音声Vの収音により端末装置10Aが生成してもよい。
 また、音声情報D1は、情報の所在を表す情報(例えばURL)でもよい。以上の例示から理解される通り、音声情報D1は、端末装置が収音した音声を示す情報として包括的に表現される。同様に、位置情報D2も放音位置を識別する識別子に限定されない。例えば、放音位置を示す文字列(例えば施設の名称)、または、放音位置を示すコンテンツの所在を表す情報(例えばURL)を位置情報D2として放音装置20が端末装置10Aに送信してもよい。
(4)前述の各形態で例示した位置情報D2と時刻情報D3とは、端末装置10Aによる収音の状況を示す状況情報として包括的に表現される。つまり、案内音声Vが収音された位置と、案内音声Vが収音された時刻とが収音の状況として例示される。なお、状況情報は、位置情報D2および時刻情報D3に限定されない。例えば、端末装置10Aにより撮像された画像、測位用の衛星(例えばGPS衛星)を利用して取得した位置、移動速度、アプリケーションの使用状況、ウェブブラウザによる閲覧履歴、プッシュ通知された情報、等の案内音声Vの収音時に端末装置10Aにより生成または取得される情報であれば、状況情報は任意である。
(5)第1実施形態と第2実施形態では、端末装置10Aが音声情報D1と状況情報とを配信装置30に送信し、第3実施形態では、端末装置10Aが音声情報D1と状況情報と言語情報D4とを配信装置30に送信したが、端末装置10Aが音声情報D1以外の情報を送信することは省略してもよい。
 また、端末装置10Aが音声情報D1に付加して送信する情報は、状況情報および言語情報D4に限定されない。例えば、非常事態(例えば火災)の発生を知らせる案内音声Vを収音する端末装置10Aは、案内音声V以外の音(例えばサイレン等)も案内音声Vとともに収音してもよい。以上の状況では、端末装置10Aが案内音声Vとともに収音した音の分類を示す情報(以下「分類情報」という)を音声情報D1に付加して配信装置30に送信してもよい。例えば、非常事態を知らせるサイレンを示す分類情報、または、爆発音および衝撃音等の異常音を示す分類情報が例示される。分類情報の生成には、公知の技術が任意に利用される。例えば音響信号Yの解析により分類情報が生成される。端末装置10Aは、音声情報D1と分類情報とを配信装置30に送信し、配信装置30(記憶制御部52)は、受信した音声情報D1と分類情報とを対応付けて記憶装置32に記憶させる。なお、案内音声V以外の音が含まれる音響信号Yを端末装置10Aが音声情報D1に付加して配信装置30に送信し、配信装置30が当該音響信号Yの解析により分類情報を生成してもよい。また、端末装置10Aが収音した案内音声Vの放音元である放音装置20に関する情報(例えば識別情報)を音声情報D1に付加して端末装置10Aから送信してもよい。
(6)第1実施形態および第2実施形態では、提供情報Qの生成に複数の音声情報D1を利用したが、複数の音声情報D1を利用せずに提供情報Qを生成してもよい。例えば状況情報のみを利用して提供情報Qを生成してもよい。例えば、音声テーブルTbに登録されている各放音位置を示す位置情報D2の数に応じて、当該放音位置毎に混雑の度合を示す提供情報Qを生成してもよい。
(7)音声情報D1を受信できるのはその案内音声Vを収音可能な特定の放音位置に制限されるから、音声情報D1は放音位置を示す情報とも表現できる。したがって、前述の各形態で例示した提供情報Qの生成において、複数の端末装置10Aから送信された位置情報D2を利用することは必須ではない。つまり、放音装置20による位置情報D2の送信は省略される。
 また、端末装置10Aは、測位用の衛星(例えばGPS衛星)からの電波を受信することで端末装置10Aの正確な位置情報D2を取得し、当該位置情報D2を音声情報D1に付加して送信してもよい。なお、衛星電波から特定される位置情報D2と、放音装置20から音響通信で受信した位置情報D2との双方を、音声テーブルTbに登録してもよい。衛星電波から特定される位置情報D2は、端末装置10Aの絶対的な位置を示すのに対し、音響通信で受信した位置情報D2は放音位置を示すという意味的な相違がある。例えば、端末装置10Aが電車等の移動体の内部に所在する場合を想定すると、衛星電波から特定される位置情報D2が示す絶対位置は移動体の移動に連動して変化するが、音響通信で受信した位置情報D2が示す放音位置は変化しない。
 また、端末装置10Aが接続する通信網70を管理する電気通信事業者が生成する高精度な位置情報D2(以下「高精度位置情報D2」という)を提供情報Qの生成に利用してもよい。例えば音声情報D1に付加された時刻情報D3が示す時刻に端末装置10Aが所在する位置に対応した高精度位置情報D2が、当該音声情報D1に対応付けて音声テーブルTbに登録される。以上の構成では、電気通信事業者が生成する高精度位置情報D2を複数の音声情報D1の活用に利用することができる。以上の説明から理解される通り、前述の各形態において、配信装置30に対する位置情報D2の送信は省略される。なお、高精度位置情報D2と音声テーブルTbとの対応関係に応じて提供情報Qを生成してもよい。例えば、高精度位置情報D2が示す多数の端末装置10Aの移動傾向を加味して、音声テーブルTbから提供情報Qを生成してもよい。
(8)前述の各形態では、複数の音声情報D1を利用して提供情報Qを生成したが、提供情報Qの生成において複数の音声情報D1を利用することは必須ではない。すなわち、1個の音声情報D1を利用して提供情報Qを生成してもよい。例えば非常事態を知らせる案内音声Vの音声情報D1が端末装置10Aから配信装置30に送信された場合、当該音声情報D1を利用して非常事態を知らせる提供情報Qを生成してもよい。以上の構成では、配信装置30は、当該音声情報D1を利用して生成した提供情報Qを端末装置10Bに送信する要素として機能する。端末装置10Aと端末装置10Bとの異同は不問である。
(9)前述の各形態では、配信装置30は端末装置10Aに関連情報Rを送信したが、関連情報Rを端末装置10Aに送信することは省略してもよい。すなわち、端末装置10Aは音声情報D1を収集して配信装置30に送信するための情報端末として利用される。
(10)前述の各形態では、端末テーブルTcに登録される端末装置10Bに対して提供情報Qを送信したが、情報提供システム100における複数の端末装置10Aのうちの少なくとも1つの端末装置10Aに対して提供情報Qを送信してもよい。また、放音装置20が設置された施設Pの事業者に情報提供Qを提供してもよい。例えば、提供情報生成部54は、特定の案内音声V(例えば施設Pで放音されている案内音声V)を示す音声情報D1の増加傾向を知らせる提供情報Qを生成する。例えば、音声テーブルTbに登録された複数の音声情報D1のうち、施設Pを示す位置情報D2に対応する音声情報D1が短時間で増加傾向にある場合(例えば登録数が所定の閾値を上回る場合)に、提供情報Qが生成される。例えば、特定の案内音声Vを示す音声情報D1の登録数が増加したことを知らせる提供情報Q、または、当該音声情報D1の登録数を知らせる提供情報Qが生成される。生成された提供情報Qが施設Pの事業者の情報端末に送信される。事業者の情報端末は、例えば放音装置20を制御するための制御装置である。情報端末は、配信装置30から受信した提供情報Qが示す音声情報D1の増加傾向から、施設Pの混雑の状況(例えば混雑の度合)を推定する。次に、情報端末は、推定した混雑の状況から、施設Pの利用者を混雑の度合が低い場所に誘導するための案内音声Vを、所定のタイミングで放音装置20に放音させる。
(11)前述の各形態では、各端末装置10Aが関連情報Rの取得のために送信した音声情報D1を記憶装置32(音声テーブルTb)に記憶したが、端末装置10Aは関連情報Rの取得のために送信した音声情報D1とは異なるタイミングで送信された当該音声情報D1を記憶装置32に記憶してもよい。端末装置10Aは、案内音声Vを収音すると関連情報Rの取得のために音声情報D1を配信装置30に送信する。その後、端末装置10Aは、記憶装置32(音声テーブルTb)に記憶するための音声情報D1(および他の情報)を配信装置30に送信する。例えば、予め設定された時刻に複数の音声情報D1をまとめて送信してもよい。
(12)前述の各形態では、各端末装置10Aから送信された音声情報D1を配信装置30(音声テーブルTb)に記憶したが、配信装置30とは別体の情報処理装置に音声テーブルTb(音声情報D1)を記憶してもよい。各端末装置10Aは、配信装置30と情報処理装置とのそれぞれに音声情報D1を送信する。配信装置30は、関連テーブルTaを記憶し、音声情報D1に対応した関連情報Rを端末装置10Aに送信する。他方、情報処理装置の記憶装置は、各端末装置10Aから受信した複数の音声情報D1を含む音声テーブルTbを記憶する。提供情報Qは、情報処理装置から端末装置10Bに送信される。以上の構成では、音声情報D1を情報処理装置に送信するタイミングは任意である。例えば、配信装置30に対する音声情報D1の送信と同時でもよいし、予め設定された時刻に複数の音声情報D1をまとめて送信してもよい。なお、音声情報D1と、音声情報D1以外の情報(例えば状況情報または言語情報D4)とを情報処理装置に送信してもよい。
(13)前述の各形態では、関連情報取得部53は、関連テーブルTaから音声情報D1に対応する関連情報Rを取得したが、関連情報取得部53が関連情報Rを生成してもよい。例えば、案内音声Vの発話内容を表す文字列を示す音声情報D1から、当該文字列に応じた関連情報Rが生成される。すなわち、関連テーブルTaを記憶装置32に記憶しておくことは必須ではない。
(14)前述の各形態では、端末装置10Aが配信装置30に音声情報D1を送信したが、音声情報D1の送信元は端末装置10Aに限定されない。例えば、放音装置20が配信装置30に音声情報D1を送信してもよい。放音装置20は、案内音声Vと音声情報D1の音響との放音とともに、当該音声情報D1を配信装置30に送信する。案内音声Vの放音に並行または前後して、音声情報D1が配信装置30に送信される。なお、複数の施設Pの各々に設置される放音装置20から配信装置30に音声情報D1が送信される。配信装置30は、各放音装置20から受信した音声情報D1を記憶装置32に記憶する。また、例えば施設P内で管理される機器が、配信装置20に代わり、当該放音装置20が放音する案内音声Vの音声情報D1を配信装置30に送信してもよい。
(15)前述の各形態で例示した音声テーブルTbは、データ構造としても特定される。すなわち、音声テーブルTbは、放音装置20から放音されて端末装置10Aが収音した音声の内容をそれぞれが示す複数の音声情報D1を含むデータ構造であって、配信装置30(情報処理装置の一例)がデータ構造に含まれる複数の音声情報D1を利用して提供情報Qを生成する処理に利用される。
(16)端末装置10Aの制御装置11を情報抽出部41および再生制御部42として機能させるプログラムは、単体のアプリケーションソフトウェアのほか、例えば端末装置10Aにおいて使用される各種のアプリケーションソフトウェア(例えばブラウザ)に対するプラグインソフトウェアとして提供してもよい。
(17)前述の各形態に係る配信装置30または端末装置10(10Aおよび10B)の機能は、各形態での例示の通り、制御装置31とプログラムとの協働により実現される。前述の各形態に係るプログラムを、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールしてもよい。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本発明の好適な態様(第1態様)に係る情報処理方法は、複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信し、前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する。以上の態様では、複数の端末装置からそれぞれ受信した複数の音声情報が記憶装置に記憶されるから、複数の音声情報を様々な用途に活用することができる。
 第1態様の好適例(第2態様)では、前記記憶装置に記憶された前記複数の音声情報を利用して提供情報を生成し、前記提供情報を端末装置に送信する。以上の態様では、記憶装置に記憶された複数の音声情報を利用することで生成された提供情報が端末装置に送信されるから、複数の端末装置から送信された音声情報を提供情報の生成に活用することができる。
 第1態様または第2態様の好適例(第3態様)では、前記提供情報の送信では、前記複数の端末装置のうち少なくとも1つの端末装置に当該提供情報を送信する。以上の態様では、音声情報の送信元である端末装置に提供情報が送信される。
 第3態様の好適例(第4態様)では、前記提供情報は、前記複数の音声情報が示す音声の内容に応じた情報である。以上の態様では、複数の端末装置が収音した音声の内容に応じた提供情報を生成することができる。
 第2態様から第4態様の何れかの好適例(第5態様)では、前記端末装置による前記収音の状況を示す状況情報を当該端末装置から受信し、各端末装置から受信した前記音声情報と前記状況情報とを対応付けて前記記憶装置に記憶し、前記記憶装置に記憶された前記複数の音声情報のうち、特定の状況を示す前記状況情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の状況を示す状況情報に対応付けられた2以上の音声情報から提供情報が生成されるから、特定の状況下で収音されたと推定される音声をそれぞれが示す2以上の音声情報から提供情報を生成することが可能である。
 第5態様の好適例(第6態様)では、前記状況情報は、前記音声を収音したときの端末装置の位置を前記状況として示す位置情報を含み、前記記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた2以上の音声情報から提供情報が生成されるから、特定の位置で収音されたと推定される音声をそれぞれが示す2以上の音声情報から提供情報を生成することが可能である。
 第6態様の好適例(第7態様)では、前記特定の位置を示す位置情報に対応付けられた前記音声情報の数が閾値を上回る場合に、前記特定の位置に関する前記提供情報を生成する。特定の位置を示す位置情報に対応付けられた前記音声情報の数が閾値を上回る場合は、当該位置における端末装置の利用者が多いと推定できる。したがって、所在する利用者が多い位置に関する提供情報を生成することができる。
 第5態様から第7態様の何れかの好適例(第8態様)では、前記状況情報は、前記音声が収音された時刻を前記状況として示す時刻情報を含み、前記記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する。以上の態様では、記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた2以上の音声情報から提供情報が生成されるから、特定の時刻に収音されたと推定される音声をそれぞれが示す2以上の音声情報から提供情報を生成することが可能である。
 第8態様の好適例(第9態様)では、前記音声情報に対応付けられた時刻情報を利用して、前記複数の音声情報を複数の時間帯に分類し、前記時間帯毎に分類された前記音声情報の数に応じた前記提供情報を生成する。例えば、時間帯毎に分類された音声情報の数に応じて、放音装置の付近に所在する利用者の人数を当該時間帯毎に推定することができる。したがって、例えば時間帯毎の混雑状況を示す提供情報を生成することが可能になる。
 第1態様から第9態様の何れかの好適例(第10態様)では、前記端末装置に設定された言語を示す言語情報を当該端末装置から受信し、各端末装置から受信した前記音声情報と前記言語情報とを対応付けて前記記憶装置に記憶する。以上の態様では、各端末装置から受信した言語情報と音声情報と対応付けて記憶装置に記憶されるから、案内音声を収音した端末装置に設定されている言語を示す言語情報を様々な用途に活用することができる。
 第10態様の好適例(第11態様)では、前記音声情報に対応付けられた言語情報を利用して、前記複数の音声情報を複数の言語に分類し、前記複数の言語のうち、分類された音声情報の数が最大である言語を示す前記提供情報を生成する。複数の言語のうち分類された音声情報の数が最大である言語は、放音装置の付近で最も使用されている言語であると推定できる。したがって、当該放音装置の付近で最も使用されている言語を示す提供情報を生成することができる。
 第1態様から第10態様の何れかの好適例(第12態様)では、前記音声情報の受信においては、前記放音装置から放音される音声の収音により生成された音響信号から前記端末装置が生成した前記音声情報を受信する。以上の態様では、放音装置から放音される音声の収音により端末装置が音声情報を生成するから、放音装置が音声情報を端末装置に送信する構成と比較して、放音装置の構成が簡素化される。
 本発明の好適な態様(第13態様)に係る情報処理装置は、放音装置から放音されて端末装置が収音した音声を示す音声情報を当該端末装置から受信する動作を通信装置に実行させる通信制御部と、複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部とを具備する。以上の態様では、複数の端末装置からそれぞれ受信した複数の音声情報が記憶装置に記憶されるから、複数の音声情報を様々な用途に活用することができる。
 本発明の好適な態様(第14態様)に係るプログラムは、1または複数のプロセッサを、放音装置から放音されて端末装置が収音した音声を示す音声情報を当該端末装置から受信する動作を通信装置に実行させる通信制御部、および、複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部として機能させる。以上の態様では、複数の端末装置からそれぞれ受信した複数の音声情報が記憶装置に記憶されるから、複数の音声情報を様々な用途に活用することができる。
 本発明の好適な態様(第15態様)に係るデータ構造は、放音装置から放音されて端末装置が収音した音声の内容をそれぞれが示す複数の音声情報を含むデータ構造であって、情報処理装置が前記複数の音声情報を利用して提供情報を生成する処理に利用される。以上の態様では、データ構造に含まれる複数の音声情報が提供情報の生成に利用されるから、複数の端末装置から送信された音声情報を提供情報の生成に活用することができる。
100…情報提供システム、10…端末装置、20…放音装置、30…配信装置、11…制御装置、12…記憶装置、13…通信装置、14…収音装置、15…再生装置、31…制御装置、32…記憶装置、33…通信装置、41…情報抽出部、42…再生制御部、51…通信制御部、52…記憶制御部、53…関連情報取得部、54…提供情報生成部、70…通信網。

Claims (14)

  1.  複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信し、
     前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶する
     コンピュータにより実現される情報処理方法。
  2.  前記記憶装置に記憶された前記複数の音声情報を利用して提供情報を生成し、
     前記提供情報を端末装置に送信する
     請求項1の情報処理方法。
  3.  前記提供情報の送信では、前記複数の端末装置のうち少なくとも1つの端末装置に当該提供情報を送信する
     請求項2の情報処理方法。
  4.  前記提供情報は、前記複数の音声情報が示す音声の内容に応じた情報である
     請求項2または請求項3の情報処理方法。
  5.  前記端末装置による前記音声の収音の状況を示す状況情報を当該端末装置から受信し、
     前記各端末装置から受信した前記音声情報と前記状況情報とを対応付けて前記記憶装置に記憶し、
     前記記憶装置に記憶された前記複数の音声情報のうち、特定の状況を示す前記状況情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する
     請求項2から請求項4の何れかの情報処理方法。
  6.  前記状況情報は、前記音声を収音したときの端末装置の位置を前記状況として示す位置情報を含み、
     前記記憶装置に記憶された複数の音声情報のうち、特定の位置を示す位置情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する
     請求項5の情報処理方法。
  7.  前記特定の位置を示す位置情報に対応付けられた前記音声情報の数が閾値を上回る場合に、前記特定の位置に関する前記提供情報を生成する
     請求項6の情報処理方法。
  8.  前記状況情報は、前記音声が収音された時刻を前記状況として示す時刻情報を含み、
     前記記憶装置に記憶された複数の音声情報のうち、特定の時刻を示す時刻情報に対応付けられた2以上の音声情報を利用して、前記提供情報を生成する
     請求項5から請求項7の何れかの情報処理方法。
  9.  前記音声情報に対応付けられた時刻情報を利用して、前記複数の音声情報を複数の時間帯に分類し、
     前記時間帯毎に分類された前記音声情報の数に応じた前記提供情報を生成する
     請求項8の情報処理方法。
  10.  前記端末装置に設定された言語を示す言語情報を当該端末装置から受信し、
     前記各端末装置から受信した前記音声情報と前記言語情報とを対応付けて前記記憶装置に記憶する
     請求項1から請求項9の何れかの情報処理方法。
  11.  前記音声情報に対応付けられた言語情報を利用して、前記複数の音声情報を複数の言語に分類し、
     前記複数の言語のうち、分類された音声情報の数が最大である言語を示す前記提供情報を生成する
     請求項10の情報処理方法。
  12.  前記音声情報の受信においては、前記放音装置から放音される音声の収音により生成された音響信号から前記端末装置が生成した前記音声情報を受信する
     請求項1から請求項11の何れかの情報処理方法。
  13.  複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信する動作を通信装置に実行させる通信制御部と、
     前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部と
     を具備する情報処理装置。
  14.  1または複数のプロセッサを、
     複数の端末装置の各々から、放音装置から放音されて当該端末装置が収音した音声を示す音声情報を受信する動作を通信装置に実行させる通信制御部、および、
     前記複数の端末装置からそれぞれ受信した複数の音声情報を記憶装置に記憶させる記憶制御部
     として機能させるプログラム。
PCT/JP2019/006326 2018-03-01 2019-02-20 情報処理方法、情報処理装置およびプログラム WO2019167756A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980013225.1A CN111727598B (zh) 2018-03-01 2019-02-20 信息处理方法、信息处理装置及程序
EP19761147.8A EP3761623A4 (en) 2018-03-01 2019-02-20 INFORMATION PROCESSING PROCESS, INFORMATION PROCESSING DEVICE, AND PROGRAM
US16/989,159 US20200372920A1 (en) 2018-03-01 2020-08-10 Information processing method, information processing apparatus, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018036863A JP6600374B2 (ja) 2018-03-01 2018-03-01 情報処理方法、情報処理装置およびプログラム
JP2018-036863 2018-03-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/989,159 Continuation US20200372920A1 (en) 2018-03-01 2020-08-10 Information processing method, information processing apparatus, and recording medium

Publications (1)

Publication Number Publication Date
WO2019167756A1 true WO2019167756A1 (ja) 2019-09-06

Family

ID=67806269

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/006326 WO2019167756A1 (ja) 2018-03-01 2019-02-20 情報処理方法、情報処理装置およびプログラム

Country Status (5)

Country Link
US (1) US20200372920A1 (ja)
EP (1) EP3761623A4 (ja)
JP (1) JP6600374B2 (ja)
CN (1) CN111727598B (ja)
WO (1) WO2019167756A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7490982B2 (ja) 2020-03-02 2024-05-28 ヤマハ株式会社 端末装置およびプログラム
JP7444742B2 (ja) 2020-09-11 2024-03-06 Toa株式会社 情報提供システム及び情報提供方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191385A (ja) * 2013-03-26 2014-10-06 Aoi Pro Inc 情報処理装置
JP2016153906A (ja) 2014-07-29 2016-08-25 ヤマハ株式会社 端末装置
JP2018022158A (ja) * 2016-01-26 2018-02-08 ヤマハ株式会社 端末装置およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6831556B1 (en) * 2001-05-16 2004-12-14 Digital Safety Technologies, Inc. Composite mobile digital information system
US7873347B2 (en) * 2003-06-19 2011-01-18 Redknee Inc. Method for implementing a Wireless Local Area Network (WLAN) gateway system
US7675423B2 (en) * 2004-09-03 2010-03-09 Procon, Inc. Mass occupant emergency notification system using satellite radio downlink
JP4736511B2 (ja) * 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
JP4952396B2 (ja) * 2007-06-26 2012-06-13 ヤマハ株式会社 スピーカアレイ装置、マイクアレイ装置および信号処理方法
KR101142344B1 (ko) * 2010-01-25 2012-06-13 티더블유모바일 주식회사 모바일폰을 이용한 지능형 위급신호 전송시스템 및 그 방법
US9940508B2 (en) * 2010-08-26 2018-04-10 Blast Motion Inc. Event detection, confirmation and publication system that integrates sensor data and social media
US9503873B1 (en) * 2013-05-14 2016-11-22 Marshalla Yadav Real-time, crowd-sourced, geo-location based system for enhancing personal safety
US9332401B2 (en) * 2013-08-23 2016-05-03 International Business Machines Corporation Providing dynamically-translated public address system announcements to mobile devices
US9472091B2 (en) * 2013-10-21 2016-10-18 Time Warner Cable Enterprises Llc Systems and methods for providing emergency alerts
CN103853703B (zh) * 2014-02-19 2018-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
JP5871088B1 (ja) * 2014-07-29 2016-03-01 ヤマハ株式会社 端末装置、情報提供システム、情報提供方法およびプログラム
JP6596903B2 (ja) * 2015-04-22 2019-10-30 ヤマハ株式会社 情報提供システムおよび情報提供方法
US10339933B2 (en) * 2016-05-11 2019-07-02 International Business Machines Corporation Visualization of audio announcements using augmented reality

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191385A (ja) * 2013-03-26 2014-10-06 Aoi Pro Inc 情報処理装置
JP2016153906A (ja) 2014-07-29 2016-08-25 ヤマハ株式会社 端末装置
JP2018022158A (ja) * 2016-01-26 2018-02-08 ヤマハ株式会社 端末装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3761623A4

Also Published As

Publication number Publication date
EP3761623A4 (en) 2021-12-01
EP3761623A1 (en) 2021-01-06
CN111727598B (zh) 2021-08-27
JP6600374B2 (ja) 2019-10-30
JP2019152720A (ja) 2019-09-12
CN111727598A (zh) 2020-09-29
US20200372920A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
US10553217B2 (en) Visualization of audio announcements using augmented reality
AU2015297648B2 (en) Terminal device, information providing system, information presentation method, and information providing method
KR101942678B1 (ko) 정보 관리 시스템 및 정보 관리 방법
JP2016153905A (ja) 情報管理システム
WO2019167756A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP2016173413A (ja) 情報提供システム
JP7074116B2 (ja) 情報処理方法および情報処理装置
WO2019159679A1 (ja) 再生制御方法、端末装置およびプログラム
JP6686306B2 (ja) 情報提供装置および情報提供方法
JP7159674B2 (ja) 情報処理装置および情報処理方法
WO2017212981A1 (ja) 情報処理装置、情報提供方法、およびプログラム
CN112889298B (zh) 信息提供方法、信息提供系统、以及记录介质
US20170352269A1 (en) Information provision device, terminal device, information provision system, and information provision method
JP7192948B2 (ja) 情報提供方法、情報提供システムおよびプログラム
JP2018125646A (ja) 情報提供方法および情報送信装置
JP7210939B2 (ja) 情報提供方法、端末装置の動作方法、配信システムおよびプログラム
JP2021015619A (ja) 情報提供方法、情報提供システムおよびプログラム
WO2017179461A1 (ja) 情報生成システム、情報提供方法および情報配信方法
JP2017037656A (ja) 情報提供システム
JP2021073508A (ja) 情報提供方法および情報提供システム
JP2020060706A (ja) 情報取得装置および情報取得方法
WO2017130794A1 (ja) 情報処理装置、情報処理方法、情報管理装置および情報管理方法
JP2018132634A (ja) 情報提供装置および情報提供システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19761147

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019761147

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019761147

Country of ref document: EP

Effective date: 20201001