WO2021161834A1 - レコーダ、情報処理装置、情報処理システム、および、情報処理方法 - Google Patents

レコーダ、情報処理装置、情報処理システム、および、情報処理方法 Download PDF

Info

Publication number
WO2021161834A1
WO2021161834A1 PCT/JP2021/003498 JP2021003498W WO2021161834A1 WO 2021161834 A1 WO2021161834 A1 WO 2021161834A1 JP 2021003498 W JP2021003498 W JP 2021003498W WO 2021161834 A1 WO2021161834 A1 WO 2021161834A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sound data
recorder
storage device
character
Prior art date
Application number
PCT/JP2021/003498
Other languages
English (en)
French (fr)
Inventor
善久 橋本
秀之 春日
優一 林
Original Assignee
株式会社時空テクノロジーズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020020628A external-priority patent/JP6736116B1/ja
Priority claimed from JP2020103824A external-priority patent/JP6770769B1/ja
Priority claimed from JP2020155497A external-priority patent/JP7048113B2/ja
Application filed by 株式会社時空テクノロジーズ filed Critical 株式会社時空テクノロジーズ
Publication of WO2021161834A1 publication Critical patent/WO2021161834A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • An IC (Integrated Circuit) recorder converts an analog signal from a microphone into analog / digital to generate digital sound data, and stores the sound data in a storage medium.
  • the IC recorder may compress the generated sound data.
  • the IC recorder is used, for example, for making minutes of a meeting or recording a meeting.
  • the recorder of this embodiment includes a plurality of connectors, an analog / digital converter, a controller, and a storage device.
  • the controller can be connected to multiple microphones.
  • the analog-to-digital converter converts a plurality of analog signals received from each of the plurality of connectors into digital signals.
  • the controller generates sound data based on the digital signal.
  • the storage device stores the sound data generated by the controller.
  • the controller receives analysis information including the levels of a plurality of analog signals from the analog-to-digital converter, and transmits a control command for adjusting the levels of the plurality of analog signals based on the analysis information to the analog-to-digital converter. ..
  • a plurality of microphones M1 to Mn can be attached to and detached from each of the plurality of connectors C1 to Cn. Further, the plurality of connectors C1 to Cn are connected to the ADC4.
  • the operating device 2 accepts operations by the user.
  • the operating device 2 receives, for example, an instruction from the user, and transmits the instruction to, for example, the processor 6 of the controller 5.
  • the operating device 2 is, for example, a button, a touch panel, or the like.
  • the operating device 2 periodically receives a mode inquiry from the processor 6 of the controller 5, and returns the mode specified by the user in response to the inquiry to the processor 6. Alternatively, when the operating device 2 receives the mode designation from the user, the operating device 2 notifies the processor 6 of the mode designated by the user.
  • the first mode is a non-standard mode (for example, one-shot voice mode), which is used for inputting sounds such as titles, headings, summaries, memos, management information, contents of bibliographic items, explanations, and notes.
  • non-standard mode for example, one-shot voice mode
  • the ADC 4 performs analog / digital conversion on at least one received analog signal, and transmits the digital signal to the controller 5.
  • the ADC4 receives a plurality of analog signals from a plurality of microphones M1 to Mn via a plurality of connectors C1 to Cn, the ADC4 generates (for example, synthesizes) one digital signal based on the plurality of analog signals.
  • the generated digital signal is transmitted to, for example, the processor 6 of the controller 5.
  • the ADC 4 may execute data compression on the digital signal or analysis information 9 transmitted to the processor 6 of the controller 5, for example.
  • the metadata 13, sound data 14, analysis data 15, character data 16, translation data 17, and speaker recognition data 18 stored in the storage device 7 will be specifically described later with reference to FIG.
  • the processor 6 executes, for example, the control unit 21, the data generation unit 22, the determination unit 23, the transmission control unit 24, the reception control unit 25, and the display data generation by executing the OS 11 and the software 12 stored in the storage device 7. It functions as a unit 26 and a display control unit 27.
  • the transmission control unit 24 streams the metadata 13, the sound data 14, or the analysis data 15 to, for example, the first server 19 or the second server 20 via the communication device 8. You may send it.
  • the transmission control unit 24, for example, sends the metadata 13 to the first server 19 or the second server 20 via the communication device 8 at intervals (for example, at a predetermined amount of data or at a predetermined time) instead of streaming.
  • Sound data 14, or analysis data 15 may be transmitted together.
  • the transmission control unit 24 transmits metadata 13, sound data 14, or analysis data 15 to the first server 19 or the second server 20 by streaming for a predetermined period from the start of data transmission, and determines the data. After the elapse of the period, the metadata 13, the sound data 14, or the analysis data 15 may be transmitted to the first server 19 or the second server 20 at intervals instead of streaming.
  • the display data generation unit 26 reads out the character data 16, the translation data 17, and the speaker recognition data 18 stored in the storage device 7, and generates display data corresponding to the user's instruction.
  • FIG. 2 is a block diagram showing an example of data configuration according to the first embodiment.
  • the metadata 13 includes various metadata related to various data such as sound data 14, analysis data 15, character data 16, translation data 17, speaker recognition data 18, and the like.
  • each of the various data includes a plurality of data segments.
  • the metadata 13 is various attribute information attached to the sound data 14, the analysis data 15, the character data 16, the translation data 17, and the speaker recognition data 18, and for example, the recorder 1 is used.
  • the analysis data 15 is data generated based on the analysis information 9 received from the ADC 4.
  • the analysis data 15 includes a plurality of analysis segments AS1 to ASm.
  • Each of the plurality of analysis segments AS1 to ASm includes metadata AM1 to AMm and data bodies AD1 to ADm.
  • the metadata AM1 to AMm included in the analysis segments AS1 to ASm are various types of metadata related to the data bodies AD1 to ADm included in the analysis segments AS1 to ASm.
  • the translation data 17 is, for example, text format data generated by the translation process for the character data 16.
  • the translation data 17 includes a plurality of translation segments TS1 to TSm.
  • Each of the plurality of translation segments TS1 to TSm includes metadata TM1 to TMm and data bodies TD1 to TDm.
  • the metadata TM1 to TMm included in the translation segments TS1 to TSm are various types of metadata related to the data bodies TD1 to TDm included in the translation segments TS1 to TSm.
  • the speaker recognition data 18 is data generated by the speaker recognition process based on the sound data 14 and the analysis data 15.
  • the speaker recognition data 18 includes a plurality of speaker recognition segments RS1 to RSm.
  • Each of the plurality of speaker recognition segments RS1 to RSm includes metadata RM1 to RMm and data bodies RD1 to RDm.
  • the metadata RM1 to RMm included in the speaker recognition segments RS1 to RSm are various types of metadata related to the data bodies RD1 to RDm included in the speaker recognition segments RS1 to RSm.
  • the metadata 13 includes the position information of each of the sound segments SS1 to SSm, the analysis segments AS1 to ASm, the character segments CS1 to CSm, the translation segments TS1 to TSm, and the speaker recognition segments RS1 to RSm. Further, the sound segment SS1, the analysis segment AS1, the character segment CS1, the translation segment TS1, and the speaker recognition segment RS1 are associated with each other by, for example, time information in their respective metadata SM1, AM1, CM1, TM1, RM1. There is.
  • FIG. 3 is a block diagram showing an example of the configuration of the first server 19 according to the first embodiment.
  • the information processing system 28 includes a recorder 1 and a first server 19.
  • the first server 19 can communicate with the recorder 1, the second server 20, and the user terminal 29 wirelessly or by wire.
  • the first server 19 includes a communication device 30, a storage device 31, and a processor 32.
  • the receiving unit 37 receives the transcription request, the translation request, the speaker recognition request, the metadata 13, the sound data 14, and the analysis data 15 from the recorder 1 via the communication device 30, and receives the user information 68.
  • the metadata 13, the sound data 14, and the analysis data 15 are stored in the storage device 31 in an associative state.
  • the transcription unit 38 executes the transcription processing for the sound data 14, generates the character data 16, stores the character data 16 in the storage device 31, and meta. Data 13 is updated.
  • the transcription unit 38 registers, for example, the position information of the character data 16 in the metadata 13.
  • the transcription unit 38 transmits the transcription request and the sound data 14 to the second server 20 via the communication device 30, and uses the API 20a to perform the transcription request. Even if the second server 20 executes the transcription process 47, the second server 20 receives the character data 16 via the communication device 30, the character data 16 is stored in the storage device 31, and the metadata 13 is updated. good.
  • the translation unit 39 transmits the translation request and the character data 16 to the second server 20 via the communication device 30, and uses the API 20a to send the translation request and the character data 16 to the second server.
  • 20 may execute the translation process 48, receive the translation data 17 from the second server 20 via the communication device 30, store the translation data 17 in the storage device 31, and update the metadata 13.
  • the speaker recognition unit 40 transmits the speaker recognition request, the sound data 14, and the analysis data 15 to the second server 20 via the communication device 30. Then, the second server 20 is made to execute the speaker recognition process 49 by using the API 20a, the speaker recognition data 18 is received from the second server 20 via the communication device 30, and the speaker recognition data 18 is stored in the storage device 31. May be stored in and the metadata 13 may be updated.
  • the transmission unit 41 transmits the character data 16 which is the response of the transcription request to the recorder 1 via the communication device 30, transmits the translation data 17 which is the response of the translation request, and is the response of the speaker recognition request.
  • the person recognition data 18 is transmitted.
  • the pickup unit 43 executes a process of displaying a menu on the screen of the browser 36 of the user terminal 29.
  • the menu is displayed on the user terminal 29 and is used to select a destination (for example, file F) to copy the segment specified by the user. This menu will be described later with reference to FIG.
  • the pickup unit 43 generates a menu for prompting the designation of the destination of the segment designated by the user, and displays the menu on the user terminal 29 via the communication device 30.
  • the menu may be displayed by linking the pickup unit 43 with software such as the browser 36 of the user terminal 29.
  • the user can use the menu to copy the segment corresponding to this menu and specify the destination (file F, folder, directory).
  • the estimate generation unit 44 receives a transcription request by a person from the user terminal 29 via the communication device 30, at least one of the sound data 14 and the character data 16 stored in the storage device 31. Based on the above, the estimate generation process is executed, and the estimate data is transmitted to the user terminal 29 via the communication device 30.
  • the estimated amount may be calculated by multiplying the time length of the sound data 14 and the charge per unit time, and the estimate is estimated by multiplying the number of characters of the character data 16 and the charge per character. You may calculate the amount.
  • the requesting unit 45 When the requesting unit 45 receives an ordering request from the user terminal 29 via the communication device 30, for example, the requesting unit 45 transmits the purchase order data and the sound data 14 to the address of a predetermined transcription company via the communication device 30. ..
  • the blog editor 46 appropriately reads and reads, for example, user information 68, metadata 13, sound data 14, character data 16, translation data 17, speaker recognition data 18, and hit-up segment 35 stored in the storage device 31. At least a part of the user information 68, the metadata 13, the sound data 14, the character data 16, the translation data 17, the speaker recognition data 18, and the hitup segment 35 are incorporated into the blog data 50 and can be edited.
  • the blog editor 46 stores the blog data 50 being edited or the result of editing in the storage device 31.
  • the second server 20 operates in cooperation with other devices such as the recorder 1 or the first server 19 using the API 20a.
  • the second server 20 receives a transcription request, a translation request, a speaker recognition request, or data received from the recorder 1 or the first server 19, and receives a transcription process 47, a translation process 48, or a story.
  • the person recognition process 49 is executed, and the execution result is returned to the source of the request or data.
  • the second server 20 is, for example, an ASP (Application Service Provider) server.
  • the user terminal 29 can, for example, access the site provided by the first server 19, log in, upload data to the first server 19, and download the data from the first server 19. be able to.
  • the user terminal 29 can display the data downloaded from the first server 19 by using the browser 36 or the like.
  • the user terminal 29 receives a user's operation by a user interface device such as a mouse, a touch panel, and a keyboard, and transmits data, information, signals, requests, commands, instructions, calls, or notifications to the first server 19.
  • the user terminal 29 can operate in cooperation with the first server 19 by executing the data or program downloaded from the first server 19, and executes, for example, acceptance of a user's designation or display of data. ..
  • the user terminal 29 transmits the sound data (for example, the sound data reproduced together with the moving image data) acquired by the user terminal 29 to the first server 19, and the character data corresponding to the sound data.
  • the sound data for example, the sound data reproduced together with the moving image data
  • the character data corresponding to the sound data for example, Translation data, speaker recognition data may be received and displayed.
  • FIG. 4 is a diagram showing an example of a screen 51 in which the data downloaded from the first server 19 is displayed on the browser 36 of the user terminal 29.
  • the screen 51 includes a menu 54 displayed for the data body CD2 of the character segment CS2 specified by the user (for example, the mouse is over).
  • the menu 54 includes, for example, a file name that can be a destination for incorporating the character segment CS2 that is being moused over.
  • the menu 54 prompts the user to specify the destination 53 of the pickup segment 35.
  • the menu 54 is displayed in the upper right portion of the display table area of the data main body CD2 that is moused over.
  • the human transcription button 55 is pressed by a user who uses human transcription.
  • the browser 36 displays the estimated data.
  • the controller 5 of the recorder 1 can control the ADC 4 based on the analysis information 9 received from the ADC 4. Therefore, the controller 5 can generate high-quality sound data 14, and can acquire high-quality character data 16 or translation data 17 based on the sound data 14.
  • the recorder 1 includes a plurality of connectors C1 to Cn for connecting a plurality of microphones M1 to Mn, and the first server 19 or the second server 20 includes a plurality of microphones M1.
  • the speaker is recognized based on the analysis information 9 and the like of the plurality of analog signals acquired by Mn. Therefore, speaker recognition can be performed with high accuracy.
  • the character data 16 or the translation data 17 corresponding to the sound data 14 is generated by the cooperation between the recorder 1 and at least one of the first server 19 and the second server 20. NS. Therefore, the user can utilize the special or specialized transcription processing, translation processing, and speaker recognition processing provided by the first server 19. In addition, the user can use the latest transcription process 47, translation process 48, and speaker recognition process 49 provided by the second server 20. As a result, the user can acquire high-quality character data 16, translation data 17, and speaker recognition data 18.
  • the user can easily switch between the first mode and the second mode by using the operation device 2 of the recorder 1, and the API can be easily switched according to the mode switching. You can switch between functions, processes, and servers. Therefore, the convenience of the user is improved.
  • the recorder 1 stores the sound data 14 and periodically displays the character data 16 or the translation data 17 character by character. In this case, the display content of the recorder 1 changes continuously. Therefore, the user can easily understand that the recorder 1 is operating.
  • the user browses the display data received from the first server 19 by the browser 36 of the user terminal 29, and the metadata 13, the sound data 14, the character data 16, the translation data 17, and the speaker recognition.
  • Data 18 can be associated with each other for reference.
  • the user specifies the pickup segment 35 from the character segments CS1 to CSm and the translation segments TS1 to TSm, and specifies the destination of the pickup segment 35 to obtain the pickup segment. 35 can be incorporated into the destination file F and stored. As a result, the user can efficiently organize the data.
  • the user can generate the blog data 50 by incorporating the sound segments SS1 to SSm, the character segments CS1 to CSm, and the translation segments TS1 to TSm. As a result, the user can efficiently create and edit a blog.
  • the recorder 1A operates a plurality of connectors C1 to Cn, an output connector Co, a built-in microphone M, a speaker 56, an ADC 4, a digital / analog converter (hereinafter referred to as DAC) 57, and a power supply device 58. It includes a device 2, a display device 3, a clock device 59, a storage device 7, a communication device 8, and a processor (or controller) 6.
  • the ADC4, DAC57, clock device 59, communication device 8, and processor 6 may be combined as appropriate.
  • Various components of the recorder 1A can send and receive data, information, signals, requests, commands, instructions, notifications, calls, responses, and the like to and from each other via, for example, the bus 60.
  • the output connector Co can be connected to an external speaker, headphones, or sound output device such as earphones.
  • the output connector Co outputs, for example, an analog signal received from the DAC 57 to a sound output device connected to the output connector Co.
  • the output connector Co can be connected to other information processing devices.
  • the output connector Co outputs data to an information processing device connected to the output connector Co.
  • the speaker 56 is built in the recorder 1 and outputs sound based on the analog signal received from the DAC 57.
  • the power supply device 58 can be equipped with a battery or is provided with a rechargeable battery to supply electric power to each component of the recorder 1A.
  • the operating device 2 is operated by the user.
  • the operating device 2 receives, for example, an instruction from the user and notifies the processor 6 of the instruction.
  • the operation device 2 includes a first operation unit 2a and a second operation unit 2b. At least one of the first operation unit 2a and the second operation unit 2b may be, for example, a button or the like.
  • the first operation unit 2a receives the mode designation from the user and transmits the user's mode designation state to the processor 6.
  • the recorder 1A can operate in at least the first and second modes.
  • the second operation unit 2b accepts the start of sound data generation, transcription (text data generation, which may be written as transcription) and translation from the user with one designation (click or press), and the user gives the start. A signal indicating that sound data generation, transcription, and translation have been instructed is transmitted to the processor 6.
  • the ADC 4 transmits the analysis information 9 to the processor 6.
  • the ADC 4 may transmit the analysis information 9 to the input port 6p of the processor 6 via the DAC 57.
  • the DAC 57 performs digital / analog conversion on the digital signal received from the ADC 4 and transmits the analog signal to the input port 6p for the analog signal in the processor 6.
  • the analog / digital conversion function 11a When the analog / digital conversion function 11a receives an analog signal from the DAC 57 via the input port 6p for the analog signal of the processor 6, the analog signal is converted into a digital signal.
  • FIG. 6 is a front view showing the appearance of the recorder 1A according to the second embodiment.
  • a display device 3 a first operation unit 2a, a second operation unit 2b, a third operation unit 2c, a speaker 56, and a microphone M are arranged in front of the recorder 1A.
  • a part of the metadata 13 and a part of the character data 16 are displayed on the display device 3.
  • a plurality of connectors C1 to Cn for external microphones M1 to Mn are arranged on the upper surface or the side surface of the recorder 1A.
  • the user who uses the recorder 1A according to the second embodiment uses the second operation unit 2b of the recorder 1A to record and transcribe the sound, or to record, transcribe, and translate the sound once. It can be easily performed by designation, and the convenience of the user can be improved.
  • FIG. 7 is a block diagram showing an example of the configuration of the first server 19A according to the third embodiment.
  • the first server 19A contains an API & static web page 62, a database 63, a storage device 64 for sound data 14, a transcription task queue 65, a transcription process 66, character data 16, and a storage device 67 for pickup segment 35. Be prepared.
  • the database 63, the storage device 64, and the storage device 67 correspond to the storage device 31 of the first server described in the first embodiment.
  • the API & static web page 62 first provides the static web page to the recorder 1 or the user terminal 29 via the gateway 61.
  • the recorder 1 or the user terminal 29 operates based on a static web page.
  • the recorder 1 or the user terminal 29 and the first server 19A can operate in cooperation with each other using the API.
  • the API & static web page 62 includes, for example, the communication device 30, the reception unit 37, the display control unit 42, the transmission unit 41, the pickup unit 43, the estimate generation unit 44, the request unit 45, and the blog editor 46 described in the first embodiment. And so on.
  • the API & static web page 62 provides an API service to the recorder 1 or the user terminal 29, and also provides a function as a website.
  • the API & static web page 62 executes processing according to the request or data and stores it in the database 63, the storage device 64, and the storage device 67.
  • the data corresponding to the request or data is transmitted to the recorder 1 or the user terminal 29 via the gateway 61.
  • the API & static web page 62 receives the metadata 13, the sound data 14, and the transcription request from the recorder 1 or the user terminal 29 via the gateway 61, for example. Then, the API & static web page 62 stores the metadata 13 in the database 63 in association with the user information 68, and stores the sound data 14 in the storage device 64.
  • the transcription task queue 65 stores the transcription task.
  • the API & Static Web Page 62 has, as necessary, metadata 13 stored in the database 63, sound data 14 stored in the storage device 64, or character data 16 stored in the storage device 67.
  • the pickup segment 35 is read, and the read metadata 13, sound data 14, character data 16, and pickup segment 35 are transmitted to the user terminal 29 via the gateway 61.
  • the transcription process 66 corresponds to the transcription unit 38 described in the first embodiment.
  • the transcription process 66 reads the sound data 14 stored in the storage device 64 according to the transcription task acquired from the transcription task queue 65, generates the character data 16 corresponding to the sound data 14, and generates the character data 16. Is stored in the storage device 67. Further, the transcription process 66 updates the metadata 13 managed in the database 63, and adds the position information of the character data 16 to the metadata 13.
  • the transcription process 66 may acquire the character data 16 by the transcription process 47 of the second server 20 using, for example, the API 20a.
  • the database 63 for storing the metadata 13, the storage device 64 for storing the sound data 14, and the storage device 67 for storing the character data 16 and the pickup segment 35 are distinguished.
  • the metadata 13, the sound data 14, the character data 16, and the pickup segment 35 have different data formats and types.
  • the invention of the present application is not limited to each of the above embodiments as it is, and at the implementation stage, the components can be modified and embodied within a range that does not deviate from the gist thereof.
  • various inventions can be formed by appropriately combining the plurality of components disclosed in each of the above embodiments. For example, some components may be reduced from all the components shown in each embodiment. Further, the components of different embodiments may be combined as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本実施形態に係るレコーダは、複数のコネクタと、アナログ・デジタルコンバータと、コントローラと、記憶装置とを備える。コントローラは、複数のマイクロフォンと接続可能である。アナログ・デジタルコンバータは、複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換する。コントローラは、デジタル信号に基づいて音データを生成する。記憶装置は、コントローラによって生成された音データを記憶する。コントローラは、アナログ・デジタルコンバータから、複数のアナログ信号のレベルを含む解析情報を受信し、解析情報に基づいて複数のアナログ信号のレベルを調整するための制御コマンドを、アナログ・デジタルコンバータへ送信する。

Description

レコーダ、情報処理装置、情報処理システム、および、情報処理方法
 本発明は、音データを記憶するレコーダ、情報処理装置、情報処理システム、および、情報処理方法に関する。
 IC(Integrated Circuit)レコーダは、マイクロフォンからのアナログ信号をアナログ/デジタル変換してデジタルの音データを生成し、音データを記憶媒体に記憶する。ICレコーダでは、生成された音データを圧縮する場合もある。ICレコーダは、例えば、会議の議事録作成、または、打合せ記録などの用途で使用される。
特開2017-207809号公報
 例えばICレコーダなどによって生成された音データに対して各種のデータ処理を実行し、ユーザにとって利便性が高く有益なデータを生成することのニーズは高い。
 本実施形態は、上記実情に鑑みてなされたものであり、ユーザにとって利便性の高いデータを生成するレコーダ、情報処理装置、情報処理システム、および、情報処理方法を提供することを目的とする。
 本実施形態のレコーダは、複数のコネクタと、アナログ・デジタルコンバータと、コントローラと、記憶装置とを備える。コントローラは、複数のマイクロフォンと接続可能である。アナログ・デジタルコンバータは、複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換する。コントローラは、デジタル信号に基づいて音データを生成する。記憶装置は、コントローラによって生成された音データを記憶する。コントローラは、アナログ・デジタルコンバータから、複数のアナログ信号のレベルを含む解析情報を受信し、解析情報に基づいて複数のアナログ信号のレベルを調整するための制御コマンドを、アナログ・デジタルコンバータへ送信する。
 本実施形態によれば、ユーザにとって利便性の高いデータを生成するレコーダ、情報処理装置、情報処理システム、および、情報処理方法を提供することができる。
第1の実施形態に係るレコーダの構成の一例を示すブロック図。 第1の実施形態に係るデータの構成の例を示すブロック図。 第1の実施形態に係る第1のサーバの構成の一例を示すブロック図。 第1のサーバからダウンロードされたデータをユーザ端末のブラウザで表示した画面の例を示す図。 第2の実施形態に係るレコーダの構成の一例を示すブロック図。 第2の実施形態に係るレコーダの外観を示す正面図。 第3の実施形態に係る第1のサーバの構成の一例を示すブロック図。
 以下、図面を参照して実施形態を説明する。図面において、同一の機能及び構成要素については、同一符号を付して説明を省略するか、または、簡単に説明を行う。
 (第1の実施形態)
 第1の実施形態では、複数のマイクロフォン接続用のコネクタ(接続端子)を備えるレコーダと、当該レコーダによって生成された音データ(例えば音声データ)を処理する第1のサーバ(情報処理装置)とを説明する。
 図1は、第1の実施形態に係るレコーダ1の一例を示すブロック図である。
 レコーダ1は、複数の外付けのマイクロフォンM1~Mn(nは2以上の整数)と接続可能な複数のコネクタC1~Cnと、内蔵のマイクロフォンMと、操作装置(ユーザインタフェース装置)2と、表示装置3と、アナログ/デジタルコンバータ(以下、ADCという)4と、コントローラ5とを備える。コントローラ5は、例えば、プロセッサ6と、記憶装置7と、通信装置8とを備える。レコーダ1は、例えば、携帯型のICレコーダでもよい。
 複数のコネクタC1~Cnのそれぞれは、複数のマイクロフォンM1~Mnを着脱可能である。また、複数のコネクタC1~Cnは、ADC4と接続されている。
 マイクロフォンMは、レコーダ1に内蔵されており、音を測定し、アナログ信号をADC4へ送信する。
 操作装置2は、ユーザによる操作を受け付ける。操作装置2は、例えば、ユーザからの指示を受け付け、指示を例えばコントローラ5のプロセッサ6へ送信する。操作装置2は、例えば、ボタン、または、タッチパネルなどである。
 第1の実施形態において、操作装置2は、例えば、コントローラ5のプロセッサ6から周期的にモードの問合せを受信し、問合せに対してユーザによって指定されているモードをプロセッサ6へ返す。あるいは、操作装置2は、ユーザからモードの指定を受け付けた場合に、このユーザによって指定されたモードをプロセッサ6へ通知する。
 第1の実施形態において、モードとは、レコーダ1の動作の種類・態様を示す。レコーダ1は少なくとも2つのモードのいずれかで選択的に動作する。
 第1のモードは、非標準モード(例えばワンショットボイスモード)であり、タイトル、見出し、要約、メモ、管理情報、書誌事項の内容、解説、注意事項などの音入力に用いられる。
 第2のモードは、標準モードであり、議事録、打合せの内容などの標準の音入力に用いられる。
 表示装置3は、例えばコントローラ5のプロセッサ6などによる制御にしたがって、例えば記憶装置7に記憶されている各種のデータを表示する。表示装置3は、例えば、液晶ディスプレイ、または、有機EL(Electro-Luminescence)ディスプレイなどである。
 ADC4は、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信可能である。また、ADC4は、マイクロフォンMからアナログ信号を受信可能である。第1の実施形態において、ADC4によって受信されるアナログ信号は、ステレオ信号であるとする。
 ADC4は、受信した少なくとも1つのアナログ信号に対してアナログ/デジタル変換を行い、デジタル信号をコントローラ5へ送信する。ADC4は、例えば、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信した場合に、この複数のアナログ信号に基づいて1つのデジタル信号を生成(例えば合成)し、生成したデジタル信号を例えばコントローラ5のプロセッサ6へ送信する。
 また、ADC4は、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で複数のアナログ信号を受信した場合に、複数のアナログ信号のレベルの取得、複数のアナログ信号が有効かまたは無効かの判断、複数のアナログ信号のゲイン(ボリューム)値の取得などを含む解析を実行する。そして、ADC4は、解析の結果を示す解析情報9をコントローラ5のプロセッサ6へ送信する。解析情報9は、例えば、複数のアナログ信号のレベル、複数のアナログ信号のゲイン値などを含む。
 なお、ADC4は、例えば、コントローラ5のプロセッサ6へ送信するデジタル信号または解析情報9に対してデータ圧縮を実行してもよい。
 さらに、ADC4は、例えばコントローラ5のプロセッサ6などから受信した制御コマンド10にしたがって、複数のアナログ信号のレベルの調整、または、ゲイン値の調整などの制御を行う。これにより、デジタル信号の品質が向上する。
 記憶装置7は、例えばNAND型フラッシュメモリなどのような不揮発性メモリ(または非一時的記憶媒体)と、例えばDRAM(Dynamic Random Access Memory)などのような揮発性メモリとを備える。
 記憶装置7は、例えば、オペレーティング・システム(以下、OSという)11、ソフトウェア12、メタデータ13、音データ14、解析データ15、音データ14に対応する文字データ16および翻訳データ17、音データ14に対する話者認識データ18などの各種のデータを記憶する。なお、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、基本的には、第1のサーバ19で管理されており、必要に応じて、必要な部分が、第1のサーバ19から記憶装置7に部分的にダウンロードされ、記憶装置7に一時的に記憶され、レコーダ1で使用されるとしてもよい。この場合、レコーダ1の記憶装置7の記憶容量を低減させることができる。また、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18のうちの一部が記憶装置7に記憶され、他の部分が第1のサーバ19で管理されてもよい。
 メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に関するメタ情報を含む。メタデータ13は、例えば、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18を適宜関連付けている。メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の記憶位置の情報を含む。
 音データ14は、ADC4から受信されたデジタル信号に基づいて生成される。
 解析データ15は、音データ14に対応しておりADC4から受信された解析情報9を含む。
 文字データ16は、音データ14に対応しており音データ14に対する文字起こし処理によって生成される例えばテキストデータを含む。
 翻訳データ17は、音データ14に対応しており文字データ16に対する翻訳処理によって生成されるテキストデータを含む。
 話者認識データ18は、音データ14に対応しており音データ14および解析データ15に基づいて実行された話者認識処理によって生成され、話者識別情報を含む。
 記憶装置7に記憶されるメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、図2を用いて後で具体的に説明する。
 通信装置8は、例えばプロセッサ6による制御にしたがって、無線または有線により、例えば第1のサーバ19または第2のサーバ20などの他の装置との間で、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答の送受信を行う。
 プロセッサ6は、記憶装置7に記憶されているOS11およびソフトウェア12を実行することにより、例えば、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27として機能する。
 なお、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27は、適宜組み合わせてもよく、または、分割してもよい。例えば、送信制御部24と受信制御部25とは、通信制御部として組み合わせてもよい。例えば、表示データ生成部26と表示制御部27とは組み合わせてもよい。
 制御部21は、レコーダ1に備えられている各種の構成要素、例えば、マイクロフォンM、操作装置2、表示装置3、ADC4を制御する。
 制御部21は、例えば、ADC4から受信した解析情報9に基づいて、複数のマイクロフォンM1~Mnから複数のコネクタC1~Cn経由で受信する複数のアナログ信号の各レベルまたは各ゲイン値を所定範囲に調整するための制御コマンド10を決定し、制御コマンド10をADC4へ送信する。これにより、デジタル信号の品質が向上する。
 制御部21は、例えば、複数のコネクタC1~Cnのうちのどのコネクタがマイクロフォンと接続状態にあるかを検出する。
 制御部21は、例えば、ADC4から受信したデジタル信号、または、解析情報9に対するデータ復号を行う。
 判断部23は、操作装置2へモードの問合せを例えば周期的に送信し、操作装置2からモードの通知を受信する。そして、判断部23は、ユーザが第1のモードを指定しているか、または、第2のモードを指定しているかを判断する。プロセッサ6は、モードの判断結果にしたがって、例えば、通信方式、制御、処理、機能、利用するサーバを切り替え可能である。第1の実施形態では、プロセッサ6は、モードの判断結果にしたがって、利用するAPI(Application Programming Interface)を切り替える、
 データ生成部22は、例えば、ADC4から受信したデジタル信号および解析情報9と、判断部23によるモードの判断結果とに基づいて、メタデータ13と音データ14と解析データ15とを生成する。データ生成部22は、例えば、音データ14を、時間または音のゲイン値の増減などに基づいて分割する。この分割されたデータのそれぞれを、音セグメントという。
 そして、データ生成部22は、メタデータ13と音データ14と解析データ15とを記憶装置7へ記憶させる。
 送信制御部24は、判断部23によるモードの判断結果にしたがって、第1のサーバ19または第2のサーバ20に備えられているAPI(機能としてもよい)のうちどのAPIを使用するかを決定し、決定されたAPIを利用して、記憶装置7に記憶されているメタデータ13、音データ14、解析データ15、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストを、通信装置8経由で第1のサーバ19または第2のサーバ20へ送信する。
 なお、送信制御部24は、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストなどのリクエストの送信を省略してもよい。この場合、例えば、送信制御部24が第1のサーバ19または第2のサーバ20へメタデータ13、音データ14、解析データ15を送信することで、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストが送信されたものとみなす。以下の他の説明でも、リクエストの発行を省略し、データの送信をリクエストの発行とみなしてもよい。
 第1の実施形態において、レコーダ1は、API19aを用いることにより、第1のサーバ19によって提供される機能を使用可能であり、API20aを用いることにより、第2のサーバ20によって提供される機能を使用可能である。
 第1の実施形態において、送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングにより、メタデータ13、音データ14、または、解析データ15を送信してもよい。送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングではなく間隔をあけて(例えば所定のデータ量または所定の時間ごとに)、メタデータ13、音データ14、または、解析データ15をまとめて送信してもよい。送信制御部24は、例えば、データの送信開始から所定の期間、ストリーミングにより第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信し、所定の期間経過後に、ストリーミングではなく間隔をあけて、第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信してもよい。
 送信制御部24は、例えば、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の評価(特徴検出、属性判断)演算を行い、評価値(特徴量、属性情報)に応じて利用するAPI、サーバ、または、機能を切り替えてもよい。より具体的には、送信制御部24は、例えば、文字データ16が所定の分野の用語を所定の割合以上含む場合に、分野判断結果にしたがって以降の音データを分野に特化した文字起こし処理へ送信してもよい。
 受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、データの送信開始から所定の期間、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより文字データ16、翻訳データ17、話者認識データ18を受信し、所定の期間経過後に、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。
 受信制御部25は、受信した文字データ16、翻訳データ17、話者認識データ18を、記憶装置7に記憶させ、例えば文字データ16、翻訳データ17、話者認識データ18の位置情報を追加するなどのように、記憶装置7に記憶されているメタデータ13を更新する。
 表示データ生成部26は、記憶装置7に記憶されている文字データ16、翻訳データ17、話者認識データ18を読み出し、ユーザの指示に対応する表示データを生成する。
 表示制御部27は、表示データ生成部26によって生成された表示データを表示装置3に表示させる。
 第1の実施形態において、表示制御部27は、文字データ16または翻訳データ17をまとめて表示するのではなく、短い周期で1文字ずつ表示してもよい。これにより、ユーザは、レコーダ1が文字データ16または翻訳データ17を継続的に取得および記憶していることを認識することができる。
 図2は、第1の実施形態に係るデータの構成の例を示すブロック図である。
 メタデータ13は、例えば音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18などのような各種のデータに関する各種のメタ情報を含む。第1の実施形態において、各種のデータのそれぞれは、複数のデータセグメントを含む。具体的には、メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に対して付される各種の属性情報であり、例えば、レコーダ1を使用するユーザのユーザ識別情報(ユーザID)、レコーダ1のデバイス識別情報(デバイスID)、時間情報(タイムスタンプ)、音データ14の位置情報、解析データ15の位置情報、文字データ16の位置情報、翻訳データ17の位置情報、話者認識データ18の位置情報、音データ14のサイズ、解析データ15のサイズ、文字データ16のサイズ、翻訳データ17のサイズ、話者認識データ18のサイズ、音データ14の種類情報(例えばデータ形式)、解析データ15の種類情報、文字データ16の種類情報、翻訳データ17の種類情報、話者認識データ18の種類情報などを含む。
 音データ14は、ADC4から受信されたデジタル信号に基づいて生成されたデータである。音データ14は、複数の音セグメントSS1~SSm(mは、2以上の整数)を含む。デジタル信号に基づいて生成される音データ14のデータ本体は、時間経過、ゲイン値の増減、データ量などに基づいて複数の音セグメントSS1~SSmのデータ本体SD1~SDmに分割される。複数の音セグメントSS1~SSmのそれぞれは、メタデータSM1~SMmとデータ本体SD1~SDmを含む。音セグメントSS1~SSmに含まれるメタデータSM1~SMmは、音セグメントSS1~SSmに含まれるデータ本体SD1~SDmに関する各種のメタ情報であり、例えば、時間情報、モード種別情報などを含む。なお、音データ14内のメタデータSM1~SMmは、省略されてもよい。
 解析データ15は、ADC4から受信された解析情報9に基づいて生成されたデータである。解析データ15は、複数の解析セグメントAS1~ASmを含む。複数の解析セグメントAS1~ASmのそれぞれは、メタデータAM1~AMmとデータ本体AD1~ADmを含む。解析セグメントAS1~ASmに含まれるメタデータAM1~AMmは、解析セグメントAS1~ASmに含まれるデータ本体AD1~ADmに関する各種のメタ情報である。
 文字データ16は、音データ14に対する文字起こし処理により生成された例えばテキスト形式のデータである。文字データ16は、複数の文字セグメントCS1~CSmを含む。複数の文字セグメントCS1~CSmのそれぞれは、メタデータCM1~CMmとデータ本体CD1~CDmを含む。文字セグメントCS1~CSmに含まれるメタデータCM1~CMmは、文字セグメントCS1~CSmに含まれるデータ本体CD1~CDmに関する各種のメタ情報である。
 翻訳データ17は、文字データ16に対する翻訳処理により生成された例えばテキスト形式のデータである。翻訳データ17は、複数の翻訳セグメントTS1~TSmを含む。複数の翻訳セグメントTS1~TSmのそれぞれは、メタデータTM1~TMmとデータ本体TD1~TDmを含む。翻訳セグメントTS1~TSmに含まれるメタデータTM1~TMmは、翻訳セグメントTS1~TSmに含まれるデータ本体TD1~TDmに関する各種のメタ情報である。
 話者認識データ18は、音データ14および解析データ15に基づいて話者認識処理により生成されたデータである。話者認識データ18は、複数の話者認識セグメントRS1~RSmを含む。複数の話者認識セグメントRS1~RSmのそれぞれは、メタデータRM1~RMmとデータ本体RD1~RDmを含む。話者認識セグメントRS1~RSmに含まれるメタデータRM1~RMmは、話者認識セグメントRS1~RSmに含まれるデータ本体RD1~RDmに関する各種のメタ情報である。
 メタデータ13は、音セグメントSS1~SSm、解析セグメントAS1~ASm、文字セグメントCS1~CSm、翻訳セグメントTS1~TSm、話者認識セグメントRS1~RSmのそれぞれの位置情報を含む。さらに、音セグメントSS1、解析セグメントAS1、文字セグメントCS1、翻訳セグメントTS1、話者認識セグメントRS1は、例えば、それぞれのメタデータSM1,AM1,CM1,TM1,RM1内の時間情報などにより互いに関連付けられている。同様に、他の音セグメントSS2~SSm、解析セグメントAS2~ASm、文字セグメントCS2~CSm、翻訳セグメントTS2~TSm、話者認識セグメントRS2~RSmについても、メタデータSM2~SMm,AM2~AMm,CS2~CSm,TM2~TMm,RM2~RMmに基づいて、関連付けられている他のセグメントを認識可能である。
 図3は、第1の実施形態に係る第1のサーバ19の構成の一例を示すブロック図である。
 情報処理システム28は、レコーダ1と第1のサーバ19とを備える。
 第1のサーバ19は、レコーダ1、第2のサーバ20、ユーザ端末29と、無線または有線により通信可能である。
 第1のサーバ19は、通信装置30と、記憶装置31と、プロセッサ32とを備える。
 通信装置30は、レコーダ1、第2のサーバ20、または、ユーザ端末29と、無線または有線により、例えば、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などの送受信を行う。
 記憶装置31は、不揮発性メモリ(または非一時的記憶媒体)と、揮発性メモリとを備えるとしてもよい。記憶装置31は、OS33と、当該OS33によって制御されるサーバ・ソフトウェア34とを記憶している。サーバ・ソフトウェア34は、文字セグメントなどを含む表示データを、通信装置30経由でユーザ端末29のブラウザ36に提供可能である。なお、サーバ・ソフトウェア34は、例えば、メッセージ交換ソフトウェア、Web会議ソフトウェア、または、SNS(Social Networking Service)を提供するソフトウェアなどでもよい。
 さらに、記憶装置31は、例えば、ユーザ情報68、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ユーザに選択(例えばピックアップ)されたピックアップ・セグメント35を組み込むファイル(データ)F、ブログデータ50などを記憶する。ここで、ファイルFにピックアップ・セグメント35を組み込むとは、例えば、ファイルF内に、ピックアップ・セグメント35、または、ピックアップ・セグメント35に含まれるデータ本体のテキストデータを追加することを意味する。
 第1の実施形態において、ユーザによって指定されたピックアップ・セグメント35、または、ピックアップ・セグメント35に含まれるデータ本体は、ユーザによって指定されたファイルFに組み込まれる。
 ユーザ情報68は、第1のサーバ19で提供されるWebサイトに登録をしたユーザの各種情報を含む、具体的には、ユーザ情報68は、例えば、ユーザ識別情報、ユーザの使用するデバイス識別情報、ユーザの属性情報などを含む。ユーザ情報68は、例えば、ユーザ識別情報またはデバイス識別情報により、メタデータ13と関連付けられている。したがって、サーバ・ソフトウェア34は、ユーザ情報68に関連するメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35を検索または読み出すことができる。
 プロセッサ32は、レコーダ1から通信装置30経由で受信したリクエストまたはデータにしたがって、API19aに基づく各種の機能を提供する。換言すれば、第1のサーバ19は、API19aを用いて他の装置と連携して動作する。
 プロセッサ32は、記憶装置31に記憶されているOS33およびサーバ・ソフトウェア34を実行することにより、例えば、受信部37、文字起こし部38、翻訳部39、話者認識部40、送信部41、表示制御部42、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46として機能する。
 受信部37は、レコーダ1から通信装置30経由で、文字起こしリクエストと、翻訳リクエストと、話者認識リクエストと、メタデータ13と、音データ14と、解析データ15とを受信し、ユーザ情報68と、メタデータ13と、音データ14と、解析データ15とを関連付けた状態で、記憶装置31に記憶させる。
 文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、音データ14に対する文字起こし処理を実行し、文字データ16を生成し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新する。文字起こし部38は、例えば、メタデータ13に、文字データ16の位置情報などを登録する。
 あるいは、文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、通信装置30経由で第2のサーバ20に文字起こしリクエストと音データ14とを送信し、API20aを用いて第2のサーバ20に文字起こし処理47を実行させ、第2のサーバ20から通信装置30経由で文字データ16を受信し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新してもよい。
 翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、文字データ16に対する翻訳処理を実行し、翻訳データ17を生成し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新する。翻訳部39は、例えば、メタデータ13に、翻訳データ17の位置情報などを登録する。
 あるいは、翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、通信装置30経由で第2のサーバ20に翻訳リクエストと文字データ16とを送信し、API20aを用いて第2のサーバ20に翻訳処理48を実行させ、第2のサーバ20から通信装置30経由で翻訳データ17を受信し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新してもよい。
 話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、音データおよび解析データ15に基づいて話者認識処理を実行し、話者認識データ18を生成し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新する。話者認識部40は、例えば、メタデータ13に、話者認識データ18の位置情報などを登録する。
 あるいは、話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、通信装置30経由で第2のサーバ20に話者認識リクエストと音データ14と解析データ15とを送信し、API20aを用いて第2のサーバ20に話者認識処理49を実行させ、第2のサーバ20から通信装置30経由で話者認識データ18を受信し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新してもよい。
 第1の実施形態において、解析データ15は、複数のマイクロフォンM1~Mnのそれぞれによって取得された複数のアナログ信号のレベルまたはゲイン値を含むため、音データ14の信号がどの話者による音声であるかを精度よく認識することができる。
 送信部41は、通信装置30経由でレコーダ1へ、文字起こしリクエストの応答である文字データ16を送信し、翻訳リクエストの応答である翻訳データ17を送信し、話者認識リクエストの応答である話者認識データ18を送信する。
 表示制御部42は、ユーザ端末29から通信装置30経由で受信した表示リクエストにしたがって、記憶装置31に記憶されているユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35に基づいて、表示データを生成し、表示データを通信装置30経由でユーザ端末29に送信する。ユーザ端末29では、ブラウザ36により受信した表示データをユーザが閲覧可能な状態で表示する。この表示データの画面は、図4を用いて後で説明する。なお、表示制御部42と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、画面表示が行われてもよい。
 ピックアップ部43は、ユーザ端末29のブラウザ36の画面に、メニューを表示させる処理を実行する。メニューは、ユーザ端末29で表示されておりユーザによって指定されたセグメントをコピーする宛先(例えばファイルF)を選択するために用いられる。このメニューは、図4を用いて後で説明する。ピックアップ部43は、ユーザによって指定されたセグメントの宛先の指定を促すメニューを生成し、メニューを通信装置30経由でユーザ端末29に表示させる。なお、ピックアップ部43と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、メニュー表示が行われてもよい。
 ユーザは、メニューを使用してこのメニューに対応するセグメントをコピーすることおよび宛先(ファイルF、フォルダ、ディレクトリ)を指定することができる。
 そして、ピックアップ部43は、ユーザ端末29による指定にしたがって、ユーザ端末29によって指定されたピックアップ・セグメント35を、ユーザ端末29によって指定された記憶装置31の宛先に記憶させる。上述のように、第1の実施形態では、ピックアップ・セグメント35は、ユーザ端末29によって指定されたファイルFに組み込まれる。
 なお、ピックアップ部43は、ユーザに指定された複数のピックアップ・セグメント35を、同じファイルFへまとめて組み込んでもよい。ピックアップ部43は、ユーザに指定された種類の異なる複数のデータセグメントを、同じファイルFへ組み込むとしてもよい。ピックアップ部43は、先に少なくとも1つのピックアップ・セグメント35の指定を受け付け、次に、宛先を受け付けてもよい。あるいは、ピックアップ部43は、先に宛先を受け付け、次に、少なくとも1つのピックアップ・セグメント35の指定を受け付けてもよい。
 見積生成部44は、ユーザ端末29から通信装置30経由で、人による文字起こしのリクエストを受信した場合に、記憶装置31に記憶されている音データ14と文字データ16とのうちの少なくとも1つに基づいて、見積生成処理を実行し、見積データを、通信装置30経由でユーザ端末29に送信する。
 見積生成処理は、例えば、音データ14の時間長と単位時間あたりの料金との掛け算により、見積額を計算してもよく、文字データ16の文字数と1文字あたりの料金との掛け算により、見積額を計算してもよい。
 ユーザ端末29のブラウザ36は、見積データを表示する。ユーザ端末29は、見積データを閲覧したユーザから人による文字起こしの発注指示を受け付けると、人による文字起こしの発注リクエストを第1のサーバ19へ送信する。
 依頼部45は、ユーザ端末29から通信装置30経由で、発注リクエストを受信した場合に、例えば、発注書データと音データ14とを、通信装置30経由で所定の文字起こし業者のアドレスへ送信する。
 ブログエディタ46は、記憶装置31に記憶されている例えばユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35を適宜読み出し、読み出したユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35の少なくとも一部をブログデータ50に組み込み、編集可能とする。ブログエディタ46は、編集中または編集結果であるブログデータ50を記憶装置31へ記憶させる。
 第2のサーバ20は、API20aを用いてレコーダ1または第1のサーバ19などの他の装置と連携して動作する。第2のサーバ20は、レコーダ1または第1のサーバ19から受信した文字起こしリクエスト、翻訳リクエスト、話者認識リクエスト、または、データの受信にしたがって、文字起こし処理47、翻訳処理48、または、話者認識処理49を実行し、実行結果をリクエストまたはデータの発信元へ返す。第2のサーバ20は、例えば、ASP(Application Service Provider)のサーバである。
 ユーザ端末29は、例えば、第1のサーバ19によって提供されるサイトへアクセス可能であり、ログインし、第1のサーバ19へデータをアップロードすることができ、第1のサーバ19からデータをダウンロードすることができる。ユーザ端末29は、ブラウザ36などを用いて、第1のサーバ19からダウンロードされたデータを表示可能である。ユーザ端末29は、マウス、タッチパネル、キーボードなどのユーザインタフェース装置によりユーザの操作を受け付け、データ、情報、信号、リクエスト、コマンド、指示、呼び出し、または、通知を第1のサーバ19へ送信する。ユーザ端末29は、第1のサーバ19からダウンロードされたデータまたはプログラムを実行することにより第1のサーバ19と連携して動作可能であり、例えばユーザの指定の受け付けまたはデータの表示などを実行する。
 ユーザ端末29は、レコーダ1と同様に、このユーザ端末29に取得されている音データ(例えば動画データとともに再生される音データ)を第1のサーバ19へ送信し、音データに対応する文字データ、翻訳データ、話者認識データを受信し、表示してもよい。
 図4は、第1のサーバ19からダウンロードされたデータをユーザ端末29のブラウザ36で表示した画面51の例を示す図である。
 画面51は、例えば、メタデータ13に含まれている例えば時間情報T、音データ14の時間変化52、文字データ16に含まれる文字セグメントCS1~CS6のデータ本体CD1~CD6、文字データ16に含まれる文字セグメントCS1~CS6のメタデータCM1~CM6に含まれる時間情報T1~T6、ユーザ情報68に含まれているユーザ名N、ユーザ名Nのユーザに関連する音データ14のログ情報52L、ユーザ名Nのユーザに関連するピックアップ・セグメント35の宛先(ファイル名)53、人による文字起こしボタン55を含む。
 さらに、画面51は、ユーザが指定した(例えばマウスオーバーした)文字セグメントCS2のデータ本体CD2に対して表示されたメニュー54を含む。メニュー54は、例えばマウスオーバーされている文字セグメントCS2の組み込み先となり得るファイル名を含む。メニュー54は、ユーザに対して、ピックアップ・セグメント35の宛先53の指定を促す。図面51では、マウスオーバーされたデータ本体CD2の表示表域の右上部分に、メニュー54が表示されている。
 第1の実施形態において、ユーザがユーザ端末29を操作し、文字セグメントCS2の宛先を指定すると、ユーザ端末29は、例えば第1のサーバ19のピックアップ部43と連携して、指定された文字セグメントCS2を、ユーザ端末29によって指定された宛先に記憶させる。
 画面51では、音データ14の時間変化52が上から下へ時間が経過するように表示されている。文字セグメントCS1~CS6のデータ本体CD1~CD6は、音データ14の時間変化52の横に表示されており、時間情報T1~T6にしたがってデータ本体CD1~CD6と音データ14の時間変化52とが紐づけられている。
 人による文字起こしボタン55は、人による文字起こしを使用するユーザによって押下される。人による文字起こしボタン55が押下されると、ブラウザ36は、見積データを表示する。
 以上説明した第1の実施形態において、レコーダ1のコントローラ5は、ADC4から受信した解析情報9に基づいてADC4を制御することができる。このため、コントローラ5は、高品質の音データ14を生成することができ、音データ14に基づいて高品質の文字データ16または翻訳データ17を取得することができる。
 第1の実施形態において、レコーダ1は、複数のマイクロフォンM1~Mnを接続するための複数のコネクタC1~Cnを備えており、第1のサーバ19または第2のサーバ20は、複数のマイクロフォンM1~Mnによって取得された複数のアナログ信号の解析情報9などに基づいて話者の認識を行う。このため、話者認識を高精度に行うことができる。
 第1の実施形態においては、レコーダ1と、第1のサーバ19と第2のサーバ20とのうちの少なくとも一方との連携により、音データ14に対応する文字データ16または翻訳データ17が生成される。このため、ユーザは、第1のサーバ19によって提供される特殊なまたは専門的な文字起こし処理、翻訳処理、話者認識処理を利用することができる。また、ユーザは、第2のサーバ20によって提供される最新の文字起こし処理47、翻訳処理48、話者認識処理49を利用することができる。これにより、ユーザは、高品質の文字データ16、翻訳データ17、話者認識データ18を取得することができる。
 第1の実施形態において、ユーザは、レコーダ1の操作装置2を用いて、第1のモードと第2のモードとの切り替えを容易に行うことができ、モードの切り替えに応じて容易にAPI、機能、処理、サーバを切り替えることができる。このため、ユーザの利便性が向上する。
 第1の実施形態において、レコーダ1は、音データ14を記憶するとともに、文字データ16または翻訳データ17を周期的に1文字ずつ表示していく。この場合、レコーダ1の表示内容は、継続的に変化する。このため、ユーザは、レコーダ1が動作していることを容易に理解できる。
 第1の実施形態において、ユーザは、第1のサーバ19から受信した表示データをユーザ端末29のブラウザ36により閲覧し、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18を相互に関連付けて参照することができる。
 第1の実施形態において、ユーザは、文字セグメントCS1~CSm、翻訳セグメントTS1~TSmの中からピックアップ・セグメント35を指定すること、および、ピックアップ・セグメント35の宛先を指定することにより、ピックアップ・セグメント35を宛先のファイルFに組み込んで記憶することができる。これにより、ユーザは、データの整理を効率的に行うことができる。
 第1の実施形態において、ユーザは、音セグメントSS1~SSm、文字セグメントCS1~CSm、翻訳セグメントTS1~TSmを組み込んで、ブログデータ50を生成することができる。これにより、ユーザは、ブログ作成・編集を効率的に行うことができる。
 (第2の実施形態)
 第2の実施形態では、第1の実施形態で説明したレコーダ1の変形例を説明する。
 図5は、第2の実施形態に係るレコーダ1Aの一例を示すブロック図である。
 レコーダ1Aは、複数のコネクタC1~Cnと、出力用コネクタCoと、内蔵のマイクロフォンMと、スピーカ56と、ADC4と、デジタル/アナログコンバータ(以下、DACという)57と、電源装置58と、操作装置2と、表示装置3と、時計装置59と、記憶装置7と、通信装置8と、プロセッサ(またはコントローラ)6とを備える。なお、ADC4、DAC57、時計装置59、通信装置8、プロセッサ6は、適宜組み合わせてもよい。レコーダ1Aの各種の構成要素は、例えば、バス60を介して互いにデータ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などを送受信可能である。
 出力用コネクタCoは、外付けのスピーカ、ヘッドフォン、または、イヤホンなどの音出力装置と接続可能である。出力用コネクタCoは、例えばDAC57から受信したアナログ信号を、この出力用コネクタCoに接続された音出力装置へ出力する。
 また、出力用コネクタCoは、他の情報処理装置などと接続可能である。出力用コネクタCoは、データを、この出力用コネクタCoに接続された情報処理装置へ出力する。
 スピーカ56は、レコーダ1に内蔵されており、DAC57から受信したアナログ信号に基づいて音を出力する。
 電源装置58は、電池を搭載可能であるか、または、充電式の電池を備えており、レコーダ1Aの各構成要素に対して電力を供給する。
 操作装置2は、ユーザによって操作される。操作装置2は、例えば、ユーザからの指示を受け付け、指示をプロセッサ6へ通知する。操作装置2は、第1の操作部2aと第2の操作部2bとを備える。第1の操作部2aと第2の操作部2bとのうちの少なくとも一方は、例えばボタンなどでもよい。
 第1の操作部2aは、ユーザからモードの指定を受け付け、ユーザのモードの指定状態をプロセッサ6へ送信する。第2の実施形態において、レコーダ1Aは少なくとも第1および第2のモードで動作可能である。
 第2の操作部2bは、音データ生成と文字起こし(テキストデータ生成。書き起こしと表記されてもよい)と翻訳との開始をユーザから1回の指定(クリックまたは押下)で受け付け、ユーザから音データ生成と文字起こしと翻訳とが指示されたことを示す信号をプロセッサ6へ送信する。
 なお、第2の操作部2bは、音データ生成と文字起こしとをユーザから1回の指定で受け付け、翻訳を他の指定で受け付けてもよい。
 ADC4は、解析情報9をプロセッサ6へ送信する。なお、ADC4は、解析情報9をDAC57経由でプロセッサ6の入力ポート6pへ送信してもよい。
 DAC57は、ADC4から受信したデジタル信号に対して、デジタル/アナログ変換を行い、アナログ信号を、プロセッサ6におけるアナログ信号用の入力ポート6pへ送信する。
 また、DAC57は、プロセッサ6から受信した音出力用のデジタル信号をアナログ信号へ変換し、アナログ信号をスピーカ56または出力用コネクタCoへ出力する。
 時計装置59は、例えばプロセッサ6へ時間情報を送信する。
 プロセッサ6は、入力ポート6pから入力したアナログ信号に対するアナログ/デジタル変換機能6aを備える。
 アナログ/デジタル変換機能11aは、DAC57からプロセッサ6のアナログ信号用の入力ポート6p経由でアナログ信号を受信すると、アナログ信号をデジタル信号に変換する。
 図6は、第2の実施形態に係るレコーダ1Aの外観を示す正面図である。
 このレコーダ1Aの正面には、表示装置3と、第1の操作部2aと、第2の操作部2bと、第3の操作部2cと、スピーカ56と、マイクロフォンMとが配置されている。
 表示装置3には、メタデータ13の一部と文字データ16の一部とが表示されている。
 図6には図示されていないが、例えば、レコーダ1Aの上面または側面には、外付けのマイクロフォンM1~Mn用の複数のコネクタC1~Cnが配置されている。
 第1の操作部2aは、モードの指定を受け付ける。第2の操作部2bは、文字起こしの開始と終了の指示を受け付ける。第3の操作部2cは、電源のオン/オフを受け付ける。
 以上説明した第2の実施形態に係るレコーダ1Aを用いることにより、上記の第1の実施形態で説明したレコーダ1を用いる場合と同様の効果を得ることができる。
 第2の実施形態に係るレコーダ1Aを使用するユーザは、レコーダ1Aの第2の操作部2bを用いて、音の録音と文字起こし、あるいは、音の録音と文字起こしと翻訳とを1回の指定により容易に行うことができ、ユーザの利便性を向上させることができる。
 (第3の実施形態)
 第3の実施形態では、第1の実施形態で説明した第1のサーバ19の変形例を説明する。第3の実施形態では、第1のサーバが、レコーダ1またはユーザ端末29から、メタデータ13と、音データ14と、文字起こしリクエストとを受信した場合を例として説明する。なお、第1のサーバが、レコーダ1またはユーザ端末29から、翻訳リクエストまたは話者認識リクエストを受信した場合も、同様である。また、先で説明したように、リクエストの送受信は省略されてもよい。
 図7は、第3の実施形態に係る第1のサーバ19Aの構成の一例を示すブロック図である。
 第1のサーバ19Aは、ユーザの所有するレコーダ1またはユーザ端末29とゲートウェイ61を介して通信可能である。ゲートウェイ61は、インタフェースの異なる装置間での通信を可能とする。
 第1のサーバ19Aは、API&スタティックウェブページ62、データベース63、音データ14用の記憶装置64、文字起こしタスクキュー65、文字起こし処理66、文字データ16およびピックアップ・セグメント35用の記憶装置67を備える。
 データベース63、記憶装置64、記憶装置67は、上記第1の実施形態で説明した第1のサーバの記憶装置31に相当する。
 API&スタティックウェブページ62は、まず、スタティックウェブページを、ゲートウェイ61経由で、レコーダ1またはユーザ端末29へ提供する。レコーダ1またはユーザ端末29は、スタティックウェブページに基づいて動作する。これにより、レコーダ1またはユーザ端末29と第1のサーバ19AとがAPIを用いて連携して動作可能となる。
 API&スタティックウェブページ62は、例えば、第1の実施形態で説明した通信装置30、受信部37、表示制御部42、送信部41、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46などに相当する。
 API&スタティックウェブページ62は、レコーダ1またはユーザ端末29へ、APIサービスを提供するとともに、ウェブサイトとしての機能を提供する。API&スタティックウェブページ62は、レコーダ1またはユーザ端末29からゲートウェイ61経由でリクエストまたはデータを受信した場合に、リクエストまたはデータに応じた処理を実行し、データベース63、記憶装置64、記憶装置67に記憶されておりリクエストまたはデータに対応するデータを、ゲートウェイ61経由でレコーダ1またはユーザ端末29へ送信する。
 具体的には、API&スタティックウェブページ62は、例えば、レコーダ1またはユーザ端末29からゲートウェイ61経由で、メタデータ13、音データ14、文字起こしリクエストを受信する。そして、API&スタティックウェブページ62は、メタデータ13を、ユーザ情報68と関連付けた状態でデータベース63へ記憶させ、音データ14を記憶装置64へ記憶させる。
 また、API&スタティックウェブページ62は、文字起こしリクエストまたは音データ14を受信すると、文字起こしタスクキュー65に、文字起こしタスクを記憶させる。
 さらに、API&スタティックウェブページ62は、必要に応じて、データベース63に記憶されているメタデータ13、記憶装置64に記憶されている音データ14、または、記憶装置67に記憶されている文字データ16またはピックアップ・セグメント35を読み出し、読み出したメタデータ13、音データ14、文字データ16、ピックアップ・セグメント35を、ゲートウェイ61経由でユーザ端末29へ送信する。
 文字起こしタスクキュー65は、先入先出方式で、文字起こしタスクの実行順序を管理し、実行すべき文字起こしタスクを文字起こし処理66へ提供する。
 文字起こし処理66は、上記第1の実施形態で説明した文字起こし部38に相当する。文字起こし処理66は、文字起こしタスクキュー65から取得した文字起こしタスクにしたがって、記憶装置64に記憶されている音データ14を読み出し、音データ14に対応する文字データ16を生成し、文字データ16を記憶装置67に記憶させる。さらに、文字起こし処理66は、データベース63で管理されているメタデータ13を更新し、メタデータ13に文字データ16の位置情報を追加する。
 文字起こし処理66は、例えばAPI20aを用いて第2のサーバ20の文字起こし処理47により文字データ16を取得してもよい。
 以上説明した第3の実施形態に係る第1のサーバ19Aを用いることにより、上記の第1の実施形態で説明した第1のサーバ19を用いる場合と同様の効果を得ることができる。
 第3の実施形態においては、メタデータ13を記憶するデータベース63と、音データ14を記憶する記憶装置64と、文字データ16およびピックアップ・セグメント35を記憶する記憶装置67とを区別している。メタデータ13、音データ14、文字データ16およびピックアップ・セグメント35は、データの形式および種類が異なる。このように、形式および種類が異なるデータを異なる記憶装置に記憶することで、データの形式および種類に適した環境で、データを管理することができ、例えば検索のスピードを速くすることができ、記憶容量を抑制することができる。
 なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削減してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

Claims (8)

  1.  複数のマイクロフォンと接続可能な複数のコネクタと、
     前記複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換するアナログ・デジタルコンバータと、
     前記デジタル信号に基づいて音データを生成するコントローラと、
     前記コントローラによって生成された前記音データを記憶する記憶装置と、
    を具備し、
     前記コントローラは、前記アナログ・デジタルコンバータから、前記複数のアナログ信号のレベルを含む解析情報を受信し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信する、
    レコーダ。
  2.  前記コントローラは、前記音データを外部の装置へ送信し、前記外部の装置から前記音データに対して文字起こし処理を実行した結果である文字データを受信し、前記文字データを、前記音データと関連付けた状態で前記記憶装置に記憶させる、
    請求項1のレコーダ。
  3.  前記コントローラは、前記解析情報を前記外部の装置へ送信し、前記外部の装置から前記音データと前記解析情報とに基づいて話者認識処理を実行した結果である話者認識データを受信し、前記話者認識データを、前記音データおよび前記文字データと関連付けた状態で前記記憶装置に記憶させる、
    請求項2のレコーダ。
  4.  ユーザから第1のモードまたは第2のモードの指定を受け付ける操作装置をさらに具備し、
     前記コントローラは、前記第1のモードまたは前記第2のモードの指定にしたがって、前記音データの送信先のAPI(Application Programming Interface)を切り替える、
    請求項2のレコーダ。
  5.  請求項2のレコーダから前記音データを受信する情報処理装置において、
     前記レコーダから受信した前記音データを記憶する第1の記憶装置と、
     前記第1の記憶装置に記憶されている前記音データに対して前記文字起こし処理を実行した結果得られる前記文字データを記憶する第2の記憶装置と、
     前記第2の記憶装置に記憶されている前記文字データを前記レコーダへ送信する送信部と、
    を具備し、
     前記文字データは、複数の文字セグメントに分割されており、
     前記複数の文字セグメントのうちユーザから指定されたセグメントを、ユーザから指定された前記第2の記憶装置内のファイルに組み込む、
    情報処理装置。
  6.  請求項3のレコーダから前記音データおよび前記解析情報を受信する情報処理装置において、
     前記レコーダから受信した前記音データおよび前記解析情報を記憶する第1の記憶装置と、
     前記音データと前記解析情報とに基づいて前記話者認識処理した結果得られる前記話者認識データを、前記第1の記憶装置に記憶させる話者認識部と、
    を具備する、情報処理装置。
  7.  複数のマイクロフォンのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換するアナログ・デジタルコンバータと、
     前記デジタル信号に基づいて音データを生成するコントローラと、
     前記コントローラによって生成された前記音データを記憶する記憶装置と、
    を具備し、
     前記コントローラは、前記アナログ・デジタルコンバータから、前記複数のアナログ信号のレベルを含む解析情報を受信し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信する、
    情報処理システム。
  8.  アナログ・デジタルコンバータによって、複数のマイクロフォンのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換し、前記複数のアナログ信号のレベルを含む解析情報と前記デジタル信号をコントローラへ送信することと、
     前記コントローラによって、前記デジタル信号に基づいて音データを生成して前記音データを記憶装置に記憶し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信することと、
    を具備する情報処理方法。
PCT/JP2021/003498 2020-02-10 2021-02-01 レコーダ、情報処理装置、情報処理システム、および、情報処理方法 WO2021161834A1 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2020020628A JP6736116B1 (ja) 2020-02-10 2020-02-10 レコーダおよび情報処理装置
JP2020-020628 2020-02-10
JP2020-103824 2020-06-16
JP2020103824A JP6770769B1 (ja) 2020-02-10 2020-06-16 情報処理装置、情報処理システム、および、プログラム
JP2020-155497 2020-09-16
JP2020155497A JP7048113B2 (ja) 2020-09-16 2020-09-16 情報処理装置、情報処理システム、および、プログラム

Publications (1)

Publication Number Publication Date
WO2021161834A1 true WO2021161834A1 (ja) 2021-08-19

Family

ID=77293111

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003498 WO2021161834A1 (ja) 2020-02-10 2021-02-01 レコーダ、情報処理装置、情報処理システム、および、情報処理方法

Country Status (1)

Country Link
WO (1) WO2021161834A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
JP2011044908A (ja) * 2009-08-21 2011-03-03 Renesas Electronics Corp 音声処理装置およびその動作方法
JP2013005390A (ja) * 2011-06-21 2013-01-07 Rohm Co Ltd オーディオ信号処理回路およびそれを用いたオーディオ装置
JP2014523663A (ja) * 2011-06-01 2014-09-11 エプコス アーゲー アナログデータ処理ユニットを備えるアセンブリ及び当該アセンブリを使用する方法
JP2019071511A (ja) * 2017-10-05 2019-05-09 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
US20190190528A1 (en) * 2017-12-15 2019-06-20 Microchip Technology Incorporated Analog-to-digital converter with autonomous gain stage and auto scaling, and related systems and methods

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
JP2011044908A (ja) * 2009-08-21 2011-03-03 Renesas Electronics Corp 音声処理装置およびその動作方法
JP2014523663A (ja) * 2011-06-01 2014-09-11 エプコス アーゲー アナログデータ処理ユニットを備えるアセンブリ及び当該アセンブリを使用する方法
JP2013005390A (ja) * 2011-06-21 2013-01-07 Rohm Co Ltd オーディオ信号処理回路およびそれを用いたオーディオ装置
JP2019071511A (ja) * 2017-10-05 2019-05-09 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
US20190190528A1 (en) * 2017-12-15 2019-06-20 Microchip Technology Incorporated Analog-to-digital converter with autonomous gain stage and auto scaling, and related systems and methods

Similar Documents

Publication Publication Date Title
WO2016177296A1 (zh) 一种生成视频的方法和装置
US7386193B2 (en) Information processing apparatus, information processing method, information processing system and program thereof
US7773977B2 (en) Data-sharing system and data-sharing method
US8416184B2 (en) Information processing apparatus, information processing method and program
US20120096368A1 (en) Cloud-based virtual clipboard
US20070271310A1 (en) Method and apparatus for synchronizing device providing content directory service with device not providing content directory service
US8340797B2 (en) Method and system for generating and processing digital content based on text-to-speech conversion
KR101771437B1 (ko) 컨텐츠의 속성을 기초로 컨텐츠를 제공할 기기를 결정하는 컨텐츠 제공방법 및 이를 적용한 전자기기
JP5370432B2 (ja) 管理装置、カラオケシステム及び管理方法
JP2006236249A (ja) 電子メールの添付画像ファイル生成装置ならびにその方法およびその制御プログラム
JP2008293219A (ja) コンテンツ管理システム、コンテンツ管理システムにおける情報処理装置、情報処理装置におけるリンク情報生成方法、情報処理装置におけるリンク情報生成プログラム、及びリンク情報生成プログラムを記録した記録媒体
WO2023125847A1 (zh) 一种音频处理方法、系统及相关装置
JP2006345214A (ja) 3次元イメージデータ配信装置並びに3次元イメージデータ配信方法
KR20010103273A (ko) 동기 멀티미디어 통합언어 포맷을 이용한 전자 음악 배급서비스 시스템 및 그 방법
WO2021161834A1 (ja) レコーダ、情報処理装置、情報処理システム、および、情報処理方法
JP6770769B1 (ja) 情報処理装置、情報処理システム、および、プログラム
JP7048113B2 (ja) 情報処理装置、情報処理システム、および、プログラム
JP6736116B1 (ja) レコーダおよび情報処理装置
JP5713214B2 (ja) カラオケシステム及びカラオケ装置
JP6051075B2 (ja) 通信障害時にデュエット歌唱を継続可能な通信カラオケシステム
JP6007098B2 (ja) 歌唱動画生成システム
JP5522418B2 (ja) カラオケシステム及びカラオケ装置
JP2014199282A (ja) ユーザーカメラで撮影された静止画を利用可能な歌唱動画データ生成装置
JP5815650B2 (ja) 遠隔ファイルアクセス端末、ストレージ端末、遠隔ファイルアクセス方法、遠隔ファイルアクセス端末用プログラム
JP3145706U (ja) ビデオ−オーディオ娯楽マルチメディア処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21754174

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21754174

Country of ref document: EP

Kind code of ref document: A1