WO2021260763A1 - 語彙数推定装置、語彙数推定方法、およびプログラム - Google Patents
語彙数推定装置、語彙数推定方法、およびプログラム Download PDFInfo
- Publication number
- WO2021260763A1 WO2021260763A1 PCT/JP2020/024348 JP2020024348W WO2021260763A1 WO 2021260763 A1 WO2021260763 A1 WO 2021260763A1 JP 2020024348 W JP2020024348 W JP 2020024348W WO 2021260763 A1 WO2021260763 A1 WO 2021260763A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- word
- words
- test
- vocabulary
- intimacy
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Definitions
- the present invention relates to a technique for estimating the number of vocabularies.
- the total number of words a person knows is called the person's vocabulary.
- the vocabulary number estimation test is a test for accurately estimating the vocabulary number in a short time (see, for example, Non-Patent Document 1 and the like). The outline of the estimation procedure is shown below.
- Word intimacy Select test words from the word list in the DB (database) in order of intimacy at almost regular intervals.
- the intimacy of the test words does not necessarily have to be at regular intervals, but may be at regular intervals. That is, the numerical value of the intimacy of the test word may be coarse or dense.
- the intimacy (word intimacy) is a numerical value of the familiarity of a word. The more intimate a word is, the more familiar it is.
- the number of vocabulary words of the user can be estimated accurately only by testing whether or not the selected test word is known.
- a person who knows a word with a certain intimacy estimates the number of vocabularies on the assumption that he / she knows all the words with a higher intimacy.
- the present invention has been made in view of such a point, and an object of the present invention is to avoid confusion among users by setting a word with a notation that is not normally used as a test word in vocabulary number estimation.
- the device of the present invention has a problem generation unit that selects a plurality of test words from a plurality of words, a presentation unit that presents the test word to a user, and an answer reception unit that receives an answer regarding the user's knowledge of the test word.
- a vocabulary number estimation unit that obtains a model representing the relationship between the value based on the vocabulary number of the user when the user replies that he / she knows the word, and the problem generation unit.
- a word whose notational validity meets a predetermined criterion is selected as the test word.
- the words are ranked in the order based on the intimacy within the subject with respect to the words of the subject belonging to the subject set, the number of vocabulary of the user can be estimated with high accuracy by the generated model.
- FIG. 1 is a block diagram illustrating a functional configuration of the vocabulary number estimation device of the embodiment.
- FIG. 2A is a histogram illustrating the relationship between the intimacy of each word and the number of words in that intimacy.
- FIG. 2B is a histogram illustrating the relationship between the intimacy of each word and the estimated number of vocabularies of those who know the word.
- FIG. 3A is a graph illustrating a model of logistic regression showing the relationship between the probability that a user answers that he / she knows a word and the number of vocabularies estimated by the conventional method.
- FIG. 1 is a block diagram illustrating a functional configuration of the vocabulary number estimation device of the embodiment.
- FIG. 2A is a histogram illustrating the relationship between the intimacy of each word and the number of words in that intimacy.
- FIG. 2B is a histogram illustrating the relationship between the intimacy of each word and the estimated number of vocabularies of those who know the word.
- FIG. 3A is a graph
- FIG. 3B is a graph illustrating a logistic regression model showing the relationship between the probability that a user answers that he or she knows a word and the number of vocabularies estimated by the method of the embodiment.
- FIG. 4A is a graph illustrating a model of logistic regression showing the relationship between the probability that a user answers that he / she knows a word and the number of vocabularies estimated by the conventional method.
- FIG. 4B is a graph illustrating a logistic regression model showing the relationship between the probability that a user answers that he or she knows a word and the number of vocabularies estimated by the method of the embodiment.
- FIG. 5 is a diagram illustrating a screen presented by the presentation unit.
- FIG. 6 is a diagram illustrating a screen presented by the presentation unit.
- FIG. 7 is a diagram illustrating a screen presented by the presentation unit.
- FIG. 8 is a diagram illustrating a screen presented by the presentation unit.
- FIG. 9A exemplifies a logistic regression model showing the relationship between the probability that a user answers that he or she knows a word and the number of vocabularies estimated by the conventional method when the test is performed without separating the words by part of speech. It is a graph.
- FIG. 9B is a graph illustrating a logistic regression model showing the relationship between the probability that the user answers that he / she knows a word and the number of vocabularies estimated by the conventional method when the test is performed for each part of speech.
- 10A and 10B are graphs illustrating a logistic regression model showing the relationship between the probability that the user answers that he / she knows a word and the number of vocabularies estimated by the conventional method when the test is performed for each part of speech.
- 11A and 11B are diagrams illustrating a vocabulary acquisition curve that estimates the vocabulary acquisition rate in each grade.
- 12A and 12B are diagrams illustrating a vocabulary acquisition curve that estimates the vocabulary acquisition rate in each grade.
- FIG. 13 is a block diagram illustrating a hardware configuration of the vocabulary number estimation device of the embodiment.
- the vocabulary number estimation device 1 of the present embodiment has a storage unit 11, a problem generation unit 12, a presentation unit 13, an answer reception unit 14, and a vocabulary number estimation unit 15.
- the intimacy database (DB) is stored in the storage unit 11 in advance.
- the word intimacy DB is a database that stores a set of M words (a plurality of words) and a predetermined intimacy (word intimacy) for each of the words.
- M words in the word intimacy DB are ranked in an order based on intimacy (for example, intimacy order).
- M is an integer of 2 or more representing the number of words included in the word intimacy DB.
- the value of M is not limited, but for example, M is preferably 70,000 or more. It is said that the vocabulary of Japanese adults is about 40,000 to 50,000, so if it is about 70,000, it can cover most people's vocabulary including individual differences.
- the estimated number of vocabularies is limited to the number of words included in the reference word intimacy DB. Therefore, when performing vocabulary estimation for a person with a large number of vocabularies that is an outlier, it is desirable to increase the value of M.
- the intimacy is a numerical value of the familiarity of a word (see, for example, Non-Patent Document 1 and the like). Words with higher intimacy are more familiar. In the present embodiment, the larger the numerical value representing the intimacy, the higher the intimacy. However, this does not limit the present invention.
- the storage unit 11 receives a read request from the problem generation unit 12 and the vocabulary number estimation unit 15 as input, and outputs a word corresponding to the request and the intimacy of the word.
- the word parent of the storage unit 11 A plurality of test words w (1), ..., W (N) used for the vocabulary number estimation test are selected and output from a plurality of ordered words included in the density DB.
- the problem generation unit 12 selects N words at substantially regular intervals in the order of intimacy for all the words included in the word intimacy DB of the storage unit 11, and the selected N words are test words. It is output as w (1), ..., W (N).
- the intimacy of the test words w (1), ..., W (N) does not necessarily have to be at regular intervals, but may be at substantially constant intervals. That is, the numerical values of the intimacy of a series of test words w (1), ..., W (N) may be coarse or dense.
- the order of the test words w (1), ..., W (N) output from the problem generation unit 12 is not limited, but the problem generation unit 12 has, for example, the test words w (1), ..., In descending order of intimacy.
- the number N of test words may be specified by the question generation request or may be predetermined.
- the value of N is not limited, but for example, about 50 ⁇ N ⁇ 100 is desirable. It is desirable that N ⁇ 25 for sufficient estimation.
- step S12 The larger N is, the more accurate the estimation is possible, but the load on the user (subject) is high (step S12).
- a test of 50 words is performed multiple times (for example, 3 times), the number of vocabulary is estimated for each test, and the answers for multiple times are summarized. You may re-estimate. In this case, since the number of test words can be reduced once, the burden on the user is small, and if the results can be seen for each test, the user's answer motivation can be maintained.
- the estimation accuracy can be improved by performing the final vocabulary number estimation by combining the words for a plurality of times.
- N test words w (1), ..., W (N) output from the problem generation unit 12 are input.
- the presentation unit 13 presents the test words w (1), ..., W (N) to the user 100 (subject) according to a preset display format. For example, the presentation unit 13 follows a preset display format, a predetermined instruction sentence prompting the input of an answer regarding the knowledge of the test word of the user 100, and N test words w (1) ,. w (N) is presented to the user 100 in a format for vocabulary number estimation test.
- the presentation unit 13 may be a display screen of a terminal device such as a PC (personal computer), a tablet, or a smartphone, and may electronically display an instruction sentence and a test word.
- the presentation unit 13 is a printing device, and the instruction sentence and the test word may be printed on paper or the like and output.
- the presentation unit 13 may be a speaker of the terminal device, and the instruction sentence and the test word may be output by voice.
- the presentation unit 13 may be a braille display and present the braille of the instruction sentence and the test word.
- the answer regarding the knowledge of the test word of the user 100 represents either "knows” or “does not know” the test word (answer that the test word of each rank is known or not known). It may represent any of three or more options including “know” and “do not know”. Examples of options other than “know” and “don't know” are “I'm not confident (whether I know)” or “I know the word but I don't know the meaning”. However, even if the user 100 is asked to answer from three or more options including "know” and “do not know", the number of vocabulary is compared with the case where either "know” or “do not know” is answered. The estimation accuracy may not improve.
- test words are presented in descending order of intimacy, but the presentation order is not limited to this, and the test words may be presented in a random order (step S13).
- the set of 100 users of the vocabulary number estimation device 1 will be referred to as a subject set.
- the subject set may be a set of 100 users with specific attributes (for example, generation, gender, occupation, etc.), or a set of 100 users with arbitrary attributes (a set that does not restrict the attributes of constituent members). There may be.
- the user 100 presented with the instruction sentence and the test word answers the answer regarding the knowledge of the test word of the user 100.
- Enter in 14 the response receiving unit 14 is a touch panel of a terminal device such as a PC, a tablet, or a smartphone, and the user 100 inputs an answer to the touch panel.
- the answer receiving unit 14 may be a microphone of the terminal device, and in this case, the user 100 inputs the answer by voice to the microphone.
- the answer reception unit 14 receives an answer regarding the knowledge of the input test word (for example, an answer that the test word is known or an answer that the test word is not known), and outputs the answer as electronic data. do.
- the answer receiving unit 14 may output answers for each test word, may output answers for one test collectively, or may output answers for a plurality of tests together (step S14). ).
- the vocabulary number estimation unit 15 uses the test word w (n). Count up the number of people you know.
- the vocabulary number estimation unit 15 stores the number of people who know the test word w (n) in association with the test word in the word intimacy DB of the storage unit 11. The same process is performed for the responses of a plurality of users 100 (subjects) belonging to the subject set.
- the number of people who know the test word w (n) is associated with each test word in the word intimacy DB.
- the in-subject intimacy is a numerical value indicating the "familiarity" of the subjects belonging to the subject set with respect to the test word w (n) based on the number or ratio of those who answered that they know each test word w (n).
- the in-subject intimacy a (n) of the test word w (n) is a value (for example, a function value) based on the number or percentage of respondents who answered that they know the test word w (n).
- the in-subject intimacy a (n) of the test word w (n) may be the number of people who answered that they know the test word w (n), or the test word w (n) may be used. It may be a non-monotonic decrease function value (for example, a monotonous increase function value) of the number of people who answered that they know, or if they know the test word w (n) for the total number of 100 users who responded. It may be the ratio of the number of respondents, the ratio of the number of respondents who answered that they knew the test word to all the members of the subject set, or the non-monotonic decreasing function value of any of these ratios ( For example, it may be a monotonically increasing function value).
- the initial value of the intimacy a (n) in each subject may be, for example, the intimacy of the test word w (n) itself, or may be another fixed value (step S151).
- test words w (1), ..., W (N) output from the problem generation unit 12 are input to the vocabulary number estimation unit 15.
- the vocabulary number estimation unit 15 uses the word intimacy DB stored in the storage unit 11 to obtain the latent vocabulary number x (n) of each test word w (n).
- the word intimacy DB stores the intimacy of each word.
- the vocabulary number estimation unit 15 obtains the latent vocabulary number x (n) corresponding to each test word w (n) based on the intimacy predetermined for the word in the word intimacy DB.
- the "latent vocabulary number" corresponding to the test word is the number of all words (including words other than the test word) that the subject can assume to know if the subject knows the test word. (Vocabulary number).
- the vocabulary number estimation unit 15 sets the total number of words having a higher intimacy than each test word w (n) in the word intimacy DB as the latent vocabulary number x (n) of a person who knows each test word. obtain. This is based on the assumption that a person who knows a test word knows all the words that are more intimate than the test word. That is, when the number of words of each intimacy in the word intimacy DB is counted, a histogram showing the relationship between the intimacy of each word in the word intimacy DB and the number of words of the intimacy as illustrated in FIG. 2A is obtained. can get. In the example of FIG. 2A, the intimacy is represented by a numerical value from 1 to 7, and the larger the numerical value, the higher the intimacy.
- the vocabulary number estimation unit 15 obtains a set of each test word w (n) in the word intimacy DB and the latent vocabulary number x (n) of each test word w (n), thereby a plurality.
- Intimacy-ordered word sequence W in which the test words w (1), ..., W (N) are ranked (ordered), and a plurality of latent vocabulary numbers x (1), ..., X (N) are ranked.
- the intimacy order word sequence W is a column having a plurality of test words w (1), ..., W (N) as elements
- the latent vocabulary sequence X is a plurality of latent vocabulary numbers x (1), ..., X. It is a column having (N) as an element.
- a plurality of test words w (1), ..., W (N) are in an order based on the intimacy of the test words w (1), ..., W (N) (the intimacy of the test words). It is ranked in order based on height).
- the plurality of latent vocabulary numbers x (1), ..., X (N) are ranked in order based on the intimacy of the plurality of test words w (1), ..., W (N) corresponding to them.
- the order based on intimacy may be ascending order of intimacy or descending order of intimacy. If the order based on intimacy is ascending, n 1 , n 2 ⁇ ⁇ 1, ..., N ⁇ and n 1 ⁇ n 2 , then the intimacy of the test word w (n 2 ) is the test word w (n). It is more than the intimacy of 1).
- the intimacy of the test word w (n 1 ) is the test word w. It is equal to or higher than the intimacy of (n 2).
- the intimacy-ordered word sequence W whose elements are the test words w (1), ..., W (N) arranged in descending order of intimacy, and the number of latent vocabularies x (1), ..., X (N).
- An example is an example of a table [W, X] associated with a latent vocabulary sequence X having the above as an element (step S152).
- a test in which the test words w (1), ..., W (N) are rearranged in the order based on the intimacy a (1), ..., A (N) (the order based on the high degree of intimacy within the subject) is tested.
- a'(n) is the intimacy within the subject of the test word w'(n).
- the order based on the intimacy described above is the ascending order of the intimacy
- the order based on the intimacy within the subject is also the ascending order of the intimacy within the subject.
- the order based on intimacy is the descending order of intimacy
- the order based on intimacy within the subject is also the descending order of intimacy within the subject. That is, w'(1), ..., W'(N) is a rearrangement of the order of w (1), ..., W (N), and ⁇ w'(1), ..., W'(N).
- the density a (n 1 ) is greater than or equal to the in-subject intimacy a (n 2 ) of the test word w'(n 2).
- the vocabulary number estimation unit 15 has a test word sequence W'which is a column whose elements are the test words w'(1), ..., W'(N), and a latent vocabulary number x (1), ..., X.
- the table [W'obtained by rearranging the intimacy order word string W of the table [W, X] exemplified in step S152 in descending order of the in-subject intimacy a (1), ..., A (N). , X] is illustrated (step S153).
- the vocabulary number estimation unit 15 is based on the test words w'(1), ..., W'(N) of the test word string W'and the latent vocabulary numbers x (1), ..., X (N) of the latent vocabulary number sequence X.
- the answer regarding the knowledge of the test word of the user 100 the value based on the probability that the user 100 answers that he / she knows the word (for example, the function value), and the user 100 knows the word.
- a model ⁇ representing the relationship with a value (for example, a function value) based on the number of vocabularies of the user 100 when the answer is answered is obtained.
- the value based on the probability that the user 100 answers that he / she knows the word may be the probability itself, the correction value of the probability, or the monotonic non-decreasing function value of the probability. It may be another function value of the probability.
- the value based on the vocabulary number of the user 100 when the user 100 replies that he / she knows the word may be the vocabulary number itself, or may be a correction value of the vocabulary number. It may be another function value of the vocabulary number.
- model ⁇ further has a value based on the probability that the user 100 answers that he / she knows the word, and when the user 100 answers that he / she does not know the word (or does not answer that he / she knows the word).
- the relationship between the value based on the number of vocabulary words of the user 100 and the value may be expressed.
- the model ⁇ is not limited, but an example of the model ⁇ is a logistic regression model.
- the value based on the probability that the user 100 replies that he / she knows the word is the probability itself, and the user when the user 100 replies that he / she knows the word
- a logistic curve y f (x) in which the value based on the number of vocabularies of 100 is the number of vocabularies themselves, the number of vocabularies is the independent variable x, and the probability that the user 100 answers that he or she knows each word is the dependent variable y.
- ⁇ is an example of the model ⁇ .
- ⁇ is a model parameter.
- the vocabulary number estimation unit 15 replies that the user 100 knows the test word w'(n) for the test word w'(n) that the user 100 replies to know.
- the point (x, y) (x (n), 1) where the probability y is 1 (that is, 100%) and the latent vocabulary number x corresponding to the test word w'(n) is x (n).
- the vocabulary number estimation unit 15 knows the test word w'(n) for the test word w'(n) that the user 100 replies that he / she does not know (or does not answer that he / she knows).
- the point (x, y) (the probability y of answering that is 0 (that is, 0%), and the latent vocabulary number x corresponding to the test word w'(n) at that time is x (n). x (n), 0) is set.
- the horizontal axis represents the number of latent vocabularies (x), and the vertical axis represents the probability (y) of answering that the word is known.
- a plurality of models ⁇ of the plurality of users 100 are represented by dotted logistic curves (step S154).
- the vocabulary number estimation unit 15 sets a value based on the number of latent vocabularies when the value based on the probability that the user 100 answers that he / she knows a word is a predetermined value or is in the vicinity of the predetermined value. Output as an estimated vocabulary number.
- the vocabulary number estimation unit 15 has a predetermined value or a vicinity of a predetermined value (for example, a predetermined value such as 0.5 or 0.8, or a predetermined value thereof) in which the probability that the user 100 answers that he / she knows a word is a predetermined value or a vicinity thereof.
- the number of latent vocabularies in the vicinity is output as the estimated number of vocabularies of the user 100.
- the number of latent vocabularies having a probability y that the user 100 answers that he / she knows a word is 0.5 is defined as the estimated number of vocabularies.
- the vocabulary number estimation unit 15 uses a plurality of test words w (1), ..., W (N) ranked in order based on intimacy in the subject intimacy a (1), ...
- the test word string w'(1), ..., W'(N) as an element is obtained by rearranging in the order based on a (N), and the intimacy is predetermined for the word.
- the latent vocabulary number sequence X whose elements are the latent vocabulary numbers x (1), ..., X (N) estimated based on the above and ranked in the order based on the intimacy is obtained, and the table [W'corresponding these is obtained.
- test words w (1), ..., W (N) are rearranged in the order based on the in-subject intimacy a (1), ..., A (N), and the in-subject intimacy a'(1), ...
- A'(N) -based test word strings w'(1), ..., W'(N) are associated with each of the latent vocabulary numbers x (1), ..., X (N). Therefore, the accuracy of the model ⁇ is improved. This improves the estimation accuracy of the number of vocabularies.
- the predetermined intimacy is used. It may be inappropriate for the subject set to which the user 100 belongs. In such a case, the vocabulary of the user 100 cannot be estimated accurately. For example, even words with high intimacy (for example, words with intimacy of 6 or more), "bank”, “economy”, and “most” that almost every adult would know are targeted at sixth graders. According to the survey, the percentage of children who answered that they "know” the target word was 99.3% for "bank”, 73.8% for "economy", and 48.6% for "most”. There is. In other words, in the conventional method, there is a big difference in the estimation result depending on which word is used as the test word even for words with close intimacy.
- the estimated vocabulary number in order to associate the estimated vocabulary number with each test word based on the intimacy within the subject with respect to the test word of the subject belonging to the subject set, the estimated vocabulary number from the answer regarding the knowledge of the test word of the user. Can be obtained with high accuracy.
- FIGS. 3 and 4 exemplify a comparison between the models obtained by the conventional method and the method of the present embodiment.
- 3A and 4A exemplify the model obtained by the conventional method
- FIGS. 3B and 4B are the models obtained in the present embodiment using the same word intimacy DB and answer as in FIGS. 3A and 4A, respectively. Is illustrated.
- the horizontal axis represents the number of latent vocabularies (x), and the vertical axis represents the probability (y) of answering that the word is known.
- the presentation unit 13 presents all N test words, and the answer reception unit 14 receives answers regarding the knowledge of the user's test words for all N test words. Easy to implement. However, the presentation unit 13 may present the test words in order, and each time the test word is presented, the answer reception unit 14 may receive an answer regarding the knowledge of the user's test word. At this time, the problem occurs when the user does not know the presented test word and answers P times (P is an integer of 1 or more, preferably an integer of 2 or more. P is preset). The presentation may be stopped. In this case, for the test word for which the user has not answered, each process is executed assuming that the user has answered that he / she does not know the test word.
- test word with the same degree of intimacy (or a little higher intimacy) as the test word is presented, and the answer reception unit 14 presents another test word. Answers regarding the user's knowledge of test words may be accepted. By testing in detail near the intimacy of the test words that you answered that you do not know, you can improve the accuracy of estimating the number of vocabulary words of the user.
- the total number of words having a higher intimacy than each test word w (n) in the word intimacy DB is defined as the latent vocabulary number x (n) when each test word is known.
- this does not limit the present invention. For example, knowing each test word a value based on the total number of words having a higher intimacy than each test word w (n) in the word intimacy DB (for example, a function value such as a non-monotonic non-decreasing function value). It may be the latent vocabulary number x (n) when there is.
- steps S12, S13, S14, S151, S152, S153, S154, and S155 for each user 100
- steps S12, S13, S14, and S151 for a predetermined number of users 100 (subjects).
- the process of steps S152, S153, S154, and S155 may not be executed until the process is executed. Further, after the processes of steps S12, S13, S14, and S151 are executed for the predetermined number of users 100 (subjects), the count-up of the number of people who know the test word w (n) in step S151 is stopped. You may.
- steps S12, S13, S14, S151 are executed for a predetermined number of users 100, and further, in steps S152, S153, the table [W', X] is executed. Is obtained, the table [W', X] may be stored in the storage unit 11. As a result, if the same test words w (1), ..., W (N) are used, the vocabulary number estimation unit 15 needs to calculate the table [W', X] every time in the subsequent vocabulary number estimation. There is no.
- the second embodiment is a modification of the first embodiment and the modification of the first embodiment, and is different from these in that a test word is selected from words other than those characteristic of sentences in a specific field.
- a test word is selected from words other than those characteristic of sentences in a specific field.
- the intimacy of words that appear in textbooks or are learned as important items will be higher than the intimacy of adults with the words. Therefore, for example, if a word that appears in a textbook or a word that has just been learned is used as a test word and the vocabulary number is estimated for children in the curriculum, the estimated vocabulary number may become too large. For example, the word "metaphor" is learned in the first grade of junior high school. Therefore, compared to other words with similar intimacy, the percentage of people who know it jumps sharply in the first grade of junior high school. If such a word is used as a test word in the vocabulary number estimation of the user 100 in the first grade of junior high school, the estimated vocabulary number may become too large. The same applies to words that appear as important words in certain units such as science and society, such as shear waves, villas, and organic matter.
- Words that are characteristic of textbook text are, for example, words that appear repeatedly in a certain unit, words that appear as important words, and words that appear only in a certain subject. Whether or not a word appears characteristically in such a textbook can be determined, for example, by whether or not the word is characteristic of the textbook (for example, a word having a significantly high degree of characteristic) in a known textbook corpus vocabulary table.
- the characteristic degree of the elementary school textbook may be used, or the characteristic degree of the textbook of a specific subject may be used to determine whether or not to exclude from the test word candidates. You may use the characteristics of the textbook of the grade. Further, for example, when estimating the vocabulary number of 100 elementary school users, words including kanji that are not learned in elementary school may be excluded from the test word candidates. Similarly, when estimating the vocabulary number of 100 adult users, words characteristic of sentences in a certain specialized field may be excluded from test word candidates. As described above, in the present embodiment, the test word is selected from the words other than the words characteristic of the sentence in the specific field. This will be described in detail below.
- the vocabulary number estimation device 2 of the present embodiment has a storage unit 21, a problem generation unit 22, a presentation unit 13, an answer reception unit 14, and a vocabulary number estimation unit 15.
- the only difference from the first embodiment is the storage unit 21 and the problem generation unit 22. In the following, only the storage unit 21 and the problem generation unit 22 will be described.
- ⁇ Memory unit 21> The difference from the storage unit 11 of the first embodiment is that the storage unit 21 stores a specific field word DB in which words characteristic of a sentence in a specific field are stored in addition to the word intimacy DB.
- specific disciplines are textbook disciplines and disciplines.
- the textbook field may be all textbook fields, a textbook field of a specific grade, or a textbook field of a specific subject.
- the discipline may be any discipline or a specific discipline.
- the specific field word DB is described as, for example, a textbook DB in which words described as words characteristically frequently appearing in a textbook corpus vocabulary table, or words characteristically frequently appearing in a specialized book or specialized corpus. It is a technical word DB or the like that records the words that have been made (step S21). Others are the same as those in the first embodiment.
- ⁇ Problem generation unit 22> When the problem generation unit 22 receives the problem generation request from the user or the system as an input, the problem generation unit 22 receives a plurality of test words w (1) used for the vocabulary number estimation test from the plurality of words included in the word intimacy DB of the storage unit 21. ), ..., w (N) is selected and output.
- the difference between the question generation unit 22 and the problem generation unit 12 is that the test word is selected from the storage unit 21 instead of the storage unit 11, and the test word is selected from words other than those characteristic of the sentence in a specific field. Is.
- the problem generation unit 22 refers to, for example, the word intimacy DB and the specific field word DB stored in the storage unit 21, is recorded in the word intimacy DB, and is recorded in the specific field word DB.
- Selects N unrecorded words for example, N words are selected at substantially regular intervals in order of intimacy), and the selected N words are used as test words w (1), ..., W (N).
- Output. Others are the same as those in the first embodiment (step S22).
- the problem generation unit 22 refers to the word intimacy DB and the specific field word DB stored in the storage unit 21, is recorded in the word intimacy DB, and is recorded in the specific field word DB.
- An example of selecting N unwritten words is shown.
- a vocabulary list that can be used for the test or that you want to use that is, a vocabulary list that includes words other than words that are characteristic of sentences in a specific field
- a vocabulary list that can be used for purposes other than vocabulary number estimation may be prepared in advance, and a test word may be selected from the vocabulary list.
- the storage unit 21 may store a current affairs word DB in which a word having high current affairs is stored.
- the problem generation unit 22 refers to the word intimacy DB and the current affairs word DB stored in the storage unit 21, and is a word recorded in the word intimacy DB and not recorded in the current affairs word DB. May be selected and the selected N words may be used as test words.
- a word with high topicality is a word that is characteristic of a sentence at a specific time, that is, a word that is noticed at a specific time.
- a highly topical word means a word that appears more frequently in sentences at a particular time than in sentences at other times.
- the following are examples of words with high current affairs.
- the average value of frequency of appearance in sentences at a specific time is in sentences at other times Words that are greater than the average frequency of appearance of Words whose value obtained by subtracting the average value of the frequency of appearance in sentences of other times from the average value of the frequency of appearance in sentences of the time is larger than the positive threshold ⁇
- Words for which the ratio of the highest frequency of appearance in sentences at a specific time is greater than the positive threshold ⁇ is Words greater than the positive threshold
- Sentences at a particular time and at other times are, for example, sentences in at least one or more media such as SNS, blogs, newspaper articles, and magazines.
- test words are highly topical words whose intimacy differs greatly between the time when the intimacy of the word intimacy DB was investigated and the time when the answer regarding the knowledge of the user's test word was received for vocabulary number estimation. If so, the vocabulary number cannot be estimated. Therefore, it is desirable for the problem generator to select a test word from words other than those with high current affairs.
- N words that are recorded in the word intimacy DB and are not recorded in the current affairs word DB are selected, and the selected N words can be used for the test instead of being used as test words.
- a vocabulary list to be used that is, a vocabulary list whose elements are words other than words with high current affairs
- a test word satisfying the above-mentioned intimacy and the like may be selected from the vocabulary list. ..
- a vocabulary list that can be used for purposes other than vocabulary number estimation may be prepared in advance, and a test word may be selected from the vocabulary list.
- a word that is neither a word characteristic of a sentence in a specific field nor a word with high current affairs may be selected as a test word. That is, the problem generation unit 22 may select a test word from words other than words characteristic of sentences in a specific field and / or words with high current affairs.
- the third embodiment is a further modification of the first embodiment and the modification of the first embodiment, and differs from these in that a word whose notation validity meets a predetermined criterion is selected as a test word. ..
- a word whose notation validity meets a predetermined criterion is selected as a test word. This is to avoid confusion of the user 100 by setting a word with a notation that is not normally used as a test word.
- An example of a word whose notation validity meets a predetermined criterion is a word whose notation is highly valid, that is, a value (index value) indicating the validity of the notation is a predetermined threshold value (first threshold value). ) Or more or exceeds the threshold.
- a word whose value indicating the high validity of the notation is equal to or greater than a predetermined threshold value or exceeds the threshold value is used as a test word.
- a word in which the validity of the notation meets a predetermined criterion is a word in which the rank of the value indicating the validity of the notation is higher than the predetermined rank in a plurality of notations (for example,).
- a word having a higher rank than a predetermined rank of values indicating the high validity of the notation is used as a test word.
- the value indicating the high validity of the notation for example, those described in Shigeaki Amano, Kimihisa Kondo, "Japanese lexical characteristics Volume 2", Sanseido, Tokyo, 1999 (Reference 2) are used. be able to.
- the validity of each notation when there may be a plurality of notations for the same entry is expressed numerically. This numerical value can be used as a "value indicating the high validity of the notation".
- the validity of each notation is expressed by a numerical value from 1 to 5, for example, the validity of "mismatch” is expressed by 4.70, and the validity of "mismatch” is expressed by 3.55. Will be done. The larger the number, the higher the validity. In this case, the less valid "mismatch" is not used as a test word.
- the application frequency of the notations in this corpus may be used as "a value indicating the high validity of the notation".
- the plurality of words included in the word intimacy DB may be only words whose index representing the individual difference in familiarity with the word is equal to or less than a threshold value (second threshold value) or less than the threshold value.
- An example of such an index is the dispersion of responses when a plurality of subjects respond to the knowledge (for example, answers that they know a word, answers that they do not know a word, etc.).
- a high variance means that the evaluation of familiar words varies greatly from person to person.
- the vocabulary number estimation device 3 of the present embodiment has a storage unit 31, a problem generation unit 32, a presentation unit 13, an answer reception unit 14, and a vocabulary number estimation unit 15.
- the only difference from the first embodiment is the storage unit 31 and the problem generation unit 32. In the following, only the storage unit 31 and the problem generation unit 32 will be described.
- the word intimacy DB stored in the storage unit 31 is an index showing individual differences in familiarity with words (for example, the distribution of the above-mentioned answers).
- the storage unit 31 adds to the word intimacy DB and the notation of each word in the word intimacy DB is appropriate.
- It also stores the notation validity DB that records the value indicating the high degree of sex (for example, the numerical value indicating the validity of each notation described in Reference 2, or the application frequency of the notation in the corpus) (for example, Step S31). Others are the same as those in the first embodiment.
- the problem generation unit 32 Upon receiving the problem generation request from the user or the system, the problem generation unit 32 receives a plurality of test words w (1), which are used for the vocabulary number estimation test from the plurality of words included in the word intimacy DB of the storage unit 31. ..., W (N) is selected and output.
- the difference between the problem generation unit 32 and the problem generation unit 12 is that a test word is selected from the storage unit 31 instead of the storage unit 11, and a word whose notation validity meets a predetermined criterion is a test word. It is a point to select as.
- the problem generation unit 32 refers to, for example, the word intimacy DB and the notation validity DB stored in the storage unit 31, is recorded in the word intimacy DB, and has the validity of the notation.
- Select N words whose height meets a predetermined criterion for example, select N words at substantially regular intervals in order of intimacy
- test the selected N words w (1), ..., W ( Output as N).
- Others are the same as those in the first embodiment (step S32).
- the fourth embodiment is a modification of the first to third embodiments and the first embodiment, and is different from these in that an appropriate estimated vocabulary number is estimated for words other than the test word.
- this method requires in-subject intimacy a'(n) of each test word w'(n) in order to obtain an appropriate latent vocabulary number x (n) corresponding to each test word w'(n).
- steps S12, S13, S14 are applied to a certain number or more of users 100 (subjects) belonging to the subject set. It is necessary to execute the process of S151.
- an estimation model (estimation formula) ⁇ : x " G ( ⁇ 1 , ..., ⁇ I , ⁇ ) for obtaining the latent vocabulary number x" from the feature quantities (variables) ⁇ 1 , ..., ⁇ I of the word w.
- each word w "The number of latent vocabulary corresponding to (m) x" (m) G ( ⁇ 1 (m), ..., ⁇ I (m), ⁇ ).
- I is a positive integer representing the number of feature quantities.
- ⁇ is a model parameter.
- the estimation model is not limited, and the number of latent vocabulary x ”(m) is calculated from the feature quantities ⁇ 1 (m),..., ⁇ I (m) such as multiple regression equations and random forests. Anything can be used as long as it is estimated.
- the latent vocabulary obtained by applying the feature quantities ⁇ 1 (n), ..., ⁇ I (n) of each test word w'(n) in the correct answer data to the estimation model ⁇ .
- Minimize the error for example, average square error
- the model parameter ⁇ is estimated. Examples of the feature amount ⁇ i are the image quality of the word w "(easiness of image of the word), the intimacy of the word w" stored in the word intimacy DB, and the word w.
- the value indicating whether or not "represents a concrete object, the frequency of appearance of the word w in the corpus, etc.” is an example of the vocabulary characteristic of Japanese
- the five-level rating value or the average rating value of whether the result of the search using the definition sentence of the dictionary for the word disclosed in Reference 3 or the like is appropriate as the meaning of the dictionary may be used as the mental image of the word. good. This five-grade rating value indicates how easy it is to express the word as an image.
- feature quantities ⁇ 1 , ..., ⁇ I the image quality of the word w ", the intimacy of the word w", the value indicating whether or not the word w "represents a concrete object, and the frequency of appearance of the word w" in the corpus. All of them may be used, or only some of them may be used (for example, the feature amounts ⁇ 1 , ..., ⁇ I include the image of the word w ”, but the word w” represents a concrete object. Does not include a value indicating whether or not it is present, or includes a value indicating whether or not the word w "represents a concrete object, but the feature quantities ⁇ 1 , ..., ⁇ I does not include the mental image of the word w"). , Other values may be used. This will be described in detail below.
- the vocabulary number estimation device 4 of the present embodiment has a storage unit 11, a problem generation unit 12, a presentation unit 13, an answer reception unit 14, and a vocabulary number estimation unit 45.
- the only difference from the first embodiment is the vocabulary number estimation unit 45. In the following, only the vocabulary number estimation unit 45 will be described.
- the vocabulary number estimation unit 45 executes the processes of steps S151, S152, and S153 described above to obtain a table [W', X], and stores the table [W', X] in the storage unit 11. However, if the table [W', X] is already stored in the storage unit 11, the processes of steps S151, S152, and S153 may be omitted.
- the model parameter ⁇ of the estimation model ⁇ : x ” G ( ⁇ 1 ,..., ⁇ I , ⁇ ) is obtained by machine learning using the correct answer data.
- the estimation model ⁇ is a multiple regression equation
- the estimation model. ⁇ is expressed by the following equation (1).
- ⁇ ⁇ 0 , ⁇ 1 , ..., ⁇ I ⁇ .
- the estimation model ⁇ of the multiple regression equation is expressed by the following equation (2).
- ⁇ ⁇ 0 , ⁇ 1 , ..., ⁇ I ⁇ (step S454).
- step S12 it is not necessary for the problem generation unit 12 to select the same test words w (1), ..., W (N) each time.
- step S154 the vocabulary number estimation unit 15 has the latent vocabulary number x ”(n) associated with each test word w (n) selected in step S151 and each test word w (n) in the storage unit 11.
- the model ⁇ is obtained by using the set (w (n), x ”(n)) of and the answer regarding the knowledge of the test word of the user 100.
- the vocabulary number estimation device 4 has a storage unit 21 and a problem generation unit 22 described in the second embodiment or a variation thereof, instead of the storage unit 11 and the problem generation unit 12 described in the first embodiment. May be good.
- the process of step S22 is executed instead of step S12, but in this case as well, it is not necessary for the problem generation unit 22 to select the same test words w (1), ..., W (N) each time.
- the storage unit 31 and the problem generation unit 32 described in the third embodiment may be provided.
- the process of step S32 is executed instead of step S12, but in this case as well, it is not necessary for the problem generation unit 32 to select the same test words w (1), ..., W (N) each time.
- the fifth embodiment is a modification to the first to fourth embodiments and the first embodiment.
- the latent vocabulary of each word is used by using the word intimacy DB that stores a set of a plurality of words and a predetermined intimacy for each of the words. Got a number.
- the latent vocabulary number of each word is obtained at least based on the frequency of appearance of words in the corpus.
- a DB storing a plurality of words and the frequency of occurrence of each of the words is used.
- the number of latent vocabularies may be obtained based on the part of speech of the word.
- a DB storing a plurality of words and the frequency of occurrence and part of speech of each of the words is used.
- the person eg, American
- the native language is a language (eg, English) different from the native language (eg, Japanese) of the subject (eg, Japanese).
- the number of latent vocabularies assumed for the subject may be obtained based on the intimacy of the words in the language (foreign language intimacy).
- a DB that stores a plurality of words, the frequency of occurrence of each of the words, and / or the part of speech and the intimacy of the words in the language is used.
- the latent vocabulary number is obtained from at least one of the word appearance frequency, part of speech, and foreign language intimacy, and instead of the word intimacy DB, it is obtained for a plurality of words and each of the words.
- a DB associated with the number of latent vocabularies may be used.
- a word intimacy DB that stores a set of a plurality of words and a predetermined intimacy for each of the words.
- a word intimacy DB that stores a set of a plurality of words and a predetermined intimacy for each of the words.
- an example of estimating the number of Japanese vocabularies is shown.
- the present invention is not limited to this, and the vocabulary number estimation of a language other than Japanese (for example, English) may be performed by the present invention.
- there is no large-scale data on word intimacy for non-native languages For example, when the user 100 is Japanese, a language such as English other than Japanese is a non-native language.
- each word is further specified in each level based on a vocabulary list in which English words are divided into levels for Japanese (for example, CEFR-J Wordlist ver1.6 in Reference 5).
- a vocabulary list in which English words are divided into levels for Japanese (for example, CEFR-J Wordlist ver1.6 in Reference 5).
- Level A1 a, am, about, above, action, activity,..., yours, yourself, zoo (1197 words, 1164 words for notation fluctuations)
- Level A2 ability, abroad, accept, acceptable,..., min, youth, zone (1442 words, 1411 words for notation fluctuations)
- predetermined ranking criteria For example, at level A1, words are sorted in order of frequency of occurrence, such as a, about, yourself ,,,. Arrange the words sorted in order of appearance frequency in each level A1, A2, B1, B2, and arrange them in the order estimated to be the familiarity depth of each word as a whole.
- the latent vocabulary number x (m) is associated with each word ⁇ (m) of M words ⁇ (1), ..., ⁇ (M) arranged in the order estimated to be familiar depth.
- x (m 1 ) ⁇ x (m 2 ) is satisfied for m 1 , m 2 ⁇ ⁇ 1, ..., M ⁇ and m 1 ⁇ m 2.
- vocabulary number estimation is performed by ranking words in order of frequency of appearance in this way, it is desirable that the order of frequency of appearance of words and the order of familiarity of words match as much as possible.
- verbs such as using verbs but not nouns.
- there may be differences in the tendency of appearance in the corpus depending on the part of speech such as the absolute number of nouns being higher than that of verbs and the relative frequency being lower. Therefore, when the words are ranked in order of appearance frequency and the vocabulary number is estimated, it is difficult to treat the words of all part of speech with the same standard. Therefore, it is desirable to estimate the number of vocabulary by part of speech.
- the vocabulary number may be estimated for each part of speech using a table associated with m).
- x (m 1 ) ⁇ x (m 2 ) is satisfied for m 1 , m 2 ⁇ ⁇ 1, ..., M ⁇ and m 1 ⁇ m 2.
- the vocabulary number z (m 1 ) is the word ⁇ (m) of the "specific part of speech" whose frequency of appearance is ⁇ 2 (second value) (where ⁇ 1 is larger than ⁇ 2 , ⁇ 1 > ⁇ 2). It is less than the estimated number of vocabulary z (m 2 ) of those who know 2).
- the familiarity of the words may differ depending on the part of speech. For example, the same word is rarely used in one part of speech, but often in another. To avoid these effects, if multiple parts of speech are considered for the same word, they are considered to be the most familiar part of speech (for example, the least difficult part of speech) of the multiple parts of speech.
- the number of vocabulary is estimated for each part of speech. That is, the word ⁇ (m 1) or word omega of parts of speech (m 2), the word omega most familiar part of speech as a part of speech (m 1) or the word omega (m 2) as a "specific part of speech” described above, Estimate the number of vocabulary for each part of speech.
- the word “round” can be assumed to have the following adverbs, adjectives (adjectives), nouns (nouns), and prepositions (prepositions).
- CEFR-J it is not desirable to use words that are originally used as proper nouns for vocabulary number estimation. If you do not use words that are not included in the list such as CEFR-J, you can avoid using these words. In order of frequency, agricultural is more frequent than peaceful, but the levels of peaceful and agricultural in CEFR-J are A2 and B1 levels, respectively, which are the levels defined in CEFR-J. It seems to be more intuitive (that is, peaceful is a more familiar and familiar word than agricultural).
- the vocabulary number estimation device 5 of the present embodiment has a storage unit 51, a problem generation unit 52, a presentation unit 53, an answer reception unit 54, and a vocabulary number estimation unit 55.
- ⁇ Problem generation unit 52> When the problem generation unit 52 receives the problem generation request from the user or the system, the problem generation unit 52 estimates the vocabulary number from the M words ⁇ (1), ..., ⁇ (M) of the same part of speech contained in the DB of the storage unit 51. A plurality of test words w (1), ..., W (N) used for the test are selected and output. That is, the problem generation unit 52 selects and outputs N test words w (1), ..., W (N) having the same part of speech. The problem generation unit 52 may select and output only the test words w (1), ..., W (N) of a certain part of speech, or N test words of the same part of speech for each of a plurality of part of speech.
- N test words w (1), ..., W (N) of the same part of speech output from the problem generation unit 52 are input.
- the presentation unit 13 presents the instruction sentence and the test words w (1), ..., W (N) having the same part of speech to the user 100 according to a preset display format.
- the presentation unit 13 tests the instruction sentence and the part of speech according to a preset display format.
- the words w (1), ..., W (N) are displayed.
- N test words w (1), ..., W (N) of the same part of speech are input to the presentation unit 53 for each of the plurality of parts of speech
- the presentation unit 13 follows a preset display format.
- Instructional sentence and N test words w (1), ..., W (N) of the same part of speech are presented.
- N test words w (1), ..., W (N) of the same part of speech may be presented, divided by part of speech, or N test words w of part of speech selected by the user 100 ( 1), ..., W (N) may be presented (step S53).
- the user 100 presented with the instruction sentence and the test words w (1), ..., W (N) inputs an answer regarding the knowledge of the test word of the user 100 to the response reception unit 54.
- the answer reception unit 54 outputs an answer regarding the knowledge of the input test word (step S54).
- the presentation unit 53 displays a screen 510 as illustrated in FIG.
- the instruction sentence "Please select a word you know” and the buttons corresponding to each part of speech (noun, verb, adjective, adverb) for selecting the part of speech are 511,512,513,3.
- 514 is displayed.
- the buttons 511, 512, 513, 514 are provided with display units 511a, 512a, 513a, 514a indicating that they have been selected.
- a button 511, 512, 513, 514 of any part of speech to select it, a mark is displayed on the display unit of the selected button.
- the mark is displayed on the display unit 511a.
- the presentation unit 53 displays the screen 520 of FIG. On the screen 520, in addition to the contents displayed on the screen 510, "Tap the English you know. The" Answer "button is at the bottom.”
- N test words w (1), ..., W (N) of the selected part of speech are displayed.
- the user 100 answers by clicking or tapping a known test word, for example.
- ⁇ Vocabulary number estimation unit 55 In the vocabulary number estimation unit 55, an answer regarding the knowledge of the test word w (n) of the user 100 output from the answer reception unit 54 is input. The vocabulary number estimation unit 55 executes the process of step S151 described above.
- the test words w (1), ..., W (N) output from the problem generation unit 52 are further input to the vocabulary number estimation unit 55.
- the vocabulary number estimation unit 55 uses the DB stored in the storage unit 51 to obtain the latent vocabulary number x (n) of each test word w (n), and as described above, the test words w (1), ..., W.
- a table [W, X] in which the intimacy-ordered word string W in which (N) is ranked and the latent vocabulary number sequence X in which the latent vocabulary numbers x (1), ..., X (N) are ranked are associated with each other. ] (Step S552).
- the vocabulary number estimation unit 55 executes the process of step S153 described above, and has a test word sequence W'which is a sequence of test words w'(1), ..., W'(N) and a latent vocabulary number x (1). ), ..., A table [W', X] associated with the latent vocabulary sequence X, which is a column of x (N), is obtained.
- the vocabulary number estimation unit 55 executes the process of step S155 described above, and in the model ⁇ , the vocabulary number when the value based on the probability that the user 100 answers that he / she knows the word is a predetermined value or a value near the predetermined value.
- the value based on the value based on is output as the estimated number of vocabulary of the user 100.
- the output estimated number of vocabulary of the user 100 is displayed as shown in FIG. 8, for example. In the example of Fig.
- the horizontal axis represents the number of vocabularies (x), and the vertical axis represents the probability (y) of answering that the word is known.
- words with prefixes such as in-, re-, and un- are often relatively well-known words without the prefix. For example, inexperienced has a low frequency of appearance, so if it is ranked by frequency of appearance, the ranking will be low (words that are not familiar), but experience is a word that has a high frequency of appearance and is relatively well known.
- the level of experienced is B2
- the level of experience is A2
- the level of difficulty is attached to experience. Therefore, derived words and / or words with a prefix may be excluded from DB and test word candidates.
- English words that are Katakana (a type of Japanese character) in Japanese (hereinafter referred to as "words that are Katakana") are likely to be well known to the Japanese.
- words that are Katakana are likely to be well known to the Japanese.
- button and rabbit are words that are well known to Japanese people.
- the familiarity for the Japanese deviates from the familiarity based on the frequency of appearance of each word in the corpus and the intimacy of English-speaking native speakers. Therefore, if a word that is in Katakana is used as a test word, it may be estimated to be higher than the actual number of vocabulary words. Therefore, it is desirable not to use words that are in Katakana as test words. Whether or not the word is in Katakana can be inferred from the Japanese-English dictionary.
- the word that is in Katakana may be excluded from the test word candidates only if (is high).
- impedance is a word that is in Katakana, but the intimacy of "impedance” for Japanese people is as low as 2.5, and it is thought that it is not a word that everyone knows, so test impedance. It may be selected as a word.
- the intimacy of "rabbit” and "button” for Japanese is 6 or more, and it can be inferred that they are generally well-known words, so button and rabbit are not selected as test words.
- the vocabulary number estimation unit 55 may output the total estimated vocabulary number obtained by totaling the estimated vocabulary numbers after obtaining the estimated vocabulary number for each part of speech. Alternatively, the vocabulary number estimation unit 55 may obtain an estimated vocabulary number for a certain part of speech and then obtain an estimated vocabulary number for another part of speech from the estimated vocabulary number for that part of speech and output it.
- the vocabulary number estimation unit 55 executes the process of step S153 described above to rearrange the test words to obtain a table [W', X], and a set extracted from the table [W', X] ( A model ⁇ was obtained using w'(n), x (n)) and the answer regarding the knowledge of the test word of the user 100.
- ⁇ Extracted from x (N), a set (w (n), x (n)) of a test word w (n) of N and a latent vocabulary number x (n), and a user.
- the model ⁇ may be obtained using the answer regarding the knowledge of 100 test words.
- a specific example of this process is as described in the first embodiment, except that w'(n) is replaced with w (n). In this case, the processes of steps S151 and S153 are omitted.
- the present invention is not limited to this, and the vocabulary number of non-native words of 100 users of other nationalities may be estimated. That is, in the description of this embodiment, "Japanese” is replaced with “arbitrary national”, “Japanese” is replaced with “native language”, and “English” is replaced with "non-native language”. It may be carried out.
- the vocabulary number of Japanese words of the Japanese user 100 may be estimated. That is, it may be carried out in a form in which "English” is replaced with "Japanese”.
- the number of vocabulary words in the native language of 100 users of other nationalities may be estimated. That is, in the description of this embodiment, “Japanese” may be replaced with “arbitrary citizen”, and “Japanese” and “English” may be replaced with "native language”.
- the fifth embodiment may be applied to a modified example thereof or the third embodiment of the second embodiment. That is, in the fifth embodiment, as described in the modified example of the second embodiment, the test word may be selected from words other than the words characteristic of the sentence in the specific field. Further, in the fifth embodiment, as described in the third embodiment, a word whose high validity of the notation satisfies a predetermined criterion may be selected as a test word.
- a DB in which a set of a plurality of words and the number of latent vocabularies obtained for each of the words is associated is stored in the storage unit 51, but instead of this, as described above.
- a DB storing at least any of the word appearance frequency, part of speech, and foreign language intimacy for obtaining the latent vocabulary number of each word may be stored in the storage unit 51.
- the vocabulary number estimation unit 55 uses the DB to obtain the latent vocabulary number x (n) of each test word w (n), and the test words w (1), ..., W (N) are used as described above.
- the sixth embodiment is a modification to the modifications of the first to fifth embodiments and the first embodiment, and is a modification of the test words of a plurality of users 100 for each word from the answers regarding the knowledge of the test words, in each grade or each age. It differs from these in that it obtains a vocabulary acquisition curve that indicates the vocabulary acquisition rate.
- the vocabulary number of each user was estimated.
- a vocabulary acquisition curve showing the vocabulary acquisition rate in each generation is obtained from the answers regarding the knowledge of the test words of the plurality of users 100 and the grades or ages of the users.
- the vocabulary number estimation device 6 of the present embodiment is a vocabulary number estimation device 5 of any of the first to fifth embodiments or a modification of the first embodiment, and the vocabulary acquisition curve calculation unit 66, And a storage unit 67 for storing the vocabulary acquisition curve DB is added.
- the vocabulary acquisition curve calculation unit 66 and the storage unit 67 will be described.
- ⁇ Vocabulary acquisition curve calculation unit 66 Input: Answers regarding knowledge of test words of multiple users (for multiple grades or multiple ages) Output: Vocabulary acquisition curve for each word
- In the vocabulary acquisition curve calculation unit 66 answers regarding knowledge of a plurality of users 100's test words output from the answer reception unit 14 or 54 are input. These answers are given to users 100 of a plurality of grades or ages g (1), ..., G (J) with the same N test words w (1), from the presentation unit 13 or 54 as described above. ..., W (N) was presented and obtained.
- the vocabulary acquisition curve calculation unit 66 is input with the information on the grade or age of the user 100 as well as the answer regarding the knowledge of the test words of the plurality of users 100.
- the vocabulary acquisition curve calculation unit 66 uses the acquisition ratio r (j, n) of each test word w (n) in each grade or age g (j), and for each test word w (n), each grade.
- the vocabulary acquisition curve r (n) H (w (n), ⁇ '(n)), which is an approximate expression for obtaining the acquisition ratio r (n) of the test word w (n) with respect to the age g, is obtained, and the vocabulary is obtained.
- the storage unit 67 provides information for specifying the N vocabulary acquisition curves r (1), ..., R (N) obtained for the test words w (1), ..., W (N) in the vocabulary acquisition curve DB.
- Store as. 11A, 11B, 12A, and 12B exemplify the vocabulary acquisition curves of the test words "traffic jam", "generic name”, “fulfillment”, and "success".
- the horizontal axis of these figures shows the grade, and the vertical axis shows the acquisition rate.
- grades 1 to 6 are grades 1 to 6
- grades 1 to 3 of junior high school are grades 7 to 9
- grades 1 to 3 of high school are grades 10 to 12.
- the circles represent the acquisition ratio r (j, n) of each test word w (n) in each grade or age g (j) obtained in step S661.
- 50% of the students are estimated to have the "general term” in 7.8 years, 50% have the "fulfillment” in 9.2 years, and 50%. It is estimated that the grade in which a person obtains "success" is 29.5 years (step S662). If the grade in which the vocabulary is acquired is a value expressed in decimal numbers, it can be regarded as an integer grade, and the decimal value can be regarded as the time when the year is divided into ten.
- the grade to be acquired is 7.8 years, it is estimated that it will be acquired in the latter half of the first year of junior high school.
- the grade in which the vocabulary is acquired may be a value exceeding 12.
- the value ⁇ + 12 obtained by adding the elapsed years ⁇ starting from April of the high school graduation year to 12 is defined as the grade.
- the 29th grade is 35 years old.
- the grade may be expressed as a decimal as described above.
- the answers regarding the knowledge of the test words of the plurality of users 100 output from the answer reception unit 14 or 54 in the process of estimating the vocabulary number in the first to fifth embodiments or the modified examples of the first embodiment.
- the information on the grade or age of the user 100 was input to the vocabulary acquisition curve calculation unit 66, and the vocabulary acquisition curve calculation unit 66 estimated the number of vocabularies.
- answers regarding knowledge of the same word eg, answers as to whether or not the word is known
- users of multiple grades or ages obtained outside the process of vocabulary number estimation described above and the user.
- the vocabulary acquisition curve calculation unit 66 may use these to obtain a vocabulary acquisition curve.
- the answer regarding the knowledge of the same word may be obtained by a survey of whether or not the word is known for a purpose other than vocabulary estimation, or a "kanji test” or a "kanji reading test”. It may be the result of. That is, any answer may be used as long as it is an answer regarding the knowledge of the word obtained by investigating the same word in a plurality of grades (ages).
- the vocabulary number estimation device 6 may further include an acquisition grade estimation unit 68.
- the target word is input to the acquisition grade estimation unit 68.
- the target word and the target grade or age are input to the acquired grade estimation unit 68.
- the target grade or age is the acquisition ratio in the grade or age other than the grade or age of the user who gave the answer input to the vocabulary acquisition curve calculation unit 66 in order to obtain the vocabulary acquisition curve in steps S661 and S662. May be.
- the acquisition grade estimation unit 68 can also obtain the acquisition ratio in grade 9.
- the acquired grade estimation unit 68 may further obtain and output the grade or age at which 50% of the persons acquired the target word.
- the vocabulary number estimation device 1-6 in each embodiment is, for example, a processor (hardware processor) such as a CPU (central processing unit), a memory such as a RAM (random-access memory), a ROM (read-only memory), or the like. It is a device configured by executing a predetermined program by a general-purpose or dedicated computer. This computer may have one processor and memory, or may have a plurality of processors and memory. This program may be installed in a computer or may be recorded in a ROM or the like in advance.
- a processor hardware processor
- CPU central processing unit
- a memory such as a RAM (random-access memory), a ROM (read-only memory), or the like.
- This computer may have one processor and memory, or may have a plurality of processors and memory. This program may be installed in a computer or may be recorded in a ROM or the like in advance.
- a part or all of the processing units may be configured by using an electronic circuit that realizes a processing function independently, instead of an electronic circuit (circuitry) that realizes a function configuration by reading a program like a CPU. ..
- the electronic circuit constituting one device may include a plurality of CPUs.
- FIG. 13 is a block diagram illustrating the hardware configuration of the vocabulary number estimation device 1-6 in each embodiment.
- the vocabulary number estimation device 1-6 of this example includes a CPU (Central Processing Unit) 10a, an input unit 10b, an output unit 10c, a RAM (RandomAccessMemory) 10d, and a ROM (ReadOnlyMemory). It has 10e, an auxiliary storage device 10f, and a bus 10g.
- the CPU 10a of this example has a control unit 10aa, a calculation unit 10ab, and a register 10ac, and executes various arithmetic processes according to various programs read into the register 10ac.
- the input unit 10b is an input terminal, a keyboard, a mouse, a touch panel, or the like into which data is input.
- the output unit 10c is an output terminal from which data is output, a display, a LAN card controlled by a CPU 10a in which a predetermined program is read, and the like.
- the RAM 10d is a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or the like, and has a program area 10da in which a predetermined program is stored and a data area 10db in which various data are stored.
- the auxiliary storage device 10f is, for example, a hard disk, MO (Magneto-Optical disc), a semiconductor memory, or the like, and has a program area 10fa for storing a predetermined program and a data area 10fb for storing various data.
- the bus 10g connects the CPU 10a, the input unit 10b, the output unit 10c, the RAM 10d, the ROM 10e, and the auxiliary storage device 10f so that information can be exchanged.
- the CPU 10a writes the program stored in the program area 10fa of the auxiliary storage device 10f to the program area 10da of the RAM 10d according to the read OS (Operating System) program.
- OS Operating System
- the CPU 10a writes various data stored in the data area 10fb of the auxiliary storage device 10f to the data area 10db of the RAM 10d. Then, the address on the RAM 10d in which this program or data is written is stored in the register 10ac of the CPU 10a.
- the control unit 10aa of the CPU 10a sequentially reads out these addresses stored in the register 10ac, reads a program or data from the area on the RAM 10d indicated by the read address, causes the arithmetic unit 10ab to sequentially execute the operations indicated by the program.
- the calculation result is stored in the register 10ac.
- the above program can be recorded on a computer-readable recording medium.
- a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, and the like.
- the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
- the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
- the computer that executes such a program first temporarily stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program.
- a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
- the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and the result acquisition without transferring the program from the server computer to this computer. May be.
- the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
- the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized by hardware.
- Vocabulary number estimation device 12 1 to 6 Vocabulary number estimation device 12, 22, 32, 52 Problem generation unit 13,53 Presentation unit 14, 54 Answer reception unit 15, 45, 55 Vocabulary number estimation unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
語彙数推定装置は、複数の単語から複数のテスト単語を選択する問題生成部と、テスト単語を利用者に提示する提示部と、利用者のテスト単語の知識に関する回答を受け付ける回答受付部と、テスト単語と、テスト単語を知っている者の推定語彙数と、テスト単語の知識に関する回答とを用い、利用者が単語を知っていると回答する確率に基づく値と、利用者が単語を知っていると回答したときの利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部と、を有する。ただし、問題生成部は、複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する。
Description
本発明は、語彙数を推定する技術に関する。
ある人が知っている単語の総数をその人の語彙数という。語彙数推定テストは、その語彙数を短時間に精度よく推定するテストである(例えば、非特許文献1等参照)。以下にその推定手順の概要を示す。
(1)単語親密度DB(データベース)の単語リストからテスト単語を親密度順にほぼ一定間隔で選択する。テスト単語の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、テスト単語の親密度の数値に粗密があってもよい。なお親密度(単語親密度)とは単語のなじみ深さを数値化したものである。親密度が高い単語ほどなじみのある語であることを示す。
(2)テスト単語を利用者に提示し、その単語を知っているか否かを回答させる。
(3)このようなテスト単語に対する回答に当てはまるロジスティック曲線を生成する。ただし、このロジスティック曲線は、単語親密度DB中において各テスト単語よりも親密度が高い単語の総数を独立変数xとし、利用者が各単語を知っていると回答する確率を従属変数yとするものである。
(4)そのロジスティック曲線において、y=0.5に対応するxの値を求め、推定語彙数とする。なお、推定語彙数とは、利用者の語彙数と推定される値を意味する。
(1)単語親密度DB(データベース)の単語リストからテスト単語を親密度順にほぼ一定間隔で選択する。テスト単語の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、テスト単語の親密度の数値に粗密があってもよい。なお親密度(単語親密度)とは単語のなじみ深さを数値化したものである。親密度が高い単語ほどなじみのある語であることを示す。
(2)テスト単語を利用者に提示し、その単語を知っているか否かを回答させる。
(3)このようなテスト単語に対する回答に当てはまるロジスティック曲線を生成する。ただし、このロジスティック曲線は、単語親密度DB中において各テスト単語よりも親密度が高い単語の総数を独立変数xとし、利用者が各単語を知っていると回答する確率を従属変数yとするものである。
(4)そのロジスティック曲線において、y=0.5に対応するxの値を求め、推定語彙数とする。なお、推定語彙数とは、利用者の語彙数と推定される値を意味する。
この方法では、単語親密度DBを用いることで、選択されたテスト単語を知っているか否かをテストするだけで、利用者の語彙数を精度よく推定できる。
小林哲生,天野成昭,正高信男,"モバイル社会の現状と行方",2007,NTT出版,p127-128.
従来法では、ある親密度の単語を知っている者は、それより親密度の高い単語をすべて知っていると仮定して語彙数を推定している。
しかしながら、同じ語でも複数の表記方法がありえるため、通常使われない表記を用いて語彙力の調査を行った場合、実際には知っている語でも知らないと回答してしまうなど、利用者の回答が不正確になる可能性がある。このような場合、従来法では語彙数の推定精度が低下してしまう。
本発明はこのような点に鑑みてなされたものであり、語彙数推定において、通常使われない表記の単語をテスト単語として出題することによる利用者の混乱を避けることを目的とする。
本発明の装置は、複数の単語から複数のテスト単語を選択する問題生成部と、前記テスト単語を利用者に提示する提示部と、前記利用者の前記テスト単語の知識に関する回答を受け付ける回答受付部と、前記テスト単語と、前記テスト単語を知っている者の推定語彙数と、前記テスト単語の知識に関する回答とを用い、前記利用者が前記単語を知っていると回答する確率に基づく値と、前記利用者が前記単語を知っていると回答したときの前記利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部と、を有し、前記問題生成部は、前記複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語を前記テスト単語として選択する。
本発明では、被験者集合に属する被験者の単語に対する被験者内親密度に基づく順序で単語を順位付けするため、生成したモデルで利用者の語彙数を高精度に推定できる。
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
まず、本発明の第1実施形態を説明する。
図1に例示するように、本実施形態の語彙数推定装置1は、記憶部11、問題生成部12、提示部13、回答受付部14、および語彙数推定部15を有する。
[第1実施形態]
まず、本発明の第1実施形態を説明する。
図1に例示するように、本実施形態の語彙数推定装置1は、記憶部11、問題生成部12、提示部13、回答受付部14、および語彙数推定部15を有する。
<記憶部11>
記憶部11には予め親密度データベース(DB)が格納されている。単語親密度DBは、M個の単語(複数の単語)と当該単語それぞれに対して予め定められた親密度(単語親密度)との組を格納したデータベースである。これにより、単語親密度DBのM個の単語は親密度に基づく順序(例えば、親密度順)で順位付けされている。Mは単語親密度DBに含まれる単語数を表す2以上の整数である。Mの値に限定はないが、例えば、Mは70000以上が望ましい。日本人の成人の語彙数が約4万から5万程度と言われているため、7万語程度あれば個人差を含めてほとんどの人の語彙をカバーできるからである。ただし、推定される語彙数は、基準となる単語親密度DBに含まれる語数が上限となる。そのため、外れ値となるような語彙数の多い人の語彙推定も行う場合には、Mの値をより大きくすることが望ましい。また、親密度(単語親密度)とは、単語のなじみ深さを数値化したものである(例えば、非特許文献1等参照)。親密度が高い単語ほどなじみのある語である。本実施形態では、親密度を表す数値が大きいほど親密度が高いことを表す。しかしこれは本発明を限定するものではない。記憶部11は、問題生成部12および語彙数推定部15からの読み出し要請を入力として、当該要請に応じた単語と、その単語の親密度を出力する。
記憶部11には予め親密度データベース(DB)が格納されている。単語親密度DBは、M個の単語(複数の単語)と当該単語それぞれに対して予め定められた親密度(単語親密度)との組を格納したデータベースである。これにより、単語親密度DBのM個の単語は親密度に基づく順序(例えば、親密度順)で順位付けされている。Mは単語親密度DBに含まれる単語数を表す2以上の整数である。Mの値に限定はないが、例えば、Mは70000以上が望ましい。日本人の成人の語彙数が約4万から5万程度と言われているため、7万語程度あれば個人差を含めてほとんどの人の語彙をカバーできるからである。ただし、推定される語彙数は、基準となる単語親密度DBに含まれる語数が上限となる。そのため、外れ値となるような語彙数の多い人の語彙推定も行う場合には、Mの値をより大きくすることが望ましい。また、親密度(単語親密度)とは、単語のなじみ深さを数値化したものである(例えば、非特許文献1等参照)。親密度が高い単語ほどなじみのある語である。本実施形態では、親密度を表す数値が大きいほど親密度が高いことを表す。しかしこれは本発明を限定するものではない。記憶部11は、問題生成部12および語彙数推定部15からの読み出し要請を入力として、当該要請に応じた単語と、その単語の親密度を出力する。
<問題生成部12>
入力:利用者またはシステムからの問題生成要請
出力:語彙数推定テストに使用するN個のテスト単語
問題生成部12は、利用者またはシステムからの問題生成要請を受け付けると、記憶部11の単語親密度DBに含まれる順序付けされた複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。ただし、例えば、問題生成部12は、記憶部11の単語親密度DBに含まれる全単語を対象として、親密度順にほぼ一定間隔で単語をN個選択し、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。テスト単語w(1),…,w(N)の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、一連のテスト単語w(1),…,w(N)の親密度の数値に粗密があってもよい。問題生成部12から出力されるテスト単語w(1),…,w(N)の順序に限定はないが、問題生成部12は、例えば親密度の高い順にテスト単語w(1),…,w(N)を出力する。テスト単語の数Nは、問題生成要請によって指定されてもよいし、予め定められていてもよい。Nの値に限定はないが、例えば50≦N≦100程度が望ましい。十分な推定を行うためにはN≧25であることが望ましい。Nが大きい方が精度の高い推定が可能であるが、利用者(被験者)の負荷が高くなる(ステップS12)。利用者の負荷を減らし、精度を高くするために、例えば50語ずつのテストを複数回(例えば、3回)実施し、それぞれのテストごとに語彙数を推定したり、複数回分の回答をまとめて推定しなおしてもよい。この場合、1度のテスト単語を少なくできるため、利用者の負担が少なく、それぞれのテストごとに結果が見られようにすれば利用者の回答モチベーション維持につながる。また、複数回分の語を合わせて最終的な語彙数推定を実施すれば、推定精度を向上できる。
入力:利用者またはシステムからの問題生成要請
出力:語彙数推定テストに使用するN個のテスト単語
問題生成部12は、利用者またはシステムからの問題生成要請を受け付けると、記憶部11の単語親密度DBに含まれる順序付けされた複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。ただし、例えば、問題生成部12は、記憶部11の単語親密度DBに含まれる全単語を対象として、親密度順にほぼ一定間隔で単語をN個選択し、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。テスト単語w(1),…,w(N)の親密度は、必ずしも一定間隔である必要はなく、ほぼ一定間隔であればよい。すなわち、一連のテスト単語w(1),…,w(N)の親密度の数値に粗密があってもよい。問題生成部12から出力されるテスト単語w(1),…,w(N)の順序に限定はないが、問題生成部12は、例えば親密度の高い順にテスト単語w(1),…,w(N)を出力する。テスト単語の数Nは、問題生成要請によって指定されてもよいし、予め定められていてもよい。Nの値に限定はないが、例えば50≦N≦100程度が望ましい。十分な推定を行うためにはN≧25であることが望ましい。Nが大きい方が精度の高い推定が可能であるが、利用者(被験者)の負荷が高くなる(ステップS12)。利用者の負荷を減らし、精度を高くするために、例えば50語ずつのテストを複数回(例えば、3回)実施し、それぞれのテストごとに語彙数を推定したり、複数回分の回答をまとめて推定しなおしてもよい。この場合、1度のテスト単語を少なくできるため、利用者の負担が少なく、それぞれのテストごとに結果が見られようにすれば利用者の回答モチベーション維持につながる。また、複数回分の語を合わせて最終的な語彙数推定を実施すれば、推定精度を向上できる。
<提示部13>
入力:N個のテスト単語
出力:指示文およびN個のテスト単語
提示部13には、問題生成部12から出力されたN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、テスト単語w(1),…,w(N)を利用者100(被験者)に提示する。例えば、提示部13は、事前に設定された表示形式に従い、利用者100のテスト単語の知識に関する回答の入力を促す予め定められた指示文、およびN個のテスト単語w(1),…,w(N)を、語彙数推定テスト用のフォーマットで利用者100に提示する。この提示形式に限定はなく、これらの情報がテキストや画像などの視覚情報として提示されてもよいし、音声などの聴覚情報として提示されてもよいし、点字などの触覚情報として提示されてもよい。例えば、提示部13がPC(personal computer)、タブレット、スマートフォンなどの端末装置の表示画面であり、指示文およびテスト単語を電子的に表示してもよい。または、提示部13が印刷装置であり、指示文およびテスト単語を紙などに印刷して出力してもよい。あるいは提示部13が端末装置のスピーカーであり、指示文およびテスト単語を音声出力してもよい。または、提示部13が点字ディスプレイであり、指示文およびテスト単語の点字を提示してもよい。利用者100のテスト単語の知識に関する回答は、テスト単語を「知っている」または「知らない」の何れかを表すもの(各順位のテスト単語を知っている、または、知らないとの回答)であってもよいし、「知っている」および「知らない」を含む3以上の選択肢の何れかを表すものであってもよい。「知っている」および「知らない」以外の選択肢の例は「(知っているかどうか)自信がない」「単語としては知っているが、意味は知らない」などである。ただし、利用者100に「知っている」および「知らない」を含む3以上の選択肢から回答させても、「知っている」または「知らない」の何れかを回答させる場合に比べて語彙数推定精度が向上しない場合もある。例えば、利用者100に「知っている」「知らない」「自信がない」の3個の選択肢から回答を選ばせた場合、「自信がない」が選択されるか否かは利用者100の性格に依存する。このような場合には、選択肢を増やしても語彙数推定精度は向上しない。したがって、通常、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる方が好ましい。以下では、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる例を説明する。また、例えば、テスト単語は親密度が高い順に提示されるが、提示順はこれに限るものではなく、ランダムな順序でテスト単語が提示されてもよい(ステップS13)。なお、語彙数推定装置1の利用者100の集合を被験者集合と呼ぶことにする。被験者集合は、特定の属性(例えば、世代、性別、職業など)の利用者100の集合であってもよいし、任意の属性の利用者100の集合(構成メンバーの属性を制約しない集合)であってもよい。
入力:N個のテスト単語
出力:指示文およびN個のテスト単語
提示部13には、問題生成部12から出力されたN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、テスト単語w(1),…,w(N)を利用者100(被験者)に提示する。例えば、提示部13は、事前に設定された表示形式に従い、利用者100のテスト単語の知識に関する回答の入力を促す予め定められた指示文、およびN個のテスト単語w(1),…,w(N)を、語彙数推定テスト用のフォーマットで利用者100に提示する。この提示形式に限定はなく、これらの情報がテキストや画像などの視覚情報として提示されてもよいし、音声などの聴覚情報として提示されてもよいし、点字などの触覚情報として提示されてもよい。例えば、提示部13がPC(personal computer)、タブレット、スマートフォンなどの端末装置の表示画面であり、指示文およびテスト単語を電子的に表示してもよい。または、提示部13が印刷装置であり、指示文およびテスト単語を紙などに印刷して出力してもよい。あるいは提示部13が端末装置のスピーカーであり、指示文およびテスト単語を音声出力してもよい。または、提示部13が点字ディスプレイであり、指示文およびテスト単語の点字を提示してもよい。利用者100のテスト単語の知識に関する回答は、テスト単語を「知っている」または「知らない」の何れかを表すもの(各順位のテスト単語を知っている、または、知らないとの回答)であってもよいし、「知っている」および「知らない」を含む3以上の選択肢の何れかを表すものであってもよい。「知っている」および「知らない」以外の選択肢の例は「(知っているかどうか)自信がない」「単語としては知っているが、意味は知らない」などである。ただし、利用者100に「知っている」および「知らない」を含む3以上の選択肢から回答させても、「知っている」または「知らない」の何れかを回答させる場合に比べて語彙数推定精度が向上しない場合もある。例えば、利用者100に「知っている」「知らない」「自信がない」の3個の選択肢から回答を選ばせた場合、「自信がない」が選択されるか否かは利用者100の性格に依存する。このような場合には、選択肢を増やしても語彙数推定精度は向上しない。したがって、通常、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる方が好ましい。以下では、利用者100にテスト単語を「知っている」または「知らない」の何れかから回答させる例を説明する。また、例えば、テスト単語は親密度が高い順に提示されるが、提示順はこれに限るものではなく、ランダムな順序でテスト単語が提示されてもよい(ステップS13)。なお、語彙数推定装置1の利用者100の集合を被験者集合と呼ぶことにする。被験者集合は、特定の属性(例えば、世代、性別、職業など)の利用者100の集合であってもよいし、任意の属性の利用者100の集合(構成メンバーの属性を制約しない集合)であってもよい。
<回答受付部14>
入力:利用者のテスト単語の知識に関する回答
出力:利用者のテスト単語の知識に関する回答
指示文およびテスト単語が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部14に入力する。例えば、回答受付部14は、PC、タブレット、スマートフォンなどの端末装置のタッチパネルであり、利用者100は当該タッチパネルに回答を入力する。回答受付部14が端末装置のマイクロホンであってもよく、この場合、利用者100は当該マイクロホンに回答を音声入力する。回答受付部14は、入力されたテスト単語の知識に関する回答(例えば、テスト単語を知っているとの回答、またはテスト単語を知らないとの回答)を受け付け、電子的なデータとして当該回答を出力する。回答受付部14は、テスト単語ごとに回答を出力してもよいし、1テスト分の回答をまとめて出力してもよいし、複数テスト分の回答をまとめて出力してもよい(ステップS14)。
入力:利用者のテスト単語の知識に関する回答
出力:利用者のテスト単語の知識に関する回答
指示文およびテスト単語が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部14に入力する。例えば、回答受付部14は、PC、タブレット、スマートフォンなどの端末装置のタッチパネルであり、利用者100は当該タッチパネルに回答を入力する。回答受付部14が端末装置のマイクロホンであってもよく、この場合、利用者100は当該マイクロホンに回答を音声入力する。回答受付部14は、入力されたテスト単語の知識に関する回答(例えば、テスト単語を知っているとの回答、またはテスト単語を知らないとの回答)を受け付け、電子的なデータとして当該回答を出力する。回答受付部14は、テスト単語ごとに回答を出力してもよいし、1テスト分の回答をまとめて出力してもよいし、複数テスト分の回答をまとめて出力してもよい(ステップS14)。
<語彙数推定部15>
入力:利用者のテスト単語の知識に関する回答
出力:利用者の推定語彙数
回答受付部14から出力された利用者100のテスト単語の知識に関する回答は、語彙数推定部15に入力される。語彙数推定部15は、各テスト単語w(n)(ただしn=1,…,Nである)について利用者100が「知っている」と回答した場合に、当該テスト単語w(n)を知っている人数をカウントアップする。語彙数推定部15は、当該テスト単語w(n)を知っている人数を記憶部11の単語親密度DBの当該テスト単語に対応付けて格納する。同様な処理を被験者集合に属する複数人の利用者100(被験者)の回答について行っていく。これにより、単語親密度DBの各テスト単語には、当該テスト単語w(n)を知っている人数が対応付けられていく。ここで、各テスト単語w(n)を知っていると回答した人数または割合に基づく、被験者集合に属する被験者の当該テスト単語w(n)に対する「なじみ深さ」を表す数値を被験者内親密度a(n)と呼ぶことにする。テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数または割合に基づく値(例えば、関数値)である。例えば、テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数そのものであってもよいし、当該テスト単語w(n)を知っていると回答した人数の非単調減少関数値(例えば、単調増加関数値)であってもよいし、回答を行った利用者100の総数に対する当該テスト単語w(n)を知っていると回答した人数の割合であってもよいし、被験者集合の全メンバーに対する当該テスト単語を知っていると回答した人数の割合であってもよいし、これら何れかの割合の非単調減少関数値(例えば、単調増加関数値)であってもよい。なお、各被験者内親密度a(n)の初期値は、例えば、テスト単語w(n)の親密度そのものであってもよいし、その他の固定値であってもよい(ステップS151)。
入力:利用者のテスト単語の知識に関する回答
出力:利用者の推定語彙数
回答受付部14から出力された利用者100のテスト単語の知識に関する回答は、語彙数推定部15に入力される。語彙数推定部15は、各テスト単語w(n)(ただしn=1,…,Nである)について利用者100が「知っている」と回答した場合に、当該テスト単語w(n)を知っている人数をカウントアップする。語彙数推定部15は、当該テスト単語w(n)を知っている人数を記憶部11の単語親密度DBの当該テスト単語に対応付けて格納する。同様な処理を被験者集合に属する複数人の利用者100(被験者)の回答について行っていく。これにより、単語親密度DBの各テスト単語には、当該テスト単語w(n)を知っている人数が対応付けられていく。ここで、各テスト単語w(n)を知っていると回答した人数または割合に基づく、被験者集合に属する被験者の当該テスト単語w(n)に対する「なじみ深さ」を表す数値を被験者内親密度a(n)と呼ぶことにする。テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数または割合に基づく値(例えば、関数値)である。例えば、テスト単語w(n)の被験者内親密度a(n)は、当該テスト単語w(n)を知っていると回答した人数そのものであってもよいし、当該テスト単語w(n)を知っていると回答した人数の非単調減少関数値(例えば、単調増加関数値)であってもよいし、回答を行った利用者100の総数に対する当該テスト単語w(n)を知っていると回答した人数の割合であってもよいし、被験者集合の全メンバーに対する当該テスト単語を知っていると回答した人数の割合であってもよいし、これら何れかの割合の非単調減少関数値(例えば、単調増加関数値)であってもよい。なお、各被験者内親密度a(n)の初期値は、例えば、テスト単語w(n)の親密度そのものであってもよいし、その他の固定値であってもよい(ステップS151)。
語彙数推定部15には、さらに問題生成部12から出力されたテスト単語w(1),…,w(N)が入力される。語彙数推定部15は、記憶部11に格納された単語親密度DBを用い、各テスト単語w(n)の潜在語彙数x(n)を得る。前述のように、単語親密度DBには各単語の親密度が格納されている。語彙数推定部15は、この単語親密度DBの単語に対して予め定められた親密度に基づいて、各テスト単語w(n)に対応する潜在語彙数x(n)を得る。なお、テスト単語に対応する「潜在語彙数」は、被験者が当該テスト単語を知っている場合に当該被験者が知っているだろうと仮定できるすべての単語(当該テスト単語以外の単語を含む)の数(語彙数)である。例えば語彙数推定部15は、単語親密度DB中において各テスト単語w(n)よりも親密度が高い単語の総数を、各当該テスト単語を知っている者の潜在語彙数x(n)として得る。これは或るテスト単語を知っている者はそのテスト単語よりも親密度が高い単語を全て知っているとの仮定に基づく。すなわち、単語親密度DBにおける各親密度の単語の数をカウントすると、図2Aに例示するような、単語親密度DBの各単語の親密度とその親密度の単語数との関係を表すヒストグラムが得られる。図2Aの例では、親密度が1から7までの数値で表され、数値が大きいほど親密度が高いことを表す。このヒストグラムの単語数を親密度が高い順に累積加算していくと、図2Bに例示するような、単語の親密度とその単語を知っている者の推定語彙数との関係を例示したヒストグラムが得られる。或るテスト単語を知っている者はそのテスト単語よりも親密度が高い単語を全て知っていると仮定しているため、親密度が高い順に単語数を累積加算した値が各親密度の単語を知っている者の推定語彙数(すなわち、潜在語彙数)となる。以上のように語彙数推定部15は、単語親密度DB中の各テスト単語w(n)と各当該テスト単語w(n)の潜在語彙数x(n)との組を得、これによって複数のテスト単語w(1),…,w(N)が順位付け(順序付け)された親密度順単語列Wと、複数の潜在語彙数x(1),…,x(N)が順位付けされた潜在語彙数列Xとが対応付けられたテーブル[W,X]を得る。親密度順単語列Wは、複数のテスト単語w(1),…,w(N)を要素とする列であり、潜在語彙数列Xは、複数の潜在語彙数x(1),…,x(N)を要素とする列である。テーブル[W,X]では、すべてのn=1,…,Nについて、テスト単語w(n)が潜在語彙数x(n)にそれぞれ対応する。親密度順単語列では、複数のテスト単語w(1),…,w(N)が当該テスト単語w(1),…,w(N)の親密度に基づく順序(テスト単語の親密度の高さに基づく順序)で順位付けされている。潜在語彙数列では、複数の潜在語彙数x(1),…,x(N)がこれらに対応する複数のテスト単語w(1),…,w(N)の親密度に基づく順序で順位付けされている。親密度に基づく順序は、親密度の昇順であってもよいし、親密度の降順であってもよい。親密度に基づく順序が昇順であり、n1,n2∈{1,…,N}かつn1<n2であるならば、テスト単語w(n2)の親密度はテスト単語w(n1)の親密度以上である。一方、親密度に基づく順序が降順であり、n1,n2∈{1,…,N}かつn1<n2であるならば、テスト単語w(n1)の親密度はテスト単語w(n2)の親密度以上である。以下に、親密度の降順に配列されたテスト単語w(1),…,w(N)を要素とする親密度順単語列Wと、潜在語彙数x(1),…,x(N)を要素とする潜在語彙数列Xとが対応付けられたテーブル[W,X]を例示する(ステップS152)。
w(n) x(n)
銀行 722
経済 1564
大部分 2353
渋滞 2669
担当 2968
交通機関 3700
豊富 4507
遺伝子 4950
構成 5405
大衆 6401
愛称 6947
通過 8061
及ぶ 8695
配当 9326
領域 9982
着手 10640
率いる 11295
調節 11927
食い違う 12670
妨げる 13364
焼却 14120
遠征 14811
境界 15621
噴出 16387
取り込む 17127
総称 17888
和らげる 18604
拠点 19264
目分量 20008
成就 20764
こぞって 21532
境目 22232
他方 22930
権限 23587
制定 24286
無益 25028
比喩 25716
唐突 26339
撤廃 27597
弦 28882
入り交じる 29512
首長 30158
石庭 33144
介在 37357
始祖 46942
蜂起 53594
策定 55901
奏功 58358
親疎 69475
改鋳 71224
w(n) x(n)
銀行 722
経済 1564
大部分 2353
渋滞 2669
担当 2968
交通機関 3700
豊富 4507
遺伝子 4950
構成 5405
大衆 6401
愛称 6947
通過 8061
及ぶ 8695
配当 9326
領域 9982
着手 10640
率いる 11295
調節 11927
食い違う 12670
妨げる 13364
焼却 14120
遠征 14811
境界 15621
噴出 16387
取り込む 17127
総称 17888
和らげる 18604
拠点 19264
目分量 20008
成就 20764
こぞって 21532
境目 22232
他方 22930
権限 23587
制定 24286
無益 25028
比喩 25716
唐突 26339
撤廃 27597
弦 28882
入り交じる 29512
首長 30158
石庭 33144
介在 37357
始祖 46942
蜂起 53594
策定 55901
奏功 58358
親疎 69475
改鋳 71224
次に語彙数推定部15は、記憶部11の単語親密度DBに格納された各テスト単語w(n)(ただし、n=1,…,N)を知っている人数を参照し、被験者内親密度a(1),…,a(N)に基づく順序(被験者内親密度の高さに基づく順序)でテスト単語w(1),…,w(N)を並べ替えたものを、テスト単語w’(1),…,w’(N)とする。すなわち、テスト単語w’(1),…,w’(N)は、被験者集合に属する被験者のテスト単語w’(1),…,w’(N)に対応する被験者内親密度a’(1),…,a’(N)に基づく順序で順位付けされている。ただし、a’(n)はテスト単語w’(n)の被験者内親密度である。なお、前述した親密度に基づく順序が親密度の昇順である場合、被験者内親密度に基づく順序も被験者内親密度の昇順である。親密度に基づく順序が親密度の降順である場合、被験者内親密度に基づく順序も被験者内親密度の降順である。すなわち、w’(1),…,w’(N)はw(1),…,w(N)の順序を並べ替えたものであり、{w’(1),…,w’(N)}={w(1),…,w(N)}である。被験者内親密度に基づく順序が昇順であり、n1,n2∈{1,…,N}かつn1<n2であるならば、テスト単語w’(n2)の被験者内親密度a(n2)は、テスト単語w’(n1)の被験者内親密度a(n1)以上である。例えば、N=5であり、被験者内親密度に基づく順序が昇順であり、a(2)<a(1)<a(3)<a(5)<a(4)の場合、語彙数推定部15は、w(1),w(2),w(3),w(4),w(5)をw’(1)=w(2),w’(2)=w(1),w’(3)=w(3),w’(4)=w(5),w’(5)=w(4)に並べ替える。一方、被験者内親密度に基づく順序が降順であり、n1,n2∈{1,…,N}かつn1<n2であるならば、テスト単語w’(n1)の被験者内親密度a(n1)は、テスト単語w’(n2)の被験者内親密度a(n2)以上である。例えば、N=5であり、被験者内親密度に基づく順序が降順であり、a(2)>a(1)>a(3)>a(5)>a(4)の場合、語彙数推定部15は、w(1),w(2),w(3),w(4),w(5)をw’(1)=w(2),w’(2)=w(1),w’(3)=w(3),w’(4)=w(5),w’(5)=w(4)に並べ替える。なお、いずれの場合も、潜在語彙数x(1),…,x(N)の並べ替えは行わない。これにより、語彙数推定部15は、テスト単語w’(1),…,w’(N)を要素とする列であるテスト単語列W’と、潜在語彙数x(1),…,x(N)を要素とする列である潜在語彙数列Xと、が対応付けられたテーブル[W’,X]を得る。以下に、ステップS152で例示したテーブル[W,X]の親密度順単語列Wを、被験者内親密度a(1),…,a(N)の降順に並べ替えて得られるテーブル[W’,X]を例示する(ステップS153)。
w’(n) x(n)
銀行 722
担当 1564
調節 2353
通過 2669
取り込む 2968
構成 3700
遺伝子 4507
交通機関 4950
率いる 5405
食い違う 6401
経済 6947
渋滞 8061
入り交じる 8695
境界 9326
豊富 9982
境目 10640
目分量 11295
権限 11927
噴出 12670
制定 13364
領域 14120
愛称 14811
拠点 15621
石庭 16387
和らげる 17127
他方 17888
首長 18604
配当 19264
無益 20008
及ぶ 20764
大部分 21532
焼却 22232
唐突 22930
着手 23587
妨げる 24286
遠征 25028
弦 25716
大衆 26339
撤廃 27597
総称 28882
成就 29512
こぞって 30158
始祖 33144
策定 37357
比喩 46942
奏功 53594
介在 55901
親疎 58358
蜂起 69475
改鋳 71224
w’(n) x(n)
銀行 722
担当 1564
調節 2353
通過 2669
取り込む 2968
構成 3700
遺伝子 4507
交通機関 4950
率いる 5405
食い違う 6401
経済 6947
渋滞 8061
入り交じる 8695
境界 9326
豊富 9982
境目 10640
目分量 11295
権限 11927
噴出 12670
制定 13364
領域 14120
愛称 14811
拠点 15621
石庭 16387
和らげる 17127
他方 17888
首長 18604
配当 19264
無益 20008
及ぶ 20764
大部分 21532
焼却 22232
唐突 22930
着手 23587
妨げる 24286
遠征 25028
弦 25716
大衆 26339
撤廃 27597
総称 28882
成就 29512
こぞって 30158
始祖 33144
策定 37357
比喩 46942
奏功 53594
介在 55901
親疎 58358
蜂起 69475
改鋳 71224
語彙数推定部15は、テスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位(同順位、各列同一の順位)n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))と、利用者100のテスト単語の知識に関する回答とを用い、利用者100が単語を知っていると回答する確率に基づく値(例えば、関数値)と、利用者100が当該単語を知っていると回答したときの利用者100の語彙数に基づく値(例えば、関数値)と、の関係を表すモデルφを得る。利用者100が単語を知っていると回答する確率に基づく値は、当該確率そのものであってもよいし、当該確率の補正値であってもよいし、当該確率の単調非減少関数値であってもよいし、当該確率のその他の関数値であってもよい。利用者100が前記単語を知っていると回答したときの利用者100の語彙数に基づく値は、当該語彙数そのものであってもよいし、当該語彙数の補正値であってもよいし、当該語彙数のその他の関数値であってもよい。モデルφが、さらに利用者100が単語を知っていると回答する確率に基づく値と、利用者100が当該単語を知らないと回答したとき(または、知っていると回答しなかったとき)の利用者100の語彙数に基づく値と、の関係を表してもよい。モデルφに限定はないが、モデルφの一例はロジスティック回帰のモデルである。説明の簡略化のため、以下では、利用者100が単語を知っていると回答する確率に基づく値が当該確率そのものであり、利用者100が前記単語を知っていると回答したときの利用者100の語彙数に基づく値が当該語彙数そのものであり、語彙数を独立変数xとし、利用者100が各単語を知っていると回答する確率を従属変数yとしたロジスティック曲線y=f(x,Ψ)がモデルφである場合を例示する。ただし、Ψはモデルパラメータである。この例の場合、語彙数推定部15は、利用者100が知っていると回答したテスト単語w’(n)について、利用者100が当該テスト単語w’(n)を知っていると回答する確率yが1(すなわち100%)であり、当該テスト単語w’(n)に対応する潜在語彙数xがx(n)である点(x,y)=(x(n),1)を設定する。また語彙数推定部15は、利用者100が知らないと回答した(または、知っていると回答しない)テスト単語w’(n)について、利用者100が当該テスト単語w’(n)を知っていると回答する確率yが0(すなわち0%)であり、そのときの当該テスト単語w’(n)に対応する潜在語彙数xがx(n)である点(x,y)=(x(n),0)を設定する。語彙数推定部15は、n=1,…,Nの各点(x,y)=(x(n),1)または(x(n),0)に対してロジスティック曲線への当てはめを行い、誤差を最小化するロジスティック曲線y=f(x,Ψ)をモデルφとして得る。すなわち、語彙数推定部15は、n=1,…,Nの各点(x,y)=(x(n),1)または(x(n),0)に対して誤差を最小化するロジスティック曲線y=f(x,Ψ)をモデルφとして得る。図3Bおよび図4Bにロジスティック曲線y=f(x,Ψ)のモデルφを例示する。図3Bおよび図4Bでは、横軸が潜在語彙数(x)を表し、縦軸が単語を知っていると回答する確率(y)を表す。丸印は利用者100が知っていると回答したテスト単語w’(n)に対する点(x,y)=(x(n),1)、および利用者100が知らないと回答した(または、知っていると回答しない)テスト単語w’(n)に対する点(x,y)=(x(n),0)を表す。図3Bおよび図4Bでは、複数の利用者100の複数のモデルφを点線のロジスティック曲線で表している(ステップS154)。
語彙数推定部15は、モデルφにおいて、利用者100が単語を知っていると回答する確率に基づく値が所定値または所定値の近傍のときの潜在語彙数に基づく値を、利用者100の推定語彙数として出力する。例えば、語彙数推定部15は、モデルφにおいて、利用者100が単語を知っていると回答する確率が所定値または所定値の近傍(例えば、0.5または0.8等の所定値やその近傍)の潜在語彙数を、利用者100の推定語彙数として出力する。例えば、図3Bおよび図4Bの例では、或るモデルφについて、利用者100が単語を知っていると回答する確率yが0.5となる潜在語彙数を推定語彙数とする。具体的には、図3Bではx=12376、図4Bではx=11703をそれぞれ推定語彙数とする(ステップS155)。
<本実施形態の特徴>
本実施形態では、語彙数推定部15が、親密度に基づく順序で順位付けされた複数のテスト単語w(1),…,w(N)を、被験者内親密度a(1),…,a(N)に基づく順序で並べ替えてテスト単語列w’(1),…,w’(N)を要素とするテスト単語列W’を得、単語に対して予め定められた親密度に基づいて推定され、親密度に基づく順序で順位付けされている潜在語彙数x(1),…,x(N)を要素とする潜在語彙数列Xを得、これらを対応付けたテーブル[W’,X]から抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))と、利用者のテスト単語の知識に関する回答とを用い、利用者が単語を知っている確率に基づく値と利用者の語彙数に基づく値との関係を表すモデルφを得る。ここで、被験者内親密度a(1),…,a(N)に基づく順序でテスト単語w(1),…,w(N)を並べ替え、被験者内親密度a’(1),…,a’(N)に基づく順序で順位付けされたテスト単語列w’(1),…,w’(N)に潜在語彙数x(1),…,x(N)のそれぞれを対応付けることで、モデルφの精度が向上する。これによって語彙数の推定精度が向上する。
本実施形態では、語彙数推定部15が、親密度に基づく順序で順位付けされた複数のテスト単語w(1),…,w(N)を、被験者内親密度a(1),…,a(N)に基づく順序で並べ替えてテスト単語列w’(1),…,w’(N)を要素とするテスト単語列W’を得、単語に対して予め定められた親密度に基づいて推定され、親密度に基づく順序で順位付けされている潜在語彙数x(1),…,x(N)を要素とする潜在語彙数列Xを得、これらを対応付けたテーブル[W’,X]から抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))と、利用者のテスト単語の知識に関する回答とを用い、利用者が単語を知っている確率に基づく値と利用者の語彙数に基づく値との関係を表すモデルφを得る。ここで、被験者内親密度a(1),…,a(N)に基づく順序でテスト単語w(1),…,w(N)を並べ替え、被験者内親密度a’(1),…,a’(N)に基づく順序で順位付けされたテスト単語列w’(1),…,w’(N)に潜在語彙数x(1),…,x(N)のそれぞれを対応付けることで、モデルφの精度が向上する。これによって語彙数の推定精度が向上する。
すなわち従来法のように、単語に対して予め定められた親密度に基づいて、利用者100が各単語を知っていると回答したときの語彙数を推定する場合、予め定められた親密度が利用者100の属する被験者集合に不適切な場合がある。このような場合には、利用者100の語彙力を精度良く推定することはできない。例えば、大人であればほぼ誰でも知っていると考えられるような親密度の高い単語(例えば、親密度6以上の単語)「銀行」「経済」「大部分」でも、小学6年生を対象とした調査では、対象語を「知っている」と回答した子どもの割合は、「銀行」で99.3%,「経済」で73.8%,「大部分」で48.6%と大きく差がある。つまり、従来法では、近い親密度の単語でもどの単語をテスト単語として利用するかによって推定結果に大きな差がでる。
また、単語の親密度はその調査時期によって異なるため、従来法では、親密度の調査時期から語彙数推定時期までの期間が長いほど、語彙数推定の精度が低下すると予想される。例えば、アナフィラキシーやレギンス,マニフェストといった語は親密度が20年前に比べて大きく上がったが、プリンスメロンや生テープ,ミリバールなどの語は親密度が大きく下がっている(例えば、参考文献1等参照)。そのため、こうした単語をテスト単語として従来法で語彙数を推定すると、推定誤差が大きくなると思われる。
参考文献1:藤田早苗,小林哲生,“単語親密度の再調査と過去のデータとの比較”,言語処理学会 第26回年次大会 発表論文集,2020年3月.
参考文献1:藤田早苗,小林哲生,“単語親密度の再調査と過去のデータとの比較”,言語処理学会 第26回年次大会 発表論文集,2020年3月.
これに対して、本実施形態では、被験者集合に属する被験者のテスト単語に対する被験者内親密度に基づいて各テスト単語に推定語彙数を対応付けるため、利用者のテスト単語の知識に関する回答から推定語彙数を精度良く求めることができる。
図3および図4に従来法と本実施形態の方法で得られたモデルの比較を例示する。図3Aおよび図4Aは従来法によって求めたモデルを例示したものであり、図3Bおよび図4Bは、それぞれ図3Aおよび図4Aと同じ単語親密度DBおよび回答を用い、本実施形態で求めたモデルを例示する。図3Aおよび図4Aでも、横軸が潜在語彙数(x)を表し、縦軸が単語を知っていると回答する確率(y)を表す。図3Aおよび図4Aの丸印は利用者が知っていると回答したテスト単語w(n)に対する点(x,y)=(x(n),1)、および利用者が知らないと回答したテスト単語w(n)に対する点(x,y)=(x(n),0)を表す。図中のAICは赤池情報量規準を表し、値が小さいほどモデルの当てはまりがよいことを示す。図3AではAIC=55.3であるのに対し、図3BではAIC=16.4となっており、図4AではAIC=58.9であるのに対し、図4BではAIC=31.2となっている。何れの場合も本実施形態の方が従来法よりもAICが小さく、よりモデルの当てはまりがよいことが分かる。その他、小学6年生413人を対象とした調査でも、352人(85.2%)で本実施形態の方が従来法よりもAICが小さくなった。このように、本実施形態では利用者の語彙数を当てはまりの良いモデルで推定できる。
<第1実施形態の変形例>
第1実施形態で例示したように、提示部13でN個のテスト単語すべてを提示し、N個のテスト単語すべてについて、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けるのが実装上容易である。しかし、提示部13でテスト単語を順番に提示し、テスト単語が提示されるたびに回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。この際、利用者が提示されたテスト単語を知らないとP回(Pは1以上の整数であり、好ましくは2以上の整数である。Pは事前に設定される)回答した時点で問題の提示を停止してもよい。この場合、利用者が回答を行っていないテスト単語については、当該利用者がそのテスト単語を知らないと回答したものとみなして各処理が実行される。あるいは、利用者が提示されたテスト単語を知らないと回答した場合、当該テスト単語と同程度の親密度の(あるいは、少し親密度の高い)別のテスト単語を提示し、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。知らないと回答したテスト単語の親密度近辺で詳細にテストすることで、利用者の語彙数推定精度を高めることができる。
第1実施形態で例示したように、提示部13でN個のテスト単語すべてを提示し、N個のテスト単語すべてについて、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けるのが実装上容易である。しかし、提示部13でテスト単語を順番に提示し、テスト単語が提示されるたびに回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。この際、利用者が提示されたテスト単語を知らないとP回(Pは1以上の整数であり、好ましくは2以上の整数である。Pは事前に設定される)回答した時点で問題の提示を停止してもよい。この場合、利用者が回答を行っていないテスト単語については、当該利用者がそのテスト単語を知らないと回答したものとみなして各処理が実行される。あるいは、利用者が提示されたテスト単語を知らないと回答した場合、当該テスト単語と同程度の親密度の(あるいは、少し親密度の高い)別のテスト単語を提示し、回答受付部14で利用者のテスト単語の知識に関する回答を受け付けてもよい。知らないと回答したテスト単語の親密度近辺で詳細にテストすることで、利用者の語彙数推定精度を高めることができる。
第1実施形態では、単語親密度DB中において各テスト単語w(n)よりも親密度が高い単語の総数を、各当該テスト単語を知っている場合の潜在語彙数x(n)とする例を示したが、これは本発明を限定するものではない。例えば、単語親密度DB中において各テスト単語w(n)よりも親密度が高い単語の総数に基づく値(例えば、非単調非減少関数値などの関数値)を、各当該テスト単語を知っている場合の潜在語彙数x(n)としてもよい。
各利用者100についてステップS12,S13,S14,S151,S152,S153,S154,S155の処理を実行するのではなく、所定の人数の利用者100(被験者)についてステップS12,S13,S14,S151の処理が実行されるまで、ステップS152,S153,S154,S155の処理が実行されなくてもよい。また、所定の人数の利用者100(被験者)についてステップS12,S13,S14,S151の処理が実行された後、ステップS151でのテスト単語w(n)を知っている人数のカウントアップを停止してもよい。
同じテスト単語w(1),…,w(N)に対し、所定の人数の利用者100についてステップS12,S13,S14,S151が実行され、さらにステップS152,S153でテーブル[W’,X]が得られた後、テーブル[W’,X]を記憶部11に格納しておいてもよい。これにより、同じテスト単語w(1),…,w(N)が用いられるのであれば、語彙数推定部15は、それ以降の語彙数推定においてテーブル[W’,X]を毎回計算する必要はない。この場合、語彙数推定部15は、記憶部11に格納されたテーブル[W’,X]から各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))を抽出し、これらと回答受付部14で受け付けた利用者100のテスト単語の知識に関する回答とを用い、前述のモデルφを得ればよい。
[第2実施形態]
次に本発明の第2実施形態を説明する。第2実施形態は第1実施形態および第1実施形態の変形例に対する変形例であり、特定分野の文章に特徴的な単語以外からテスト単語を選択する点でこれらと相違する。以下では第1実施形態および第1実施形態の変形例との相違点を中心に説明し、既に説明した事項については同じ参照番号を流用して説明を簡略化する。
次に本発明の第2実施形態を説明する。第2実施形態は第1実施形態および第1実施形態の変形例に対する変形例であり、特定分野の文章に特徴的な単語以外からテスト単語を選択する点でこれらと相違する。以下では第1実施形態および第1実施形態の変形例との相違点を中心に説明し、既に説明した事項については同じ参照番号を流用して説明を簡略化する。
教育課程にいる子供の場合、教科書で出てきたり、重要項目として習ったりする単語に対する親密度は、大人の当該単語に対する親密度よりもむしろ高くなる場合も予想される。そのため、例えば教科書で出てくる単語や習いたての単語をテスト単語とし、教育課程にいる子供を対象として語彙数推定を行った場合、推定語彙数が大きくなり過ぎてしまう可能性がある。例えば、「比喩」という単語は、中学1年生で学習する。そのため、同程度の親密度の他の語に比べ、知っている人の割合が中学1年生で急激に跳ね上がる。こうした単語をテスト単語として中学1年生の利用者100の語彙数推定で利用すると、その推定語彙数が大きくなり過ぎてしまう可能性がある。横波、荘園、有機物など理科や社会などのある単元で重要語として出てくる単語も同様である。
そのため、教育課程にいる子供の利用者100の語彙数推定を行う場合、教科書の文章(教科書分野の文章)の単語をテスト単語として利用しないことが望ましい。ただし、教科書の文章に含まれるすべての単語をテスト単語として利用しないことにしてしまうと、教科書の文章に含まれる一般的な単語もテスト単語として利用できなくなってしまう。そのため、教科書の文章に特徴的な単語のみをテスト単語として利用しないことが望ましい。教科書の文章に特徴的な単語とは、例えば、ある単元で繰り返し出てくる単語、重要単語として出てくる単語、ある教科でのみ出てくる単語などである。こうした教科書で特徴的に出てくる語かどうかの判断は、例えば、公知の教科書コーパス語彙表で教科書に特徴的な単語(例えば、特徴度が有意に高い単語)かどうかで判断できる。
教科書コーパス語彙表:
https://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html
例えば、「弦」は教科書コーパス語彙表で、特徴度_小中高_全教科390.83, 特徴度_小_全教科11.28のようになっており、「弦」は教科書で特徴的に出てくる単語である。一方、「取り込む」は、特徴度_小_全教科0.01と、ほぼ特徴度が0に近く、教科書と一般文書における使用にほぼ差がない。そのため、例えば、教科書コーパス語彙表で特徴度の絶対値が閾値以下の単語をテスト単語とすることが望ましい。より好ましくは、教科書コーパス語彙表で特徴度が0に近い単語をテスト単語とすることが望ましい。利用者100の属性に応じ、テスト単語の候補から除外するか否かの判断に、小学校教科書の特徴度を用いてもよいし、特定の教科の教科書の特徴度を用いてもよいし、特定の学年の教科書の特徴度を用いてもよい。また、例えば小学生の利用者100の語彙数を推定する場合、小学校で習わない漢字を含む単語をテスト単語の候補から除外してもよい。同様に、大人の利用者100の語彙数推定を行う場合、ある専門分野の文章に特徴的な単語をテスト単語の候補から除外してもよい。このように、本実施形態では、特定分野の文章に特徴的な単語以外からテスト単語が選択される。以下に詳細に説明する。
教科書コーパス語彙表:
https://pj.ninjal.ac.jp/corpus_center/bccwj/freq-list.html
例えば、「弦」は教科書コーパス語彙表で、特徴度_小中高_全教科390.83, 特徴度_小_全教科11.28のようになっており、「弦」は教科書で特徴的に出てくる単語である。一方、「取り込む」は、特徴度_小_全教科0.01と、ほぼ特徴度が0に近く、教科書と一般文書における使用にほぼ差がない。そのため、例えば、教科書コーパス語彙表で特徴度の絶対値が閾値以下の単語をテスト単語とすることが望ましい。より好ましくは、教科書コーパス語彙表で特徴度が0に近い単語をテスト単語とすることが望ましい。利用者100の属性に応じ、テスト単語の候補から除外するか否かの判断に、小学校教科書の特徴度を用いてもよいし、特定の教科の教科書の特徴度を用いてもよいし、特定の学年の教科書の特徴度を用いてもよい。また、例えば小学生の利用者100の語彙数を推定する場合、小学校で習わない漢字を含む単語をテスト単語の候補から除外してもよい。同様に、大人の利用者100の語彙数推定を行う場合、ある専門分野の文章に特徴的な単語をテスト単語の候補から除外してもよい。このように、本実施形態では、特定分野の文章に特徴的な単語以外からテスト単語が選択される。以下に詳細に説明する。
図1に例示するように、本実施形態の語彙数推定装置2は、記憶部21、問題生成部22、提示部13、回答受付部14、および語彙数推定部15を有する。第1実施形態との相違点は記憶部21および問題生成部22のみである。以下では、記憶部21および問題生成部22のみについて説明を行う。
<記憶部21>
第1実施形態の記憶部11との相違点は、記憶部21が単語親密度DBに加え、特定分野の文章に特徴的な単語を格納した特定分野単語DBを格納する点である。特定分野の例は、教科書分野や専門分野である。教科書分野は、すべての教科書分野であってもよいし、特定の学年の教科書分野であってもよいし、特定の教科の教科書分野であってもよい。専門分野は、すべての専門分野であってもよいし、特定の専門分野であってもよい。特定分野単語DBは、例えば、教科書コーパス語彙表に特徴的によく出てくる語として記載された単語を記録した教科書DBや、専門書や専門のコーパスに特徴的によく出てくる語として記載された単語を記録した専門語DBなどである(ステップS21)。その他は第1実施形態と同一である。
第1実施形態の記憶部11との相違点は、記憶部21が単語親密度DBに加え、特定分野の文章に特徴的な単語を格納した特定分野単語DBを格納する点である。特定分野の例は、教科書分野や専門分野である。教科書分野は、すべての教科書分野であってもよいし、特定の学年の教科書分野であってもよいし、特定の教科の教科書分野であってもよい。専門分野は、すべての専門分野であってもよいし、特定の専門分野であってもよい。特定分野単語DBは、例えば、教科書コーパス語彙表に特徴的によく出てくる語として記載された単語を記録した教科書DBや、専門書や専門のコーパスに特徴的によく出てくる語として記載された単語を記録した専門語DBなどである(ステップS21)。その他は第1実施形態と同一である。
<問題生成部22>
問題生成部22は、利用者またはシステムからの問題生成要請を入力として受け付けると、記憶部21の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部22が問題生成部12と相違する点は、記憶部11に代えて記憶部21からテスト単語を選択する点と、特定分野の文章に特徴的な単語以外からテスト単語を選択する点である。具体的には、問題生成部22は、例えば、記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS22)。
問題生成部22は、利用者またはシステムからの問題生成要請を入力として受け付けると、記憶部21の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部22が問題生成部12と相違する点は、記憶部11に代えて記憶部21からテスト単語を選択する点と、特定分野の文章に特徴的な単語以外からテスト単語を選択する点である。具体的には、問題生成部22は、例えば、記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS22)。
[第2実施形態の変形例]
第2実施形態では、問題生成部22が記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択する例を示した。しかしながら、テストに利用可能、あるいは利用したい語彙リスト(すなわち、特定分野の文章に特徴的な単語以外の単語を要素とする語彙リスト)を予め用意しておき、その中から前述した親密度等の条件を満たすテスト単語を選択してもよい。また、語彙数推定以外の目的でも利用可能な語彙リストを予め用意しておき、その中からテスト単語を選択してもよい。
第2実施形態では、問題生成部22が記憶部21に格納された単語親密度DBおよび特定分野単語DBを参照し、単語親密度DBに記録されており、かつ、特定分野単語DBには記録されていない単語をN個選択する例を示した。しかしながら、テストに利用可能、あるいは利用したい語彙リスト(すなわち、特定分野の文章に特徴的な単語以外の単語を要素とする語彙リスト)を予め用意しておき、その中から前述した親密度等の条件を満たすテスト単語を選択してもよい。また、語彙数推定以外の目的でも利用可能な語彙リストを予め用意しておき、その中からテスト単語を選択してもよい。
記憶部21が時事性の高い単語を格納した時事単語DBを格納してもよい。この場合、問題生成部22は、記憶部21に格納された単語親密度DBおよび時事単語DBを参照し、単語親密度DBに記録されており、かつ、時事単語DBには記録されていない単語をN個選択し、選択したN個の単語をテスト単語としてもよい。時事性の高い単語とは、特定の時期の文章に特徴的な単語、すなわち、特定の時期に注目された単語である。言い換えると、時事性の高い単語とは、特定の時期の文章での出現頻度が他の時期の文章での出現頻度に比べて高い単語を意味する。以下に時事性の高い単語を例示する。
・特定の時期の文章での出現頻度の最高値が他の時期の文章での出現頻度の最高値よりも大きい単語
・特定の時期の文章での出現頻度の平均値が他の時期の文章での出現頻度の平均値よりも大きい単語
・特定の時期の文章での出現頻度の最高値から他の時期の文章での出現頻度の最高値を減じた値が正の閾値よりも大きい単語
・特定の時期の文章での出現頻度の平均値から他の時期の文章での出現頻度の平均値を減じた値が正の閾値よりも大きい単語
・他の時期の文章での出現頻度の最高値に対する特定の時期の文章での出現頻度の最高値の比率が正閾値よりも大きい単語
・他の時期の文章での出現頻度の平均値に対する特定の時期の文章での出現頻度の平均値の比率が正閾値よりも大きい単語
特定の時期の文章および他の時期の文章は、例えば、SNS、ブログ、新聞記事、雑誌のうち、少なくともいずれか1つ以上のメディア内の文章である。
例えば「コロナウイルス」「クラスター」などの時事性の高い単語は、調査時期によって親密度が大きく異なる。このような単語をテスト単語として語彙数推定を行った場合、利用者のテスト単語の知識に関する回答を受け付ける時期によっては正しく語彙数推定を行うことができない場合がある。例えば、単語親密度DBの親密度を調査した時期と、語彙数推定のために利用者のテスト単語の知識に関する回答を受け付けた時期とで、親密度が大きく異なる時事性の高い単語をテスト単語とした場合、語彙数推定を行うことができない。そのため、問題生成部は、時事性の高い単語以外からテスト単語を選択することが望ましい。
・特定の時期の文章での出現頻度の最高値が他の時期の文章での出現頻度の最高値よりも大きい単語
・特定の時期の文章での出現頻度の平均値が他の時期の文章での出現頻度の平均値よりも大きい単語
・特定の時期の文章での出現頻度の最高値から他の時期の文章での出現頻度の最高値を減じた値が正の閾値よりも大きい単語
・特定の時期の文章での出現頻度の平均値から他の時期の文章での出現頻度の平均値を減じた値が正の閾値よりも大きい単語
・他の時期の文章での出現頻度の最高値に対する特定の時期の文章での出現頻度の最高値の比率が正閾値よりも大きい単語
・他の時期の文章での出現頻度の平均値に対する特定の時期の文章での出現頻度の平均値の比率が正閾値よりも大きい単語
特定の時期の文章および他の時期の文章は、例えば、SNS、ブログ、新聞記事、雑誌のうち、少なくともいずれか1つ以上のメディア内の文章である。
例えば「コロナウイルス」「クラスター」などの時事性の高い単語は、調査時期によって親密度が大きく異なる。このような単語をテスト単語として語彙数推定を行った場合、利用者のテスト単語の知識に関する回答を受け付ける時期によっては正しく語彙数推定を行うことができない場合がある。例えば、単語親密度DBの親密度を調査した時期と、語彙数推定のために利用者のテスト単語の知識に関する回答を受け付けた時期とで、親密度が大きく異なる時事性の高い単語をテスト単語とした場合、語彙数推定を行うことができない。そのため、問題生成部は、時事性の高い単語以外からテスト単語を選択することが望ましい。
なお、単語親密度DBに記録されており、かつ、時事単語DBには記録されていない単語をN個選択し、選択したN個の単語をテスト単語とするのではなく、テストに利用可能、あるいは利用したい語彙リスト(すなわち、時事性の高い単語以外の単語を要素とする語彙リスト)を予め用意しておき、その中から前述した親密度等の条件を満たすテスト単語を選択してもよい。この場合も、語彙数推定以外の目的でも利用可能な語彙リストを予め用意しておき、その中からテスト単語を選択してもよい。
その他、特定分野の文章に特徴的な単語でも、時事性の高い単語でもない単語をテスト単語として選択してもよい。すなわち、問題生成部22は、特定分野の文章に特徴的な単語および/または時事性の高い単語以外からテスト単語を選択してもよい。
[第3実施形態]
次に本発明の第3実施形態を説明する。第3実施形態は第1実施形態および第1実施形態の変形例に対するさらなる変形例であり、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点でこれらと相違する。
次に本発明の第3実施形態を説明する。第3実施形態は第1実施形態および第1実施形態の変形例に対するさらなる変形例であり、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点でこれらと相違する。
第3実施形態では、単語親密度DBに含まれる複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する。これは、通常使われない表記の単語をテスト単語として出題することによる利用者100の混乱を避けるためである。表記の妥当性の高さが所定の基準を満たす単語の例は、表記の妥当性が高い単語、すなわち、表記の妥当性の高さを表す値(指標値)が所定の閾値(第1閾値)以上または当該閾値を超える単語である。この場合、表記の妥当性の高さを表す値が所定の閾値以上または当該閾値を超える単語がテスト単語として利用される。また、表記の妥当性の高さが所定の基準を満たす単語の他の例は、複数の表記の中で表記の妥当性の高さを表す値の順位が所定順位よりも高い単語(例えば、複数の表記の中で妥当性の高さを表す値の順位が最も高い単語)である。この場合、表記の妥当性の高さを表す値の順位が所定順位よりも高い単語がテスト単語として利用される。表記の妥当性の高さを表す値としては、例えば、天野成昭,近藤公久,“日本語の語彙特性 第2巻”,三省堂,東京,1999(参考文献2)に記載されているものを用いることができる。すなわち、参考文献2では、同じエントリに対して複数の表記があり得るときの各表記の妥当性を数値で表現している。この数値を「表記の妥当性の高さを表す値」として利用できる。参考文献2では各表記の妥当性を1から5の数値で表現しており、例えば、「食い違う」の妥当性は4.70で表現され、「食違う」の妥当性は3.55で表現される。数値が大きいほど妥当性が高い。この場合、妥当性が低い「食違う」はテスト単語として利用されない。また、コーパス中で同じエントリに対して複数の表記が用いられている場合、このコーパス中での表記の出願頻度を「表記の妥当性の高さを表す値」として用いてもよい。
単語親密度DBに含まれる複数の単語が、単語に対するなじみ深さの個人差を表す指標が閾値(第2閾値)以下または当該閾値未満の単語のみであってもよい。当該指標の値が小さいほど単語に対するなじみ深さの個人差は小さい。このような指標の一例は、複数の被験者が当該の知識に関する回答を行った際の回答(例えば、単語を知っているとの回答、単語を知らないとの回答など)の分散である。分散が高いということは、なじみがある語かどうかの評価が人によって大きく異なるということを表している。分散が高い単語を単語親密度DBから除外することで、利用者100に応じて語彙数の推定誤差がばらつくことを抑制できる。以下に詳細に説明する。
図1に例示するように、本実施形態の語彙数推定装置3は、記憶部31、問題生成部32、提示部13、回答受付部14、および語彙数推定部15を有する。第1実施形態との相違点は記憶部31および問題生成部32のみである。以下では、記憶部31および問題生成部32のみについて説明を行う。
<記憶部31>
記憶部31と第1実施形態の記憶部11との相違点は、記憶部31に格納された単語親密度DBが、単語に対するなじみ深さの個人差を表す指標(例えば、上述した回答の分散)が閾値以下または当該閾値未満の単語と、当該単語の親密度とを対応付けたものである点、および記憶部31が単語親密度DBに加え、単語親密度DBの各単語の表記の妥当性の高さを表す値(例えば、参考文献2に記載された各表記の妥当性を表す数値、またはコーパス中での表記の出願頻度)を記録した表記妥当性DBも格納する点である(ステップS31)。その他は第1実施形態と同一である。
記憶部31と第1実施形態の記憶部11との相違点は、記憶部31に格納された単語親密度DBが、単語に対するなじみ深さの個人差を表す指標(例えば、上述した回答の分散)が閾値以下または当該閾値未満の単語と、当該単語の親密度とを対応付けたものである点、および記憶部31が単語親密度DBに加え、単語親密度DBの各単語の表記の妥当性の高さを表す値(例えば、参考文献2に記載された各表記の妥当性を表す数値、またはコーパス中での表記の出願頻度)を記録した表記妥当性DBも格納する点である(ステップS31)。その他は第1実施形態と同一である。
<問題生成部32>
問題生成部32は、利用者またはシステムからの問題生成要請を受け付けると、記憶部31の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部32が問題生成部12と相違する点は、記憶部11に代えて記憶部31からテスト単語を選択する点と、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点である。具体的には、問題生成部32は、例えば、記憶部31に格納された単語親密度DBおよび表記妥当性DBを参照し、単語親密度DBに記録されており、かつ、表記の妥当性の高さが所定の基準を満たす単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS32)。
問題生成部32は、利用者またはシステムからの問題生成要請を受け付けると、記憶部31の単語親密度DBに含まれる複数の単語から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。問題生成部32が問題生成部12と相違する点は、記憶部11に代えて記憶部31からテスト単語を選択する点と、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択する点である。具体的には、問題生成部32は、例えば、記憶部31に格納された単語親密度DBおよび表記妥当性DBを参照し、単語親密度DBに記録されており、かつ、表記の妥当性の高さが所定の基準を満たす単語をN個選択し(例えば、親密度順にほぼ一定間隔で単語をN個選択し)、選択したN個の単語をテスト単語w(1),…,w(N)として出力する。その他は第1実施形態と同一である(ステップS32)。
[第4実施形態]
第4実施形態は、第1~3実施形態および第1実施形態の変形例に対する変形例であり、テスト単語以外の単語についても適切な推定語彙数を推定する点でこれらと相違する。
第4実施形態は、第1~3実施形態および第1実施形態の変形例に対する変形例であり、テスト単語以外の単語についても適切な推定語彙数を推定する点でこれらと相違する。
前述のように、第1実施形態等で説明した方法で語彙数推定を実施すれば、モデルφの精度が向上し、利用者の語彙数を高精度に推定できる。しかし、この手法では、各テスト単語w’(n)に対応する適切な潜在語彙数x(n)を得るために各テスト単語w’(n)の被験者内親密度a’(n)が必要であり、各テスト単語w’(n)の被験者内親密度a’(n)を得るために、被験者集合に属する一定数以上の利用者100(被験者)に対し、ステップS12,S13,S14,S151の処理を実行する必要がある。テスト単語を変更する場合には、変更後のテスト単語に対応する被験者内親密度が必要であり、被験者集合に属する一定数以上の利用者100について、ステップS12,S13,S14,S151の処理をやり直さなければならない。そのため、この手法ではテスト単語の変更が煩雑であるという問題がある。
そこで本実施形態では、ステップS12,S13,S14,S151の処理をやり直すことなく、単語親密度DBのM個の単語w”(1),…,w”(M)の各単語w”(m)(ただし、m=1,…,M)について、被験者集合に属する利用者100にとって適切な潜在語彙数x”(m)を推定する。これにより、テスト単語の変更が容易になる。本実施形態では、単語wの特徴量(変数)γ1,…,γIから潜在語彙数x”を得る推定モデル(推定式)Ψ:x”=G(γ1,…,γI,Θ)を得、この推定モデルΨの変数γ1,…,γIに各単語w”(m)の特徴量γ1(m),…,γI(m)を適用することで、各単語w”(m)に対応する潜在語彙数x”(m)=G(γ1(m),…,γI(m),Θ)を得る。ただし、Iは特徴量の個数を表す正整数であり、Θはモデルパラメータである。推定モデルに限定はなく、重回帰式や、ランダムフォレストなど、特徴量γ1(m),…,γI(m)から潜在語彙数x”(m)を推定するものであれば、どのようなものでもよい。またモデルパラメータΘは、前述したテーブル[W’,X]のテスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))を正解データ(訓練データ)とした機械学習によって得られる。例えば、n=1,…,Nについて、正解データの各テスト単語w’(n)の特徴量γ1(n),…,γI(n)を推定モデルΨに適用して得られる潜在語彙数x”(n)=G(γ1(n),…,γI(n),Θ)と、正解データの潜在語彙数x(n)との誤差(例えば、平均二乗誤差)を最小化するモデルパラメータΘが推定される。特徴量γiの例は、単語w”の心像性(語のイメージし易さ)、単語親密度DBに格納されている単語w”の親密度、単語w”が具体物を表すか否かを表す値、コーパス中の単語w”の出現頻度などである。心像性の例は、日本語の語彙特性第3期「単語心像性データベース」(http://shachi.org/resources/3472?ln=jpn)に格納された7段階で評定した平均値である。あるいは、参考文献3等に開示された、単語に対する辞書の定義文を使って検索した結果が辞書の語義として適切かどうかの5段階評定値や評定平均値を当該単語の心像性として用いてもよい。この5段階評定値は当該単語がどの程度画像として表現し易いかを表す。
参考文献3:藤田早苗,平博順,永田昌明,“画像検索を用いた語義別画像付き辞書の構築”,“Enriching Dictionaries with Images from the Internet”,自然言語処理,Vol. 20, No. 2, pp. 223-250, 2013.
単語w”が具体物を表すか否かを表す値の例は、日本語語彙体系(シソーラス)で「具体」配下かどうかを表す値である。特徴量γ1,…,γIとして、単語w”の心像性、単語w”の親密度、単語w”が具体物を表すか否かを表す値、コーパス中の単語w”の出現頻度の全てを用いてもよいし、これらの一部のみを用いてもよいし(例えば、特徴量γ1,…,γIが単語w”の心像性を含むが、単語w”が具体物を表すか否かを表す値を含まない、または単語w”が具体物を表すか否かを表す値を含むが、特徴量γ1,…,γIが単語w”の心像性を含まないなど)、その他の値を用いてもよい。以下に詳細に説明する。
参考文献3:藤田早苗,平博順,永田昌明,“画像検索を用いた語義別画像付き辞書の構築”,“Enriching Dictionaries with Images from the Internet”,自然言語処理,Vol. 20, No. 2, pp. 223-250, 2013.
単語w”が具体物を表すか否かを表す値の例は、日本語語彙体系(シソーラス)で「具体」配下かどうかを表す値である。特徴量γ1,…,γIとして、単語w”の心像性、単語w”の親密度、単語w”が具体物を表すか否かを表す値、コーパス中の単語w”の出現頻度の全てを用いてもよいし、これらの一部のみを用いてもよいし(例えば、特徴量γ1,…,γIが単語w”の心像性を含むが、単語w”が具体物を表すか否かを表す値を含まない、または単語w”が具体物を表すか否かを表す値を含むが、特徴量γ1,…,γIが単語w”の心像性を含まないなど)、その他の値を用いてもよい。以下に詳細に説明する。
図1に例示するように、本実施形態の語彙数推定装置4は、記憶部11、問題生成部12、提示部13、回答受付部14、および語彙数推定部45を有する。第1実施形態との相違点は語彙数推定部45のみである。以下では、語彙数推定部45のみについて説明を行う。
<語彙数推定部45>
語彙数推定部45は、前述のステップS151,S152,S153の処理を実行してテーブル[W’,X]を得、当該テーブル[W’,X]を記憶部11に格納する。ただし、既にテーブル[W’,X]が記憶部11に格納されているのであれば、ステップS151,S152,S153の処理が省略されてもよい。語彙数推定部45は、テーブル[W’,X]のテスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))を正解データとして用いた機械学習によって推定モデルΨ:x”=G(γ1,…,γI,Θ)のモデルパラメータΘを得る。例えば、推定モデルΨが重回帰式である場合、推定モデルΨは以下の式(1)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+…+θIγI+θ0 (1)
ただし、Θ={θ0,θ1,…,θI}である。例えばI=4であり、γ1が単語w”の心像性であり、γ2が単語w”の親密度であり、γ3が単語w”が具体物を表すか否かを表す値であり、γ4がコーパス中の単語w”の出現頻度である場合、重回帰式の推定モデルΨは以下の式(2)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+θ2γ2+θ3γ3+θ4γ4+θ0 (2)
ただし、Θ={θ0,θ1,…,θI}である(ステップS454)。
語彙数推定部45は、前述のステップS151,S152,S153の処理を実行してテーブル[W’,X]を得、当該テーブル[W’,X]を記憶部11に格納する。ただし、既にテーブル[W’,X]が記憶部11に格納されているのであれば、ステップS151,S152,S153の処理が省略されてもよい。語彙数推定部45は、テーブル[W’,X]のテスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))を正解データとして用いた機械学習によって推定モデルΨ:x”=G(γ1,…,γI,Θ)のモデルパラメータΘを得る。例えば、推定モデルΨが重回帰式である場合、推定モデルΨは以下の式(1)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+…+θIγI+θ0 (1)
ただし、Θ={θ0,θ1,…,θI}である。例えばI=4であり、γ1が単語w”の心像性であり、γ2が単語w”の親密度であり、γ3が単語w”が具体物を表すか否かを表す値であり、γ4がコーパス中の単語w”の出現頻度である場合、重回帰式の推定モデルΨは以下の式(2)のように表される。
x”=G(γ1,…,γI,Θ)
=θ1γ1+θ2γ2+θ3γ3+θ4γ4+θ0 (2)
ただし、Θ={θ0,θ1,…,θI}である(ステップS454)。
次に語彙数推定部45は、記憶部11の単語親密度DBの各単語w”(m)(ただし、m=1,…,M)の特徴量γ1(m),…,γI(m)を得、これらとステップS454で得られたモデルパラメータΘとを推定モデルΨに代入して、各単語w”(m)に対応する潜在語彙数x”(m)=G(γ1(m),…,γI(m),Θ)を得る。各潜在語彙数x”(m)は各単語w”(m)に対応付けられて記憶部11に格納される(ステップS455)。
これ以降、語彙数推定を行う場合には、ステップS151~S153の処理を省略し、ステップS12,S13,S14,S154,S155の処理を行うことができる。ただし、ステップS12では問題生成部12が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。またステップS154では、語彙数推定部15は、ステップS151で選択した各テスト単語w(n)と記憶部11で各テスト単語w(n)に対応付けられている潜在語彙数x”(n)との組(w(n),x”(n))と、利用者100のテスト単語の知識に関する回答とを用い、モデルφを得る。
[第4実施形態の変形例]
語彙数推定装置4が、第1実施形態で説明した記憶部11および問題生成部12に代えて、第2実施形態またはその変形例で説明した記憶部21および問題生成部22を有していてもよい。この場合にはステップS12に代えてステップS22の処理が実行されるが、この場合も問題生成部22が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。同様に、第3実施形態で説明した記憶部31および問題生成部32を有していてもよい。この場合にはステップS12に代えてステップS32の処理が実行されるが、この場合も問題生成部32が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。
語彙数推定装置4が、第1実施形態で説明した記憶部11および問題生成部12に代えて、第2実施形態またはその変形例で説明した記憶部21および問題生成部22を有していてもよい。この場合にはステップS12に代えてステップS22の処理が実行されるが、この場合も問題生成部22が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。同様に、第3実施形態で説明した記憶部31および問題生成部32を有していてもよい。この場合にはステップS12に代えてステップS32の処理が実行されるが、この場合も問題生成部32が毎回同じテスト単語w(1),…,w(N)を選択する必要はない。
[第5実施形態]
第5実施形態は、第1~4実施形態および第1実施形態の変形例に対する変形例である。第1~4実施形態および第1実施形態の変形例では、複数の単語と当該単語それぞれに対して予め定められた親密度との組を格納した単語親密度DBを用いて各単語の潜在語彙数を得た。しかし、このような単語親密度DBを用意できないときもある。第5実施形態では、このような単語親密度DBに代えて、少なくともコーパス中の単語の出現頻度に基づいて各単語の潜在語彙数を得る。この場合には、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度とを格納したDBが用いられる。さらに、コーパス中の単語の出現頻度に加え、単語の品詞に基づいて潜在語彙数を得てもよい。この場合は、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および品詞とを格納したDBが用いられる。またさらに、これらの少なくとも何れかに加えて、被験者(例えば、日本人)の母国語(例えば、日本語)と異なる言語(例えば、英語)を母国語とする者(例えば、米国人)の当該言語の単語の親密度(外国語親密度)に基づいて、被験者に仮定される潜在語彙数を得てもよい。この場合には、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および/または品詞と当該言語の単語の親密度とを格納したDBが用いられる。あるいは、上述のように単語の出現頻度、品詞、外国語親密度の少なくとも何れかから潜在語彙数を得ておき、単語親密度DBに代えて、複数の単語と当該単語それぞれに対して得られた潜在語彙数との組を対応付けたDBが用いられてもよい。
第5実施形態は、第1~4実施形態および第1実施形態の変形例に対する変形例である。第1~4実施形態および第1実施形態の変形例では、複数の単語と当該単語それぞれに対して予め定められた親密度との組を格納した単語親密度DBを用いて各単語の潜在語彙数を得た。しかし、このような単語親密度DBを用意できないときもある。第5実施形態では、このような単語親密度DBに代えて、少なくともコーパス中の単語の出現頻度に基づいて各単語の潜在語彙数を得る。この場合には、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度とを格納したDBが用いられる。さらに、コーパス中の単語の出現頻度に加え、単語の品詞に基づいて潜在語彙数を得てもよい。この場合は、例えば、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および品詞とを格納したDBが用いられる。またさらに、これらの少なくとも何れかに加えて、被験者(例えば、日本人)の母国語(例えば、日本語)と異なる言語(例えば、英語)を母国語とする者(例えば、米国人)の当該言語の単語の親密度(外国語親密度)に基づいて、被験者に仮定される潜在語彙数を得てもよい。この場合には、単語親密度DBに代えて、複数の単語と当該単語それぞれの出現頻度および/または品詞と当該言語の単語の親密度とを格納したDBが用いられる。あるいは、上述のように単語の出現頻度、品詞、外国語親密度の少なくとも何れかから潜在語彙数を得ておき、単語親密度DBに代えて、複数の単語と当該単語それぞれに対して得られた潜在語彙数との組を対応付けたDBが用いられてもよい。
上述のように、複数の単語と当該単語それぞれに対して予め定められた親密度との組を格納した単語親密度DBが得られない場合がある。例えば、第1~4実施形態および第1実施形態の変形例では、日本語の語彙数推定を行う例を示した。しかし本発明はこれに限定されず、本発明によって日本語以外の言語(例えば、英語)の語彙数推定を行ってもよい。しかし、非母国語を対象とした単語の親密度の大規模データは存在しない。例えば、利用者100が日本人である場合、日本語以外の英語などの言語は非母国語である。日本人を対象とした数万~数十万語の日本語の単語の親密度データは存在するが、日本人を対象とした英語の単語の親密度の大規模データは存在しない。例えば、「日本人英語学習者の英単語親密度」(横川、くろしお出版, 2006)では、日本人を対象として英語の単語の親密度が調査されているが、単語数は約3000語であり十分とは言えない。また、英語を母国語とする者を対象として調査された英語の親密度のデータは存在する(参考文献4:https://elexicon.wustl.edu/include/NewNews.html)。しかし、英語を母国語とする者と英語を非母国語とする日本人とでは、英語の単語の親密度は必ずしも一致しないだろう。
あるいは、コーパス中での単語の出現頻度を用いて単語の親密度を推定することも考えられる。コーパス中での単語の出現頻度は、当該単語の親密度と相関があることが知られている。しかしながら、出願頻度が低いにもかかわらず親密度の高い単語も存在し、コーパス中での出現頻度が低い単語だからといって、必ずしも親密度が低い単語(難しい単語)であるとは限らない。
また、各単語に難易度のレベルが付与された英語辞書も存在するが(例えば、参考文献5等参照)、難易度が数段のレベルに分けられている程度では、このレベルを親密度として語彙数推定を行うには粗すぎる。例えば、参考文献5では、日本の英語教育で利用すること目的に、英語の単語をレベル分けしているが、レベルの段数はA1,A2,B1,B2(A1<A2<B1<B2)の4段階のみである(品詞別収録語は7815語)。この場合、レベルA1の単語を1語知っている者がレベルA1の単語をすべて知っていると仮定できないだろう。なお、これらのレベルの段数においてα<βは、レベルαの単語の方がレベルβの単語よりも難易度が高いことを意味する。
参考文献5:CEFR-J Wordlist(http://www.cefr-j.org/download.html#cefrj_wordlist)
参考文献5:CEFR-J Wordlist(http://www.cefr-j.org/download.html#cefrj_wordlist)
そこで、本実施形態では、日本人向けに英語の単語がレベル分けされた語彙リスト(例えば、参考文献5のCEFR-J Wordlist ver1.6)をベースに、各レベルの中でさらに各単語を所定の順位付け基準に従って順位付けすることで各レベルをより詳細に分け、単語全体を各単語のなじみ深さ順と推定される順序に並べ替える。「所定の順位付け基準」の例は、コーパス中における各単語の出現頻度順に各単語を順位付けする基準、あるいは、英語を母国語とする者の親密度順に各単語を順位付けする基準などである。例えば、参考文献5のCEFR-J Wordlistでは、英語の単語に以下のようなレベルが付与されている。
レベルA1: a, a.m., about, above, action, activity, … , yours, yourself, zoo
(1197語、表記ゆれをまとめて1164語)
レベルA2: ability, abroad, accept, acceptable, …, yeah, youth, zone
(1442語、表記ゆれをまとめて1411語)
レベルB1,B2についても同様である。これらの各レベルの中で単語を「所定の順位付け基準」に従って順位付けして並べ替える。例えば、レベルA1ではa, about, yourself,,,,のように単語を出現頻度順に並び替える。各レベルA1,A2,B1,B2の中でそれぞれ出現頻度順に並べ替えた単語を並べ、全体として各単語のなじみ深さ順と推定される順序に並べる。このように、なじみ深さ順と推定される順序に並べられたM個の単語ω(1),…,ω(M)の各単語ω(m)に潜在語彙数x(m)を対応付ける。ただし、m1,m2∈{1,…,M}およびm1<m2に対してx(m1)≦x(m2)を満たす。
レベルA1: a, a.m., about, above, action, activity, … , yours, yourself, zoo
(1197語、表記ゆれをまとめて1164語)
レベルA2: ability, abroad, accept, acceptable, …, yeah, youth, zone
(1442語、表記ゆれをまとめて1411語)
レベルB1,B2についても同様である。これらの各レベルの中で単語を「所定の順位付け基準」に従って順位付けして並べ替える。例えば、レベルA1ではa, about, yourself,,,,のように単語を出現頻度順に並び替える。各レベルA1,A2,B1,B2の中でそれぞれ出現頻度順に並べ替えた単語を並べ、全体として各単語のなじみ深さ順と推定される順序に並べる。このように、なじみ深さ順と推定される順序に並べられたM個の単語ω(1),…,ω(M)の各単語ω(m)に潜在語彙数x(m)を対応付ける。ただし、m1,m2∈{1,…,M}およびm1<m2に対してx(m1)≦x(m2)を満たす。
このように単語を出現頻度順に順位付けて語彙数推定を行う場合、単語の出現頻度の順序と単語のなじみ深さの順序とができるだけ一致することが望ましい。しかしながら、動詞は活用するが、名詞は活用しないなど、活用するかどうかの有無によって、出現頻度の数え方が自明ではない場合がある。また、動詞より名詞の方が絶対数が多く、相対的な頻度が低くなるなど、品詞によってコーパス中の出現傾向に差がある場合もある。そのため、単語を出現頻度順に順位付けて語彙数推定を行う場合、すべての品詞の単語を同一の基準で扱うことは難しい。そこで、語彙数推定を品詞別に行うことが望ましい。すなわち、前述のようになじみ深さ順と推定される順序に並べられた同じ品詞のM個の単語ω(1),…,ω(M)の各単語ω(m)に潜在語彙数x(m)を対応付けたテーブルを用い、品詞別に語彙数推定を行ってもよい。ただし、m1,m2∈{1,…,M}およびm1<m2に対してx(m1)≦x(m2)を満たす。言い換えると、単語ω(1),…,ω(M)に含まれる、出現頻度がα1(第1値)である「特定の品詞」の単語ω(m1)を知っている者の推定語彙数z(m1)は、出現頻度がα2(第2値)(ただし、α1はα2よりも大きい、α1>α2)である当該「特定の品詞」の単語ω(m2)を知っている者の推定語彙数z(m2)よりも少ない。また、同じ単語に複数の品詞が考えられる場合、品詞によって単語のなじみ深さが異なる場合がある。例えば、同じ単語が或る品詞で使われることは少ないが別の品詞ではよく使われるなどといったこともある。こういった影響を避けるため、同じ単語に複数の品詞が考えられる場合、当該複数の品詞のうち当該単語の品詞として最もなじみ深い品詞(例えば、最も難易度のレベルの低い品詞)の単語とみなして、品詞別に語彙数推定を行う。すなわち、単語ω(m1)または単語ω(m2)の品詞のうち、単語ω(m1)または単語ω(m2)の品詞として最もなじみ深い品詞を上述の「特定の品詞」として、品詞別に語彙数推定を行う。例えば、単語「round」には、以下の副詞(adverb)、形容詞(adjective)、名詞(noun)、前置詞(preposition)の品詞が想定できる。
+-------+-------------+------+
| WORD | POS | CEFR |
+-------+-------------+------+
| round | adverb | A2 |
| round | adjective | B1 |
| round | noun | B1 |
| round | preposition | B2 |
| round | verb | B2 |
+-------+-------------+------+
ここで、副詞の「round」,形容詞の「round」,名詞の「round」,前置詞の「round」のレベルは、それぞれA2,B1,B1,B2,B2である。この場合、「round」を最もレベルの低い副詞(adverb)の単語とみなして語彙数推定を行う。
+-------+-------------+------+
| WORD | POS | CEFR |
+-------+-------------+------+
| round | adverb | A2 |
| round | adjective | B1 |
| round | noun | B1 |
| round | preposition | B2 |
| round | verb | B2 |
+-------+-------------+------+
ここで、副詞の「round」,形容詞の「round」,名詞の「round」,前置詞の「round」のレベルは、それぞれA2,B1,B1,B2,B2である。この場合、「round」を最もレベルの低い副詞(adverb)の単語とみなして語彙数推定を行う。
以下、上述のようにコーパス中の単語の出現頻度および単語の品詞に基づいて単語を順位付けする効果を示す。
(1)コーパス中の単語の出現頻度順に単語を順位付けした場合(1900年以降のGoogle Booksの1 gramデータを利用)
certain,private,directly,ago,agricultural,psychological,pretty,mostly,involve,competitive,elementary,adams,majesty,tide,peaceful,vain,asleep,inform,fled,neural,quit,sincere,auf,conquered,jay,behold,administer,envy,delete,scenery,triangular,fireplace,preparatory,canterbury,pike,tout,regimen,reunion,arousal,deacon,tread,strenuous,arsenal,blaze,inquisition,inexperienced,tremble,aerosol,balkans,rubbish
CEFR-J Word List記載のレベルと品詞(複数品詞がある単語の場合、1つのみ記載)を併記すると次のようになる。
certain (A2, adjective), private (A2, adjective), directly (B1, adverb), ago (A1, adverb), agricultural (B1, adjective), psychological (B1, adjective), pretty (A2, adverb), mostly (A2, adverb), involve (B1, verb), competitive (B1, adjective), elementary (A1, adjective), adams (-, ), majesty (-, ), tide (B1, noun), peaceful (A2, adjective), vain (B1, adjective), asleep (A2, adjective), inform (B1, verb), fled (-, ), neural (-, ), quit (B2, adjective), sincere (B2, adjective), auf (-, ), conquered (-, ), jay (-, ), behold (-, ), administer (-, ), envy (B2, verb), delete (B1, verb), scenery (A2, noun), triangular (-, ), fireplace (B2, noun), preparatory (-, ), canterbury (-, ), pike (-, ), tout (-, ), regimen (-, ), reunion (A2, noun), arousal (-, ), deacon (-, ), tread (B2, verb), strenuous (-, ), arsenal (-, ), blaze (B2, verb), inquisition (-, ), inexperienced (B2, adjective), tremble (B1, verb), aerosol (-, ), balkans (-, ), rubbish (B1, noun)
例えば、上記リスト中の、adamsやcanterburyは多くの場合、Adams, Canterbury のように固有名詞として用いられることが多い。本来固有名詞として使われる語を語彙数推定に利用することは望ましくない。CEFR-J等のリストに含まれない語を用いないようにすれば、こうした語を用いないようにすることができる。また、頻度順では、peacefulよりagriculturalの方が頻度が高くなっているが、CEFR-Jでのpeaceful, agriculturalのレベルは、それぞれ、A2, B1レベルであり、CEFR-Jで定義されたレベルの方が直感に合う(つまり、peacefulの方がagriculturalよりもなじみがあり、多くの人が知っている単語)と考えられる。
(1)コーパス中の単語の出現頻度順に単語を順位付けした場合(1900年以降のGoogle Booksの1 gramデータを利用)
certain,private,directly,ago,agricultural,psychological,pretty,mostly,involve,competitive,elementary,adams,majesty,tide,peaceful,vain,asleep,inform,fled,neural,quit,sincere,auf,conquered,jay,behold,administer,envy,delete,scenery,triangular,fireplace,preparatory,canterbury,pike,tout,regimen,reunion,arousal,deacon,tread,strenuous,arsenal,blaze,inquisition,inexperienced,tremble,aerosol,balkans,rubbish
CEFR-J Word List記載のレベルと品詞(複数品詞がある単語の場合、1つのみ記載)を併記すると次のようになる。
certain (A2, adjective), private (A2, adjective), directly (B1, adverb), ago (A1, adverb), agricultural (B1, adjective), psychological (B1, adjective), pretty (A2, adverb), mostly (A2, adverb), involve (B1, verb), competitive (B1, adjective), elementary (A1, adjective), adams (-, ), majesty (-, ), tide (B1, noun), peaceful (A2, adjective), vain (B1, adjective), asleep (A2, adjective), inform (B1, verb), fled (-, ), neural (-, ), quit (B2, adjective), sincere (B2, adjective), auf (-, ), conquered (-, ), jay (-, ), behold (-, ), administer (-, ), envy (B2, verb), delete (B1, verb), scenery (A2, noun), triangular (-, ), fireplace (B2, noun), preparatory (-, ), canterbury (-, ), pike (-, ), tout (-, ), regimen (-, ), reunion (A2, noun), arousal (-, ), deacon (-, ), tread (B2, verb), strenuous (-, ), arsenal (-, ), blaze (B2, verb), inquisition (-, ), inexperienced (B2, adjective), tremble (B1, verb), aerosol (-, ), balkans (-, ), rubbish (B1, noun)
例えば、上記リスト中の、adamsやcanterburyは多くの場合、Adams, Canterbury のように固有名詞として用いられることが多い。本来固有名詞として使われる語を語彙数推定に利用することは望ましくない。CEFR-J等のリストに含まれない語を用いないようにすれば、こうした語を用いないようにすることができる。また、頻度順では、peacefulよりagriculturalの方が頻度が高くなっているが、CEFR-Jでのpeaceful, agriculturalのレベルは、それぞれ、A2, B1レベルであり、CEFR-Jで定義されたレベルの方が直感に合う(つまり、peacefulの方がagriculturalよりもなじみがあり、多くの人が知っている単語)と考えられる。
(2)CEFR-J Wordlistに出てくる単語のみを用い、各レベルの中でさらに各単語をコーパス中における各単語の出現頻度順に順位付けした例
certain, difficult, directly, ago, agricultural, psychological, pretty, mostly, involve, competitive, elementary, survive, evaluate, triumph, peaceful, vain, brave, inform, chin, enjoyment, imaginary, policeman, literal, thigh, absorb, erect, aristocracy, strangely, delete, distributor, dissatisfaction, tuition, likeness, tub, manipulate, homework, eloquence, comet, anyhow, fortnight, trainee, supervise, wetland, botany, enjoyable, razor, stimulant, dangerously, brilliantly, bully
わかりやすくするため、上述の各単語にCEFRにおけるレベルと、品詞を併記すると次のようになる。
[A2]certain (adjective), [A1]difficult (adjective), [B1]directly (adverb), ago (adverb), agricultural (adjective), psychological (adjective), pretty (adverb), mostly (adverb), involve (verb), competitive (adjective), elementary (adjective), survive (verb), [B2]evaluate (verb), triumph (noun), peaceful (adjective), vain (adjective), brave (adjective), inform (verb), chin (noun), enjoyment (noun), imaginary (adjective), policeman (noun), literal (adjective), thigh (noun), absorb (verb), erect (adjective), aristocracy (noun), strangely (adverb), delete (verb), distributor (noun), dissatisfaction (noun), tuition (noun), likeness (noun), tub (noun), manipulate (verb), homework (noun), eloquence (noun), comet (noun), anyhow (adverb), fortnight (noun), trainee (noun), supervise (verb), wetland (noun), botany (noun), enjoyable (adjective), razor (noun), stimulant (noun), dangerously (adverb), brilliantly (adverb), bully (verb)
この例の場合、副の出現頻度が他の品詞の出現頻度より相対的に低いため、副詞の単語は難しめの(なじみ深さが低い)順位に順位付けされる傾向がある。例えばB2レベルの語では、名詞である“fortnight”や“botany”より、副詞である”dangerously”, ”brilliantly”の方が順位が後ろになっているが、多くの人にとっては”dangerously”, ”brilliantly”の方が“fortnight”や“botany”よりもなじみ深いと感じられるだろう。
certain, difficult, directly, ago, agricultural, psychological, pretty, mostly, involve, competitive, elementary, survive, evaluate, triumph, peaceful, vain, brave, inform, chin, enjoyment, imaginary, policeman, literal, thigh, absorb, erect, aristocracy, strangely, delete, distributor, dissatisfaction, tuition, likeness, tub, manipulate, homework, eloquence, comet, anyhow, fortnight, trainee, supervise, wetland, botany, enjoyable, razor, stimulant, dangerously, brilliantly, bully
わかりやすくするため、上述の各単語にCEFRにおけるレベルと、品詞を併記すると次のようになる。
[A2]certain (adjective), [A1]difficult (adjective), [B1]directly (adverb), ago (adverb), agricultural (adjective), psychological (adjective), pretty (adverb), mostly (adverb), involve (verb), competitive (adjective), elementary (adjective), survive (verb), [B2]evaluate (verb), triumph (noun), peaceful (adjective), vain (adjective), brave (adjective), inform (verb), chin (noun), enjoyment (noun), imaginary (adjective), policeman (noun), literal (adjective), thigh (noun), absorb (verb), erect (adjective), aristocracy (noun), strangely (adverb), delete (verb), distributor (noun), dissatisfaction (noun), tuition (noun), likeness (noun), tub (noun), manipulate (verb), homework (noun), eloquence (noun), comet (noun), anyhow (adverb), fortnight (noun), trainee (noun), supervise (verb), wetland (noun), botany (noun), enjoyable (adjective), razor (noun), stimulant (noun), dangerously (adverb), brilliantly (adverb), bully (verb)
この例の場合、副の出現頻度が他の品詞の出現頻度より相対的に低いため、副詞の単語は難しめの(なじみ深さが低い)順位に順位付けされる傾向がある。例えばB2レベルの語では、名詞である“fortnight”や“botany”より、副詞である”dangerously”, ”brilliantly”の方が順位が後ろになっているが、多くの人にとっては”dangerously”, ”brilliantly”の方が“fortnight”や“botany”よりもなじみ深いと感じられるだろう。
(3)CEFR-J Wordlistに出てくる単語のみを用い、品詞ごとに各レベルの中でさらに各単語をコーパス中における各単語の出現頻度順に順位付けした例
動詞のみ:
[A1]get, [A2]feel, learn, teach, [B1]hurt, swim, provide, cross, avoid, train, snow, worry, hate, pursue, publish, steal, wander, pronounce, experience, [B2]soil, estimate, please, warm, involve, promote, defeat, engage, excuse, emerge, rid, derive, strengthen, persuade, assign, dig, interrupt, grab, thirst, classify, riddle, illuminate, drown, mourn, influence, experiment, row, exhibit, substitute, convert, decay
動詞のみ:
[A1]get, [A2]feel, learn, teach, [B1]hurt, swim, provide, cross, avoid, train, snow, worry, hate, pursue, publish, steal, wander, pronounce, experience, [B2]soil, estimate, please, warm, involve, promote, defeat, engage, excuse, emerge, rid, derive, strengthen, persuade, assign, dig, interrupt, grab, thirst, classify, riddle, illuminate, drown, mourn, influence, experiment, row, exhibit, substitute, convert, decay
名詞のみ:
[A1]minute, [A2]train, sheep, math, mommy, statement, [B1]male, ray, creature, shade, chin, balloon, playground, term, presence, aid, absence, infection, fifth, radiation, confusion, courage, tragedy, guilt, devotion, orbit, elbow, flock, theft, sadness, niece, sunrise, glide, chuckle, [B2]assembly, obligation, stability, dose, throat, holder, midst, query, strand, bankruptcy, correspondent, insult, interruption, hesitation, astronomy, chemotherapy
副詞のみ:
[A1]much, [B1]yet, usually, [A2]straight, [B2]far, across, forward, widely, mostly, roughly, worldwide, loudly, merely, forth, naturally, rarely, shortly, definitely, annually, extensively, aboard, evenly, anyhow, pleasantly, previously, practically, presumably, independently, promptly, morally, eagerly, eastward, admittedly, thirdly, powerfully, suitably, tremendously, overboard, stubbornly
これにより、品詞ごとに、なじみ深さの順に近い順位付けを行うことができる。
[A1]minute, [A2]train, sheep, math, mommy, statement, [B1]male, ray, creature, shade, chin, balloon, playground, term, presence, aid, absence, infection, fifth, radiation, confusion, courage, tragedy, guilt, devotion, orbit, elbow, flock, theft, sadness, niece, sunrise, glide, chuckle, [B2]assembly, obligation, stability, dose, throat, holder, midst, query, strand, bankruptcy, correspondent, insult, interruption, hesitation, astronomy, chemotherapy
副詞のみ:
[A1]much, [B1]yet, usually, [A2]straight, [B2]far, across, forward, widely, mostly, roughly, worldwide, loudly, merely, forth, naturally, rarely, shortly, definitely, annually, extensively, aboard, evenly, anyhow, pleasantly, previously, practically, presumably, independently, promptly, morally, eagerly, eastward, admittedly, thirdly, powerfully, suitably, tremendously, overboard, stubbornly
これにより、品詞ごとに、なじみ深さの順に近い順位付けを行うことができる。
以下、本実施形態の構成を詳細に説明する。図1に例示するように、本実施形態の語彙数推定装置5は、記憶部51、問題生成部52、提示部53、回答受付部54、および語彙数推定部55を有する。
<記憶部51>
記憶部51と前述の記憶部11,21,31との相違点は、同じ品詞のM個の単語ω(1),…,ω(M)の各単語ω(m)(m=1,…,M)に上述した潜在語彙数x(m)を対応付けたDBが記憶部51に格納されている点のみである。何れか一つの品詞についてのDBのみが記憶部51に格納されてもよいし、複数の品詞それぞれについてDBが記憶部51に格納されてもよい。すなわち、DBの潜在語彙数x(m)は、例えば、コーパス中の単語ω(m)の出現頻度および単語の品詞に基づいて得られたものである。
記憶部51と前述の記憶部11,21,31との相違点は、同じ品詞のM個の単語ω(1),…,ω(M)の各単語ω(m)(m=1,…,M)に上述した潜在語彙数x(m)を対応付けたDBが記憶部51に格納されている点のみである。何れか一つの品詞についてのDBのみが記憶部51に格納されてもよいし、複数の品詞それぞれについてDBが記憶部51に格納されてもよい。すなわち、DBの潜在語彙数x(m)は、例えば、コーパス中の単語ω(m)の出現頻度および単語の品詞に基づいて得られたものである。
<問題生成部52>
問題生成部52は、利用者またはシステムからの問題生成要請を受け付けると、記憶部51のDBに含まれる、同じ品詞のM個の単語ω(1),…,ω(M)から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。すなわち問題生成部52は、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力する。問題生成部52は、或る品詞のテスト単語w(1),…,w(N)のみを選択して出力してもよいし、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力してもよい。前述のように、テスト単語w(n)に複数の品詞が想定される場合、テスト単語w(n)の品詞のうち、テスト単語w(n)の品詞として最もなじみ深い、あるいは、最もよく用いられる、あるいは、学習の最も初期の段階で当該語の品詞として学習する品詞を当該テスト単語w(n)の品詞とみなす。その他は、第1,2,3実施形態の問題生成部12,22,32の何れかと同じである(ステップS52)。
問題生成部52は、利用者またはシステムからの問題生成要請を受け付けると、記憶部51のDBに含まれる、同じ品詞のM個の単語ω(1),…,ω(M)から語彙数推定テストに使用する複数のテスト単語w(1),…,w(N)を選択して出力する。すなわち問題生成部52は、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力する。問題生成部52は、或る品詞のテスト単語w(1),…,w(N)のみを選択して出力してもよいし、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)を選択して出力してもよい。前述のように、テスト単語w(n)に複数の品詞が想定される場合、テスト単語w(n)の品詞のうち、テスト単語w(n)の品詞として最もなじみ深い、あるいは、最もよく用いられる、あるいは、学習の最も初期の段階で当該語の品詞として学習する品詞を当該テスト単語w(n)の品詞とみなす。その他は、第1,2,3実施形態の問題生成部12,22,32の何れかと同じである(ステップS52)。
<提示部53,回答受付部54>
提示部53には、問題生成部52から出力された同じ品詞のN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のテスト単語w(1),…,w(N)を利用者100に提示する。提示部53に、或る品詞のテスト単語w(1),…,w(N)のみが入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および当該品詞のテスト単語w(1),…,w(N)を表示する。提示部53に、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)が入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のN個のテスト単語w(1),…,w(N)を提示する。品詞ごとに区分けされて、同じ品詞のN個のテスト単語w(1),…,w(N)が提示されてもよいし、利用者100によって選択された品詞のN個のテスト単語w(1),…,w(N)が提示されてもよい(ステップS53)。指示文およびテスト単語w(1),…,w(N)が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部54に入力する。回答受付部54は、入力されたテスト単語の知識に関する回答を出力する(ステップS54)。
提示部53には、問題生成部52から出力された同じ品詞のN個のテスト単語w(1),…,w(N)が入力される。提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のテスト単語w(1),…,w(N)を利用者100に提示する。提示部53に、或る品詞のテスト単語w(1),…,w(N)のみが入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および当該品詞のテスト単語w(1),…,w(N)を表示する。提示部53に、複数の品詞のそれぞれについて、同じ品詞のN個のテスト単語w(1),…,w(N)が入力される場合、提示部13は、事前に設定された表示形式に従い、指示文および同じ品詞のN個のテスト単語w(1),…,w(N)を提示する。品詞ごとに区分けされて、同じ品詞のN個のテスト単語w(1),…,w(N)が提示されてもよいし、利用者100によって選択された品詞のN個のテスト単語w(1),…,w(N)が提示されてもよい(ステップS53)。指示文およびテスト単語w(1),…,w(N)が提示された利用者100は、利用者100のテスト単語の知識に関する回答を回答受付部54に入力する。回答受付部54は、入力されたテスト単語の知識に関する回答を出力する(ステップS54)。
以下に、提示部53からの提示内容を例示する。まず提示部53は、図5に例示するような画面510を表示する。例えば、画面510には「知っている語を選んでください。」との指示文、および品詞を選択するための各品詞(名詞、動詞、形容詞、副詞)に対応するボタン511,512,513,514が表示される。例えば、ボタン511,512,513,514には、選択されたことを表す表示部511a,512a,513a,514aが設けられている。利用者100が何れかの品詞のボタン511,512,513,514をクリックまたはタップして選択すると、選択したボタンの表示部にマークが表示される。例えば、利用者100がボタン511を選択した場合(名詞を選択した場合)、表示部511aにマークが表示される。このように品詞が選択されると、例えば提示部53は、図6の画面520を表示する。画面520には、画面510の表示内容に加え、さらに「知っている英語をタップしてください。「回答」ボタンは下部にあります」「知っている」「知らない」と回答を促す内容、および選択された品詞のN個のテスト単語w(1),…,w(N)が表示される。利用者100は、例えば知っているテスト単語をクリックまたはタップして選択して回答する。ただし、これは一例であり、テスト単語w(1),…,w(N)の全てを選択できる機能(「すべて選択」「すべての選択を解除」など)が画面に追加され、利用者100がこの機能を用いてテスト単語w(1),…,w(N)の全てを選択した後、知らない単語をタップ等して選択から外してもよい。図7に例示するように、選択されたテスト単語の部位の色が変化し、当該テスト単語が選択されたことを表示する。利用者100は、表示されたN個のテスト単語w(1),…,w(N)のうち、自らが知っているすべてのテスト単語を選択したと判断した場合、回答ボタン531をクリックまたはタップする。これにより、回答受付部14は、N個のテスト単語w(1),…,w(N)の知識に関する回答を出力する。
<語彙数推定部55>
語彙数推定部55には、回答受付部54から出力された利用者100のテスト単語w(n)の知識に関する回答が入力される。語彙数推定部55は、前述のステップS151の処理を実行する。
語彙数推定部55には、回答受付部54から出力された利用者100のテスト単語w(n)の知識に関する回答が入力される。語彙数推定部55は、前述のステップS151の処理を実行する。
語彙数推定部55には、さらに問題生成部52から出力されたテスト単語w(1),…,w(N)が入力される。語彙数推定部55は、記憶部51に格納されたDBを用い、各テスト単語w(n)の潜在語彙数x(n)を得、前述のようにテスト単語w(1),…,w(N)が順位付けされた親密度順単語列Wと、潜在語彙数x(1),…,x(N)が順位付けされた潜在語彙数列Xとが対応付けられたテーブル[W,X]を得る(ステップS552)。
さらに語彙数推定部55は、前述のステップS153の処理を実行し、テスト単語w’(1),…,w’(N)の列であるテスト単語列W’と、潜在語彙数x(1),…,x(N)の列である潜在語彙数列Xと、が対応付けられたテーブル[W’,X]を得る。
語彙数推定部55は、前述のステップS154の処理を実行し、テスト単語列W’のテスト単語w’(1),…,w’(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w’(n)と潜在語彙数x(n)との組(w’(n),x(n))と、利用者100のテスト単語の知識に関する回答とを用いてモデルφを得る。
語彙数推定部55は、前述のステップS155の処理を実行し、モデルφにおいて、利用者100が単語を知っていると回答する確率に基づく値が所定値または所定値の近傍のときの語彙数に基づく値に基づく値を、利用者100の推定語彙数として出力する。出力された利用者100の推定語彙数は、例えば、図8のように表示される。図8の例では、画面540に「あなたの名詞の推定語彙数は1487です」「631語程度まで:小学校~中学校程度」「1404語程度まで:中学3年~高校1,2年程度」「2671語程度まで:高校3年~大学受験レベル」「4091語程度まで:大学受験~大学教養レベル」と表示される。
図9Aは、品詞ごとに単語を分けることなく語彙数推定を行った際のロジスティック曲線y=f(x,Ψ)のモデルφを例示したものである。図9B,図10Aおよび図10Bは、品詞ごとに語彙数推定を行った際のロジスティック曲線y=f(x,Ψ)のモデルφを例示したものである。横軸が語彙数(x)を表し、縦軸が単語を知っていると回答する確率(y)を表す。丸印は利用者100が知っていると回答したテスト単語w’(n)に対する点(x,y)=(x(n),1)、および利用者100が知らないと回答した(または、知っていると回答しない)テスト単語w’(n)に対する点(x,y)=(x(n),0)を表す。図9AではAIC=171.1であるのに対し、図9BではAIC=73.4であり、図10AではAIC=25.7であり、図10BではAIC=17.9である。これらより、品詞ごとに単語を分けることなく語彙数推定を行った場合に比べ、品詞ごとに語彙数推定を行った方がAICが小さく、条件が完全に一致しているわけではないもののよりモデルの当てはまりがよい傾向があることが分かる。
[第5実施形態の変形例]
比較的出現頻度の低い単語であっても、よく使われる単語の派生形としてとらえれば難しい語とはいえない場合がある。例えば、CEFR-J Wordlistの難易度のレベルでみても、understand(verb)のレベルはA2であるのに対し、その派生語understandable(adjective),understanding(adjective),understanding(noun)のレベルはB2である。つまり、understand(verb)よりunderstandable(adjective),understanding(adjective),understanding(noun)の方が難易度の高いレベルが付与されている。
+----------------+-----------+------+
| WORD | POS | CEFR |
+----------------+-----------+------+
| understand | verb | A2 |
| understandable | adjective | B2 |
| understanding | adjective | B2 |
| understanding | noun | B2 |
+----------------+-----------+------+
また、in-,re-,un-のような接頭辞がつく単語は、接頭語を除いた単語としては比較的知られた語であることも多い。例えば、inexperiencedは出現頻度が低いため、出現頻度で順位付けを行うと順位が低くなるが(なじみが低い単語)、experienceは出現頻度が高く比較的知られた語である。CEFR-J Wordlistの難易度のレベルでみても、inexperienced(adjective)のレベルはB2だが、experience (noun)のレベルはA2であり、experienceに対して難易度の高いレベルが付されている。そのため、派生形の単語および/または接頭辞がつく単語をDBやテスト単語の候補から除外してもよい。
比較的出現頻度の低い単語であっても、よく使われる単語の派生形としてとらえれば難しい語とはいえない場合がある。例えば、CEFR-J Wordlistの難易度のレベルでみても、understand(verb)のレベルはA2であるのに対し、その派生語understandable(adjective),understanding(adjective),understanding(noun)のレベルはB2である。つまり、understand(verb)よりunderstandable(adjective),understanding(adjective),understanding(noun)の方が難易度の高いレベルが付与されている。
+----------------+-----------+------+
| WORD | POS | CEFR |
+----------------+-----------+------+
| understand | verb | A2 |
| understandable | adjective | B2 |
| understanding | adjective | B2 |
| understanding | noun | B2 |
+----------------+-----------+------+
また、in-,re-,un-のような接頭辞がつく単語は、接頭語を除いた単語としては比較的知られた語であることも多い。例えば、inexperiencedは出現頻度が低いため、出現頻度で順位付けを行うと順位が低くなるが(なじみが低い単語)、experienceは出現頻度が高く比較的知られた語である。CEFR-J Wordlistの難易度のレベルでみても、inexperienced(adjective)のレベルはB2だが、experience (noun)のレベルはA2であり、experienceに対して難易度の高いレベルが付されている。そのため、派生形の単語および/または接頭辞がつく単語をDBやテスト単語の候補から除外してもよい。
日本語でカタカナ語(日本語文字の一種)となっている英語の単語(以下、「カタカナ語となっている単語」という)は、日本人によく知られている可能性が高い。例えば、button(ボタン)やrabbit(ラビット)などは日本人によく知られている単語である。このような単語では、日本人にとってのなじみ深さは、コーパス中における各単語の出現頻度や英語を母国語とする者の親密度を指標としたなじみ深さからは乖離したものとなる。そのため、カタカナ語となっている単語をテスト単語とすると、実際の語彙数より高く推定されてしまう可能性がある。そのため、カタカナ語となっている単語を、テスト単語として利用しないことが望ましい。カタカナ語となっている単語であるか否かは日英辞書から推測できる。例えば、日英辞書で単語の日本語訳がカタカナ語であるか否かを判定することで、カタカナ語となっている単語であるか否かを推測できる。カタカナ語となっている単語の全てをテスト単語の候補から除外するのではなく、カタカナ語となっている単語のうち、当該カタカナ語の日本人にとっての親密度が閾値を越える場合(当該親密度が高い場合)にのみ、当該カタカナ語となっている単語をテスト単語の候補から除外してもよい。例えば、impedance(インピーダンス)はカタカナ語となっている単語であるが、「インピーダンス」の日本人にとっての親密度は2.5と低く、誰でも知っている語でないと考えられるため、impedanceをテスト単語として選択してもよい。一方、「ラビット」や「ボタン」の日本人にとっての親密度は6以上であり、一般によく知られた語であると推測できるため、buttonやrabbitはテスト単語として選択されない。
ローマ数字(例えば、xiv)や2~3文字以下の単語がDBやテスト単語の候補から除外されてもよい。特に、「所定の順位付け基準」がコーパス中における各単語の出現頻度順に各単語を順位付けする基準である場合、a.….b.….c.…といった記号や、英文中に出てくる英語以外の言語(フランス語)の語(例えば、la, de)などの出現頻度がカウントされてしまい、単語のなじみ深さを正しく評価できない場合があるからである。
語彙数推定部55が、品詞ごとに推定語彙数を得た後、それらの推定語彙数を合計して得られるトータルの推定語彙数を出力してもよい。あるいは、語彙数推定部55が、或る品詞について推定語彙数を得た後、その品詞について推定語彙数から他の品詞についての推定語彙数を得て出力してもよい。
本実施形態では、語彙数推定部55が、前述のステップS153の処理を実行してテスト単語を並べ替えてテーブル[W’,X]を得、テーブル[W’,X]から抽出した組(w’(n),x(n))と、利用者100のテスト単語の知識に関する回答とを用いてモデルφを得た。しかしながら、テスト単語の並べ替えを行うことなく、モデルφを得てもよい。すなわち、語彙数推定部55が、テーブル[W,X]のテスト単語列Wのテスト単語w(1),…,w(N)と潜在語彙数列Xの潜在語彙数x(1),…,x(N)とから抽出した各順位n=1,…,Nのテスト単語w(n)と潜在語彙数x(n)との組(w(n),x(n))と、利用者100のテスト単語の知識に関する回答とを用いてモデルφを得てもよい。この処理の具体例はw’(n)がw(n)に置換される以外、第1実施形態で説明した通りである。なお、この場合には、ステップS151,S153の処理は省略される。
本実施形態では、日本人である利用者100の英語の単語の語彙数を推定する例を示した。しかしながら、本発明はこれに限定されず、その他の国籍の利用者100の非母国語の単語の語彙数を推定してもよい。すなわち、本実施形態の説明における、「日本人」を「任意の国民」に置換し、「日本語」を「母国語」に置換し、「英語」を「非母国語」に置換した形態で実施されてもよい。あるいは、本実施形態において、日本人である利用者100の日本語の単語の語彙数を推定してもよい。すなわち、「英語」を「日本語」に置換した形態で実施されてもよい。さらに、本実施形態において、その他の国籍の利用者100の母国語の単語の語彙数を推定してもよい。すなわち、本実施形態の説明における、「日本人」を「任意の国民」に置換し、「日本語」および「英語」を「母国語」に置換した形態で実施されてもよい。
前述のように、第5実施形態を第2実施形態その変形例または第3実施形態に適用してもよい。すなわち、第5実施形態において、第2実施形態その変形例で説明したように、特定分野の文章に特徴的な単語以外からテスト単語を選択してもよい。また、第5実施形態において、第3実施形態で説明したように、表記の妥当性の高さが所定の基準を満たす単語をテスト単語として選択してもよい。
第5実施形態では、複数の単語と当該単語それぞれに対して得られた潜在語彙数との組を対応付けたDBとが記憶部51に格納されていたが、これに代えて、前述のように各単語の潜在語彙数を得るための単語の出現頻度、品詞、外国語親密度の少なくとも何れを格納したDBが記憶部51に格納されていてもよい。この場合、語彙数推定部55は当該DBを用い、各テスト単語w(n)の潜在語彙数x(n)を得、前述のようにテスト単語w(1),…,w(N)が順位付けされた親密度順単語列Wと、潜在語彙数x(1),…,x(N)が順位付けされた潜在語彙数列Xとが対応付けられたテーブル[W,X]を得る(ステップS552)。
[第6実施形態]
第6実施形態は、第1~5実施形態および第1実施形態の変形例に対する変形例であり、複数の利用者100のテスト単語の知識に関する回答から単語ごとに、各学年または各年齢での語彙の獲得割合を示す語彙獲得曲線を得る点でこれらと相違する。
第6実施形態は、第1~5実施形態および第1実施形態の変形例に対する変形例であり、複数の利用者100のテスト単語の知識に関する回答から単語ごとに、各学年または各年齢での語彙の獲得割合を示す語彙獲得曲線を得る点でこれらと相違する。
第1~5実施形態および第1実施形態の変形例では、各利用者の語彙数推定を行った。第6実施形態では、複数の利用者100のテスト単語の知識に関する回答、および利用者の学年または年齢から、各世代での語彙の獲得割合を示す語彙獲得曲線を得る。以下、詳細に説明を行う。
図1に例示するように、本実施形態の語彙数推定装置6は、第1~5実施形態または第1実施形態の変形例の何れかの語彙数推定装置5に語彙獲得曲線算出部66、および語彙獲得曲線DBを格納する記憶部67を追加したものである。以下では、語彙獲得曲線算出部66および記憶部67のみについて説明を行う。
<語彙獲得曲線算出部66>
入力:複数の利用者のテスト単語の知識に関する回答(複数学年分あるいは複数年齢分)
出力:単語ごとの語彙獲得曲線
語彙獲得曲線算出部66には、回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答が入力される。これらの回答は、複数の学年または年齢g(1),…,g(J)の利用者100に対し、前述のように提示部13または54から同一のN個のテスト単語w(1),…,w(N)を提示して得られたものである。ただし、Jは2以上の整数であり、j=1,…,Jとする。また本実施形態では、複数の利用者100のテスト単語の知識に関する回答とともに、当該利用者100の学年または年齢の情報も語彙獲得曲線算出部66に入力されるものとする。語彙獲得曲線算出部66は、当該回答と当該回答を行った利用者100の学年または年齢の情報とを用い、各テスト単語w(n)(ただし、n=1,…,N)について、各学年または年齢g(j)での各テスト単語w(n)の獲得割合r(j,n)を求める(ステップS661)。
入力:複数の利用者のテスト単語の知識に関する回答(複数学年分あるいは複数年齢分)
出力:単語ごとの語彙獲得曲線
語彙獲得曲線算出部66には、回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答が入力される。これらの回答は、複数の学年または年齢g(1),…,g(J)の利用者100に対し、前述のように提示部13または54から同一のN個のテスト単語w(1),…,w(N)を提示して得られたものである。ただし、Jは2以上の整数であり、j=1,…,Jとする。また本実施形態では、複数の利用者100のテスト単語の知識に関する回答とともに、当該利用者100の学年または年齢の情報も語彙獲得曲線算出部66に入力されるものとする。語彙獲得曲線算出部66は、当該回答と当該回答を行った利用者100の学年または年齢の情報とを用い、各テスト単語w(n)(ただし、n=1,…,N)について、各学年または年齢g(j)での各テスト単語w(n)の獲得割合r(j,n)を求める(ステップS661)。
さらに、語彙獲得曲線算出部66は、各学年または年齢g(j)での各テスト単語w(n)の獲得割合r(j,n)を用い、各テスト単語w(n)について、各学年または年齢gに対する当該テスト単語w(n)の獲得割合r(n)を求める近似式である語彙獲得曲線r(n)=H(w(n),Θ’(n))を求め、当該語彙獲得曲線r(n)=H(w(n),Θ’(n))を特定する情報を記憶部67に出力する。語彙獲得曲線r(n)=H(w(n),Θ’(n))は、例えば、ロジスティック回帰で得られるロジスティック曲線である。語彙獲得曲線r(n)=H(w(n),Θ’(n))を特定する情報は、テスト単語w(n)とモデルパラメータΘ’(n)との組であってもよいし、語彙獲得曲線r(n)=H(w(n),Θ’(n))の波形データであってもよいし、その他の語彙獲得曲線r(n)を特定する情報であってもよいし、これらを複合したものでもよい。記憶部67は、テスト単語w(1),…,w(N)に対して得られたN個の語彙獲得曲線r(1),…,r(N)を特定する情報を語彙獲得曲線DBとして格納する。図11A,図11B,図12A,図12Bに、テスト単語「渋滞」「総称」「成就」「奏功」の語彙獲得曲線を例示する。これらの図の横軸は学年を表し、縦軸は獲得割合を示す。なお、これらの図の横軸では、小学1年から6年を1~6学年とし、中学1年から3年を7~9学年とし、高校1年から3年を10~12学年としている。また丸印はステップS661で得られた各学年または年齢g(j)での各テスト単語w(n)の獲得割合r(j,n)を表す。これらの例では、50%の者が「総称」を獲得する学年が7.8年と推定され、50%の者が「成就」を獲得する学年が9.2年と推定され、50%の者が「奏功」を獲得する学年が29.5年と推定される(ステップS662)。語彙を獲得する学年が小数で表される値となった場合、整数値の学年として捉え、小数値は年間を10分割した場合の時期と捉えればよい。例えば、獲得する学年が7.8年であれば、中学1年の後半に獲得すると推定される。また、語彙を獲得する学年が12を超える値であってもよい。この場合、例えば高校卒業年の4月から始まる経過年数χを12に加えた値χ+12を学年と定義する。例えば、29学年は35歳となる。この場合も上述のように学年が小数で表されてもよい。
[第6実施形態の変形例]
第6実施形態では、第1~5実施形態または第1実施形態の変形例での語彙数推定の過程で回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答、および当該利用者100の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66が語彙数推定を行った。しかしながら、上述の語彙数推定の過程以外で得られた、複数の学年または年齢の利用者による、同一の単語の知識に関する回答(例えば、当該単語を知っているか否かの回答)および当該利用者の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66がこれらを用いて語彙獲得曲線を得てもよい。
例えば、同一の単語の知識に関する回答は、語彙力推定以外の目的で行われた当該単語を知っているか否かの調査で得られたものでもよいし、「漢字テスト」や「漢字の読みテスト」の結果であってもよい。すなわち、同じ単語について複数の学年(年齢)で調査して得られた当該単語の知識に関する回答であれば、どのようなものが用いられてもよい。
第6実施形態では、第1~5実施形態または第1実施形態の変形例での語彙数推定の過程で回答受付部14または54から出力された複数の利用者100のテスト単語の知識に関する回答、および当該利用者100の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66が語彙数推定を行った。しかしながら、上述の語彙数推定の過程以外で得られた、複数の学年または年齢の利用者による、同一の単語の知識に関する回答(例えば、当該単語を知っているか否かの回答)および当該利用者の学年または年齢の情報が語彙獲得曲線算出部66に入力され、語彙獲得曲線算出部66がこれらを用いて語彙獲得曲線を得てもよい。
例えば、同一の単語の知識に関する回答は、語彙力推定以外の目的で行われた当該単語を知っているか否かの調査で得られたものでもよいし、「漢字テスト」や「漢字の読みテスト」の結果であってもよい。すなわち、同じ単語について複数の学年(年齢)で調査して得られた当該単語の知識に関する回答であれば、どのようなものが用いられてもよい。
図1に例示するように、語彙数推定装置6がさらに獲得学年推定部68を有していてもよい。
<獲得学年推定部68>
入力:各学年または年齢での特定の単語(語彙)の獲得割合が要求される場合には当該単語(ケース1)、特定の学年または年齢の獲得割合が要求される場合には当該単語および当該学年または年齢(ケース2)
出力:ケース1の場合には入力された単語の語彙獲得曲線、ケース2の場合には入力された学年または年齢での入力された単語の獲得割合
<獲得学年推定部68>
入力:各学年または年齢での特定の単語(語彙)の獲得割合が要求される場合には当該単語(ケース1)、特定の学年または年齢の獲得割合が要求される場合には当該単語および当該学年または年齢(ケース2)
出力:ケース1の場合には入力された単語の語彙獲得曲線、ケース2の場合には入力された学年または年齢での入力された単語の獲得割合
ケース1の場合、獲得学年推定部68には、対象となる単語が入力される。獲得学年推定部68は入力された単語に一致する単語w(n)の語彙獲得曲線r(n)=H(w(n),Θ’(n))を特定する情報を記憶部67の語彙獲得曲線DBから抽出し、当該語彙獲得曲線r(n)=H(w(n),Θ’(n))を出力する。
ケース2の場合、獲得学年推定部68には、対象となる単語、および対象の学年または年齢が入力される。獲得学年推定部68は入力された単語に一致する単語w(n)の語彙獲得曲線r(n)=H(w(n),Θ’(n))を特定する情報を記憶部67の語彙獲得曲線DBから抽出する。さらに獲得学年推定部68は語彙獲得曲線r(n)=H(w(n),Θ’(n))における、対象の学年または年齢での獲得割合を得て出力する。
なお、対象の学年または年齢は、ステップS661,S662で語彙獲得曲線を得るために語彙獲得曲線算出部66に入力された回答を行った利用者の学年または年齢以外の学年または年齢での獲得割合であってもよい。例えば、図11A,図11B,図12A,図12Bの語彙獲得曲線を得るために、学年g(j)=9(中学3年生)に対応する獲得割合r(j,n)は用いられていないが、獲得学年推定部68は学年9での獲得割合を得ることもできる。
さらにケース1,2で獲得学年推定部68がさらに、50%の者が対象の単語を獲得した学年または年齢を得て出力してもよい。
[ハードウェア構成]
各実施形態における語彙数推定装置1-6は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
各実施形態における語彙数推定装置1-6は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
図13は、各実施形態における語彙数推定装置1-6のハードウェア構成を例示したブロック図である。図13に例示するように、この例の語彙数推定装置1-6は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、語彙数推定装置1-6の機能構成が実現される。
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1~6 語彙数推定装
12,22,32,52 問題生成部置
13,53 提示部
14,54 回答受付部
15,45,55 語彙数推定部
12,22,32,52 問題生成部置
13,53 提示部
14,54 回答受付部
15,45,55 語彙数推定部
Claims (9)
- 複数の単語から複数のテスト単語を選択する問題生成部と、
前記テスト単語を利用者に提示する提示部と、
前記利用者の前記テスト単語の知識に関する回答を受け付ける回答受付部と、
前記テスト単語と、前記テスト単語を知っている者の推定語彙数と、前記テスト単語の知識に関する回答とを用い、前記利用者が前記単語を知っていると回答する確率に基づく値と、前記利用者が前記単語を知っていると回答したときの前記利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部と、を有し、
前記問題生成部は、前記複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語を前記テスト単語として選択する、語彙数推定装置。 - 請求項1の語彙数推定装置であって、
前記表記の妥当性の高さが所定の基準を満たす単語は、前記表記の妥当性の高さを表す値が第1閾値以上または前記第1閾値を超える単語である、語彙数推定装置。 - 請求項1または2の語彙数推定装置であって、
前記表記の妥当性の高さが所定の基準を満たす単語は、前記複数の単語のうち、複数の表記の中で前記表記の妥当性の高さを表す値の順位が所定順位よりも高い単語である、語彙数推定装置。 - 請求項1から3の何れかの語彙数推定装置であって、
前記複数の単語は、前記単語に対するなじみ深さの個人差を表す指標が第2閾値以下または前記第2閾値未満の単語である、語彙数推定装置。 - 請求項1から4の何れかの語彙数推定装置であって、
前記語彙数推定部は、
順位付けされた複数の単語から選択された複数のテスト単語を要素とするテスト単語列と、順位付けされた複数の潜在語彙数を要素とする潜在語彙数列と、から抽出した各順位の前記テスト単語と前記潜在語彙数との組と、前記テスト単語の知識に関する回答とを用いて前記モデルを得、
前記複数のテスト単語は、特定の被験者集合に属する被験者の前記テスト単語に対する被験者内親密度に基づく順序で順位付けされており、
前記複数の潜在語彙数は、前記複数のテスト単語に対応し、前記単語に対して予め定められた前記親密度に基づいて推定され、前記親密度に基づく順序で順位付けされている、語彙数推定装置。 - 請求項5の語彙推定装置であって、
前記語彙数推定部は、前記複数のテスト単語が前記親密度に基づく順序で順位付けされた親密度順単語列に含まれる前記テスト単語を、前記被験者内親密度に基づく順序で並べ替えて前記テスト単語列を得る、語彙数推定装置。 - 請求項1から6の何れかの語彙数推定装置であって、
前記語彙数推定部は、前記モデルにおいて、前記利用者が前記単語を知っていると回答する確率に基づく値が所定値または所定値の近傍のときの前記語彙数に基づく値に基づく値を、前記利用者の推定語彙数として出力する、語彙数推定装置。 - 複数の単語から複数のテスト単語を選択する問題生成ステップと、
前記テスト単語を利用者に提示する提示ステップと、
前記利用者の前記テスト単語の知識に関する回答を受け付ける回答受付ステップと、
前記テスト単語と、前記テスト単語を知っている者の推定語彙数と、前記テスト単語の知識に関する回答とを用い、前記利用者が前記単語を知っていると回答する確率に基づく値と、前記利用者が前記単語を知っていると回答したときの前記利用者の語彙数に基づく値と、の関係を表すモデルを得る語彙数推定部ステップ、を有し、
前記問題生成ステップは、前記複数の単語のうち、表記の妥当性の高さが所定の基準を満たす単語を前記テスト単語として選択する、語彙数推定方法。 - 請求項1から7の何れかの語彙数推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022531256A JP7396488B2 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
PCT/JP2020/024348 WO2021260763A1 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
US18/011,824 US20230244867A1 (en) | 2020-06-22 | 2020-06-22 | Vocabulary size estimation apparatus, vocabulary size estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/024348 WO2021260763A1 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021260763A1 true WO2021260763A1 (ja) | 2021-12-30 |
Family
ID=79282211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/024348 WO2021260763A1 (ja) | 2020-06-22 | 2020-06-22 | 語彙数推定装置、語彙数推定方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230244867A1 (ja) |
JP (1) | JP7396488B2 (ja) |
WO (1) | WO2021260763A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7396485B2 (ja) * | 2020-06-22 | 2023-12-12 | 日本電信電話株式会社 | 語彙数推定装置、語彙数推定方法、およびプログラム |
-
2020
- 2020-06-22 US US18/011,824 patent/US20230244867A1/en active Pending
- 2020-06-22 JP JP2022531256A patent/JP7396488B2/ja active Active
- 2020-06-22 WO PCT/JP2020/024348 patent/WO2021260763A1/ja active Application Filing
Non-Patent Citations (2)
Title |
---|
AMANO, SHIGEAKI ET AL.: "Estimation of Mental Lexicon Size with Word Familiarity Database", PROCEEDINGS OF THE 5TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, vol. 5, 30 November 1998 (1998-11-30), pages 2119 - 2122, XP007000007, Retrieved from the Internet <URL:https://www.isca-speech.org/archive/archive_papers/icslp_1998/i98_0015.pdf> * |
KONDO TADAHISA, SHIGEAKI AMANO: "Hundred Arhats -Kanji test for controlling the difference in language ability of experimental participants", JCSS- TR -69. TECHNICAL REPORT, JAPANESE COGNITIVE SCIENCE SOCIETY[ONLINE], 1 April 2013 (2013-04-01), pages 0 - 18, XP055894147, Retrieved from the Internet <URL:https://www.jcss.gr.jp/contribution/technicalreport/TR69.pdf> [retrieved on 20220222] * |
Also Published As
Publication number | Publication date |
---|---|
US20230244867A1 (en) | 2023-08-03 |
JP7396488B2 (ja) | 2023-12-12 |
JPWO2021260763A1 (ja) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021260760A1 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
Bailin et al. | Readability: Text and context | |
US9384678B2 (en) | System and method for generating questions and multiple choice answers to adaptively aid in word comprehension | |
Sabino | Languaging without languages: Beyond metro-, multi-, poly-, pluri-and translanguaging | |
US20130149681A1 (en) | System and method for automatically generating document specific vocabulary questions | |
Thapa et al. | Ethnicity, language-in-education policy and linguistic discrimination: Perspectives of Nepali students in Hong Kong | |
Higginbotham | Individual learner profiles from word association tests: The effect of word frequency | |
Zarza | Representations of feminist theory and gender issues in introductory-level sociology textbooks | |
Abdullah et al. | Listening to the ethnic voice in ESL learning | |
KR102365341B1 (ko) | 인공지능 기반의 글쓰기 첨삭 시스템 및 그 방법 | |
TW201826233A (zh) | 學習支援系統、方法及程式 | |
Goris et al. | Determinants of EFL learning success in content and language integrated learning | |
Lee | Gender portrayal in a popular Hong Kong reading programme for children: Are there equalities? | |
WO2021260763A1 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
WO2021260762A1 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
WO2021260761A1 (ja) | 語彙数推定装置、語彙数推定方法、およびプログラム | |
KR102365345B1 (ko) | 인공지능과 빅데이터를 이용한 글쓰기 교정 시스템 및 그 방법 | |
Williams | How to read and understand educational research | |
JP2006126319A (ja) | テスト問題配信システム | |
KR20050122571A (ko) | 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템 | |
Nugraha et al. | Literation of arabic through modern ngalogat: Efforts to strengthen islamic values in people life | |
JP5877775B2 (ja) | コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 | |
Pietersen | Issues and trends in Frisian bilingualism | |
Otlogetswe | Text Variability Measures in Corpus Design for Setswana Lexicography | |
Vahdatinejad et al. | Linguistic sexism in the Iranian EFL junior high school textbooks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20942072 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022531256 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20942072 Country of ref document: EP Kind code of ref document: A1 |