WO2020103783A1 - 地址文本相似度确定方法、地址搜索方法、装置和设备 - Google Patents

地址文本相似度确定方法、地址搜索方法、装置和设备

Info

Publication number
WO2020103783A1
WO2020103783A1 PCT/CN2019/119149 CN2019119149W WO2020103783A1 WO 2020103783 A1 WO2020103783 A1 WO 2020103783A1 CN 2019119149 W CN2019119149 W CN 2019119149W WO 2020103783 A1 WO2020103783 A1 WO 2020103783A1
Authority
WO
WIPO (PCT)
Prior art keywords
address
text
similarity
texts
similarity calculation
Prior art date
Application number
PCT/CN2019/119149
Other languages
English (en)
French (fr)
Inventor
刘楚
谢朋峻
郑华飞
李林琳
司罗
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2020103783A1 publication Critical patent/WO2020103783A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the invention relates to the field of artificial intelligence, and in particular to a method for determining the similarity of address text, a method, an apparatus for address search, and a computing device.
  • a standard address database is usually maintained internally.
  • address data there is often a description that is not unified with the standard address library.
  • the spoken address at the time of 110 alarm is far from the standardized address within the public security system.
  • an effective and fast method is needed to be able to map non-standard address text to the corresponding or similar addresses in the standard address library. How to determine the similarity between the two address texts is very important.
  • the present invention is proposed to provide an address text similarity determination method and an address search method that overcome the above problems or at least partially solve the above problems.
  • the address text includes a plurality of address elements arranged from high to low.
  • the method includes:
  • the address text similarity calculation model is obtained by training based on a training data set that includes multiple pieces of training data, and each piece of training data includes at least the first, second, and third address texts, where the first n of the first and second address texts
  • the address elements of each level are the same, forming a positive sample pair.
  • the address elements of the first (n-1) levels of the first and third address texts are the same, and the address elements of the nth level are different, forming a negative sample pair.
  • the address text similarity calculation model includes a word embedding layer, a text encoding layer, and a similarity calculation layer, and a step of training the address text similarity calculation model Including: input the first, second and third address texts of each training data to the word embedding layer to get the corresponding first, second and third word vector sets; input the first, second and third word vector sets to the text encoding Layer to obtain the corresponding first, second, and third text vectors; use the similarity calculation layer to calculate the first similarity of the first and second text vectors and the second similarity of the first and third text vectors; according to the first, second Similarity adjusts network parameters of the address text similarity calculation model.
  • the network parameters include: parameters of the word embedding layer and / or parameters of the text encoding layer.
  • each word vector set in the first, second, and third word vector sets includes multiple word vectors, and each word vector is related to an address element in the address text correspond.
  • the word embedding layer uses the Glove model or the Word2Vec model.
  • the first similarity and the second similarity include at least one of Euclidean distance, cosine similarity, or Jaccard coefficient.
  • the adjusting the network parameters of the address text similarity calculation model according to the first and second similarities includes: calculating according to the first and second similarities Loss function value; use the back-propagation algorithm to adjust the network parameters of the address text similarity calculation model until the loss function value is lower than the preset value, or the number of training times reaches a predetermined number of times.
  • the text encoding layer includes at least one of an RNN model, a CNN model, or a DBN model.
  • an address search method including:
  • each piece of training data includes at least the first, second, and third address texts.
  • the first n levels of address texts in the first and second address texts have the same address elements, forming a positive sample pair.
  • n-1) The address elements of the same level and the address elements of the nth level are different, forming a negative sample pair;
  • the candidate address text with the largest similarity is determined as the target address text corresponding to the address text to be queried.
  • an address search device including:
  • the query module is adapted to obtain one or more candidate address texts corresponding to the address text to be queried;
  • the first similarity calculation module is adapted to input the address text to be queried and the candidate address text into a preset address text similarity calculation model to obtain the similarity between the two, wherein the address text similarity calculation model includes
  • the training data set of multiple pieces of training data is obtained by training, and each piece of training data includes at least the first, second, and third address texts.
  • the first n levels of address elements of the first and second address texts are the same, forming a positive sample pair.
  • the address elements of the first (n-1) levels of the first and third address texts are the same, and the address elements of the nth level are different, forming a negative sample pair;
  • the output module is adapted to determine the candidate address text with the largest similarity as the target address text corresponding to the address text to be queried.
  • a training device for an address text similarity calculation model where the address text includes a plurality of address elements arranged from high to low, and the address text similarity calculation model includes word embedding Layer, text encoding layer and similarity calculation layer, the device includes:
  • the acquisition module is adapted to acquire a training data set, the training data set includes multiple pieces of training data, and each piece of training data includes at least the first, second, and third address texts, wherein the first n levels of the first and second address texts
  • the address elements are the same, forming a positive sample pair, the first (n-1) level address elements of the first and third address texts are the same, and the nth level address elements are different, forming a negative sample pair;
  • the word vector acquisition module is adapted to input the first, second, and third address texts of each piece of training data into the word embedding layer to obtain the corresponding first, second, and third word vector sets;
  • the text vector acquisition module is adapted to input the first, second, and third word vector sets to the text encoding layer to obtain the corresponding first, second, and third text vectors;
  • the second similarity calculation module is adapted to use the similarity calculation layer to calculate the first similarity of the first and second text vectors and the second similarity of the first and third text vectors;
  • the parameter adjustment module is adapted to adjust the network parameters of the address text similarity calculation model according to the first and second similarities.
  • a computing device including:
  • One or more processors are One or more processors;
  • One or more programs wherein the one or more programs are stored in the memory and are configured to be executed by the one or more processors, the one or more programs include for performing the method according to the above Instructions for either method.
  • address text naturally contains hierarchical relationships
  • address elements of different levels play different roles in the calculation of address similarity.
  • the embodiment of the present invention uses the hierarchical relationship in the address text to automatically learn the weights of address elements of different levels, avoiding the subjectivity of manually specifying the weights, and at the same time has the ability to adapt to the target data source, which can accurately calculate the two The similarity of the address text.
  • FIG. 1 shows a schematic diagram of an address search system 100 according to an embodiment of the present invention
  • FIG. 2 shows a schematic diagram of a computing device 200 according to an embodiment of the invention
  • FIG. 3 shows a flowchart of a training method 300 of an address text similarity calculation model according to an embodiment of the present invention
  • FIG. 4 shows a schematic diagram of an address text similarity calculation model 400 according to an embodiment of the present invention
  • FIG. 5 shows a flowchart of an address search method 500 according to an embodiment of the present invention
  • FIG. 6 shows a schematic diagram of a training device 600 for an address text similarity calculation model according to an embodiment of the present invention
  • FIG. 7 shows a schematic diagram of an address search apparatus 700 according to an embodiment of the present invention.
  • Address text such as "Alibaba, No.969 Wenyi West Road, Hangzhou”, “Jinjiang College, Sichuan University, No.1 Jinjiang Avenue, Pengxi Town, Pengshan Town, Meishan City, Sichuan province” and other texts containing address information.
  • the address text includes multiple address elements arranged from high to low.
  • Address elements Elements of various granularities that make up the address text, such as "Hangzhou Wenyi West Road 969 Facebook", “Hangzhou” means city, “Wenyi West Road” means road, “969” means road number, Facebook Point of interest (POI).
  • Address level The area corresponding to the address element in the address has a relationship of size inclusion, that is, the ground level element has a corresponding address level, for example: province> city> district> street / community> road> building.
  • Address similarity the degree of similarity between two pieces of address text. The value ranges from 0 to 1. The greater the value, the greater the probability that the two addresses are at the same location. When the value is 1, the two pieces of text indicate the same address , When the value is 0, the two addresses are irrelevant.
  • Partial order relationship the area in the address has a hierarchical relationship of size, for example: province> city> district> street / community> road> building.
  • address elements of different levels play different roles in calculating the address similarity.
  • the embodiment of the present invention uses the hierarchical relationship in the address text to automatically generate the weights of address elements of different levels, and the weight is implicitly reflected in the network parameters of the address text similarity calculation model, so that the similarity of the two address texts can be accurately calculated degree.
  • FIG. 1 shows a schematic diagram of an address search system 100 according to an embodiment of the present invention.
  • the address search system 100 includes a user terminal 110 and a computing device 200.
  • the user terminal 110 is a terminal device used by a user, which may specifically be a personal computer such as a desktop computer or a notebook computer, or may be a mobile phone, a tablet computer, a multimedia device, a smart wearable device, etc., but is not limited thereto.
  • the computing device 200 is used to provide services to the user terminal 110, and it can be implemented as a server, such as an application server, a web server, etc .; it can also be implemented as a desktop computer, notebook computer, processor chip, mobile phone, tablet computer, etc., but is not limited thereto .
  • the computing device 200 may be used to provide an address search service to the user.
  • the computing device 200 may serve as a server for electronic map applications.
  • the computing device 200 may be any The device for users to provide address search service is not limited to the server of the electronic map application.
  • the address search system 100 also includes a data storage device 120.
  • the data storage device 120 may be a relational database such as MySQL, ACCESS, etc., or a non-relational database such as NoSQL, etc .; it may be a local database residing in the computing device 200, or may be set as a distributed database such as HBase etc. At various geographic locations, in short, the data storage device 120 is used to store data. The present invention does not limit the specific deployment and configuration of the data storage device 120.
  • the computing device 200 may be connected to the data storage device 120 and acquire the data stored in the data storage device 120.
  • the computing device 200 can directly read the data in the data storage device 120 (when the data storage device 120 is a local database of the computing device 200), or can access the Internet through a wired or wireless way and obtain it through a data interface Data in the data storage device 120.
  • a standard address library is stored in the data storage device 120, and the address text in the standard address library is a standard address text (complete and accurate address text).
  • a user inputs an address text to be queried through the user terminal 110. Generally, the user's input is a torn and inaccurate address text.
  • the user terminal 110 sends the query query to the computing device 200, and the address search device in the computing device 200 will recall a batch of candidate address texts after searching the standard address library, usually ranging from several to several thousand.
  • the address search device then calculates the correlation between these candidate address texts and the query query, and the address similarity is an important reference information for the correlation degree. After calculating the address similarity between the query query and all candidate address texts, respectively , Determine the candidate address text with the largest similarity as the target address text corresponding to the address text to be queried, and return the target address text to the user.
  • the address search device may use the address text similarity calculation model to calculate the similarity between the address text to be queried and the candidate address text.
  • the computing device 200 may also include a training device for the address text similarity calculation model.
  • the data storage device 120 also stores a training address library.
  • the training address library may be the same as or different from the above standard address library.
  • the training address library includes multiple Address text, the training device uses the address text in the training address library to train the address text similarity calculation model.
  • FIG. 2 shows a structural diagram of a computing device 200 according to an embodiment of the present invention.
  • the computing device 200 in a basic configuration 202, the computing device 200 typically includes system memory 206 and one or more processors 204.
  • the memory bus 208 may be used for communication between the processor 204 and the system memory 206.
  • the processor 204 may be any type of processing, including but not limited to: a microprocessor ( ⁇ P), a microcontroller ( ⁇ C), a digital information processor (DSP), or any combination thereof.
  • the processor 204 may include one or more levels of cache, such as a level one cache 210 and a level two cache 212, a processor core 214, and a register 216.
  • the example processor core 214 may include an arithmetic logic unit (ALU), a floating point unit (FPU), a digital signal processing core (DSP core), or any combination thereof.
  • the example memory controller 218 may be used with the processor 204, or in some implementations, the memory controller 218 may be an internal part of the processor 204.
  • the system memory 206 may be any type of memory, including but not limited to: volatile memory (such as RAM), non-volatile memory (such as ROM, flash memory, etc.), or any combination thereof.
  • the system memory 106 may include an operating system 220, one or more applications 222, and program data 224.
  • the application 222 is actually a plurality of program instructions, which are used to instruct the processor 204 to perform corresponding operations. In some embodiments, the application 222 may be arranged to cause the processor 204 to operate with the program data 224 on the operating system.
  • the computing device 200 may also include an interface bus 240 that facilitates communication from various interface devices (eg, output device 242, peripheral interface 244, and communication device 246) to the basic configuration 202 via the bus / interface controller 230.
  • the example output device 242 includes a graphics processing unit 248 and an audio processing unit 250. They may be configured to facilitate communication with various external devices such as displays or speakers via one or more A / V ports 252.
  • the example peripheral interface 244 may include a serial interface controller 254 and a parallel interface controller 256, which may be configured to facilitate via one or more I / O ports 258 and such as input devices (eg, keyboard, mouse, pen) , Voice input devices, touch input devices) or other peripheral devices (such as printers, scanners, etc.) to communicate.
  • the example communication device 246 may include a network controller 260, which may be arranged to facilitate communication with one or more other computing devices 262 via a network communication link via one or more communication ports 264.
  • the network communication link may be an example of a communication medium.
  • Communication media can generally be embodied as computer readable instructions, data structures, program modules in a modulated data signal such as a carrier wave or other transmission mechanism, and can include any information delivery media.
  • a "modulated data signal" can be a signal in which one or more of its data set or its changes can be made in a way that encodes information in the signal.
  • the communication medium may include a wired medium such as a wired network or a dedicated line network, and various wireless media such as sound, radio frequency (RF), microwave, infrared (IR), or other wireless media.
  • RF radio frequency
  • IR infrared
  • the term computer readable media as used herein may include both storage media and communication media.
  • the application 222 includes a training device 600 and an address search device 700 of an address text similarity calculation model.
  • the device 600 includes multiple program instructions, and these program instructions may instruct the processor 104 to execute the training method 300 of the address text similarity calculation model.
  • the apparatus 700 includes multiple program instructions, and these program instructions may instruct the processor 104 to perform the address search method 600.
  • FIG. 3 shows a flowchart of a training method 300 of an address text similarity calculation model according to an embodiment of the present invention.
  • the method 300 is suitable for execution in a computing device (eg, the aforementioned computing device 200).
  • the method 300 starts at step S310.
  • a training data set is obtained.
  • the training data set includes multiple pieces of training data, and each piece of training data includes three address texts, which are a first address text, a second address text, and a third address text, respectively.
  • Each address text includes multiple address elements arranged from high to low.
  • the first n level address elements of the first address text and the second address text are the same; the first (n- 1) The address elements of the same level are the same, and the address elements of the nth level are different.
  • the value range of n is (1, N)
  • N is the number of address levels included in the address text, for example, the address text includes a total of 5 address levels, namely: province, city, district, road, road number , The value of N is 5.
  • n can also adopt other value ranges according to specific application scenarios.
  • each training data is a triple consisting of three address texts ⁇ target_addr, pos_addr, neg_addr ⁇ , target_addr corresponds to the above first address text, pos_addr corresponds to the above second address text, and neg_addr corresponds to the above Third address text.
  • ⁇ target_addr, pos_addr ⁇ constitutes a pair of positive sample pairs
  • ⁇ target_addr, neg_addr ⁇ constitutes a pair of negative sample pairs.
  • the training data set is obtained as follows:
  • the training address library or standard address library
  • the above-mentioned analysis can be completed by combining the word segmentation model and the named entity model.
  • the embodiment of the present invention does not limit the specific word segmentation model and the named entity model, and those skilled in the art can make reasonable choices as needed.
  • address text formatted as address elements is aggregated (deduplicated and sorted) according to different levels of address elements to form the following table:
  • the output format is: ⁇ target_addr, pos_addr, neg_addr ⁇ .
  • ⁇ target_addr, pos_addr ⁇ constitutes a pair of positive sample pairs
  • ⁇ target_addr, neg_addr ⁇ constitutes a pair of negative sample pairs.
  • a pair of positive sample pairs can correspond to multiple pairs of negative sample pairs, that is, one target_addr corresponds to one pos_addr, and the target_addr can correspond to multiple neg_addr.
  • step S320 After obtaining the training data set, the method 300 proceeds to step S320.
  • step S320 Before describing the processing procedure of step S320, the structure of the address text similarity calculation model of the embodiment of the present invention is introduced first.
  • the address text similarity calculation model 400 of the embodiment of the present invention includes: a word embedding layer 410, a text encoding layer 420 and a similarity calculation layer 430.
  • the word embedding layer 410 is adapted to convert each address element in the address text into a word vector, and combine each word vector into a word vector set corresponding to the address text;
  • the text encoding layer 420 is adapted to encode the word vector set corresponding to the address text into Text vector;
  • the similarity calculation layer 430 is adapted to calculate the similarity between two text vectors, and use the similarity between the text vectors to characterize the similarity between address texts.
  • step S320 the first address text, the second address text, and the third address text in each piece of training data are input to the word embedding layer for processing to obtain a first word vector set corresponding to the first address text, The second word vector set corresponding to the second address text and the third word vector set corresponding to the third address text.
  • the word embedding layer can convert each word in a sentence into a digital vector (word vector).
  • the weight of the embedding layer can be obtained by pre-calculating the text co-occurrence information of the massive corpus, such as using the Glove algorithm, or, CBOW and skip-gram algorithms in Word2Vec are used for calculation. These algorithms are based on the fact that different text representations with the same latent semantics will repeatedly appear in the same context, and use the relationship between this context and words to predict words to context, or predict words through context To get the latent semantics of each word.
  • the parameters of the word embedding layer can be separately trained using the corpus; the word embedding layer and the text encoding layer can also be trained together, so as to obtain the parameters of the word embedding layer and the text encoding layer at the same time.
  • the following uses the word embedding layer and the text encoding layer to train together as an example for description.
  • the address text includes multiple formatted address elements.
  • the word embedding layer converts each address element in the address text as a word into a word vector, thus obtaining multiple words Vector, and then combine these word vectors into a set of word vectors.
  • the set of word vectors is represented as a list, that is, a list of word vectors. Each list item in the word vector list corresponds to a word vector, and the number of items in the list is the number of address elements in the address text.
  • the set of word vectors is represented as a matrix, that is, a matrix of word vectors, each column of the matrix corresponds to a word vector, and the number of columns in the matrix is the number of address elements in the address text.
  • step S330 the first word vector set, the second word vector set, and the third word vector set are input to the text encoding layer for processing, thereby encoding the first word vector set into the first text vector, and the second word
  • the vector set is encoded as the second text vector
  • the third word vector set is encoded as the third text vector.
  • the text encoding layer is implemented using a deep neural network (DNN) model, for example, a recurrent neural network (RNN) model, a convolutional neural network (Convolutional Neural Network, CNN) model, or a deep belief network (DNN) model Deep Belief Network (DBN) model.
  • DNN Deep Belief Network
  • RNN recurrent neural network
  • CNN convolutional Neural Network
  • DNN deep belief network
  • target_addr, pos_addr, and neg_addr are converted into vector_A, vector_B, and vector_C respectively.
  • vector_A is the aforementioned first text vector
  • vector_B is the aforementioned second text vector
  • vector_C is the aforementioned third text vector.
  • the word vector sequence corresponding to the address text can be regarded as a time series, and the word vectors in the word vector sequence are input into the RNN in order, and the final output vector is the text vector (sentence vector) corresponding to the address text.
  • the word vector matrix corresponding to the address text is input into CNN, through the processing of multiple convolutional layers and pooling layers, and finally the two-dimensional feature map is converted into a one-dimensional feature vector through the fully connected layer.
  • the feature vector is the text vector corresponding to the address text.
  • step S340 a similarity calculation layer is used to calculate a first similarity between the first text vector and the second text vector, and a second similarity between the first text vector and the third text vector.
  • the first similarity may represent the similarity between the first address text and the second address text
  • the second similarity may represent the similarity between the first address text and the third address text.
  • Similarity distance calculation methods such as Euclidean distance, cosine similarity, and Jaccard coefficient.
  • the similarity between vector_A and vector_B is recorded as SIM_AB
  • the similarity between vector_A and vector_C is recorded as SIM_AC.
  • step S350 the network parameters of the word embedding layer and the text encoding layer are adjusted according to the first similarity and the second similarity. Specifically, it includes: calculating the loss function value according to the first similarity and the second similarity; using the back propagation algorithm to adjust the network parameters of the word embedding layer and the text encoding layer until the loss function value is lower than the preset value, or the number of trainings reaches a predetermined frequency.
  • the loss function here is a triple loss function. Using the triple loss function can shorten the distance between positive sample pairs and push the distance between negative sample pairs.
  • Margin is a hyperparameter, which means that the training goal must ensure that SIM_AB and SIM_AC must maintain a certain distance to increase the differentiation of the model.
  • the value of Margin can be adjusted repeatedly according to the data and the actual task until the effect is the most excellent.
  • an embodiment of the present invention also provides a method for determining the similarity of address text, including the following steps:
  • the similarity calculation model can be applied to various scenarios where address text similarity needs to be calculated, for example, it can be applied to address standardization in fields such as public security, express delivery, logistics, and electronic maps. In these scenarios, using the address text similarity calculation model of the embodiment of the present invention, an address search service can be provided for users.
  • FIG. 5 shows a flowchart of an address search method 500 according to an embodiment of the present invention.
  • the method 500 includes steps S510 to S530.
  • step S510 one or more candidate address texts corresponding to the address text to be queried are obtained.
  • the user inputs the address text to be queried (query) through the user terminal.
  • the user's input is incomplete and inaccurate address text.
  • the user terminal sends the query query to the computing device, and the address search device in the computing device will recall a batch of candidate address texts after searching the standard address library, usually ranging from several to several thousand.
  • step S520 input the address text to be queried and the candidate address text into a preset address text similarity calculation model to obtain the similarity between the two, wherein the address text similarity calculation model is trained according to the above method 300 get.
  • the similarity between the address text to be queried and each candidate address file is calculated separately.
  • step S530 the candidate address text with the largest similarity is determined as the target address text corresponding to the address text to be queried, and the target address text is returned to the user.
  • FIG. 6 shows a schematic diagram of a training device 600 for an address text similarity calculation model according to an embodiment of the present invention.
  • the address text similarity calculation model includes a word embedding layer, a text encoding layer, and a similarity calculation layer.
  • the training device 600 includes:
  • the obtaining module 610 is adapted to obtain a training data set.
  • the training data set includes multiple pieces of training data, and each piece of training data includes first, second, and third address texts, where the first n levels of the first and second address texts The address elements are the same, the address elements of the first (n-1) levels of the first and third address texts are the same, and the address elements of the nth level are different.
  • the obtaining module 610 is specifically used to perform the method as described in step S310. For the processing logic and function of the obtaining module 610, reference may be made to the related description in step S310, and details are not described here.
  • the word vector acquisition module 620 is adapted to input the first, second, and third address texts of each piece of training data into the word embedding layer to obtain the corresponding first, second, and third word vector sets.
  • the word vector acquisition module 620 is specifically used to perform the method as in the foregoing step S320.
  • the text vector acquisition module 630 is adapted to input the first, second, and third word vector sets into the text encoding layer to obtain the corresponding first, second, and third text vectors.
  • the text vector acquisition module 630 is specifically configured to perform the method as described in step S330.
  • the second similarity calculation module 640 is adapted to calculate the first similarity of the first and second text vectors and the second similarity of the first and third text vectors using the similarity calculation layer.
  • the second similarity calculation module 640 is specifically configured to execute the method as described in step S340.
  • the parameter adjustment module 650 is adapted to adjust the network parameters of the word embedding layer and the text encoding layer according to the first and second similarities.
  • the parameter adjustment module 650 is specifically used to execute the method as described in step S350.
  • FIG. 7 shows a schematic diagram of an address search apparatus 700 according to an embodiment of the present invention.
  • the address search device 700 includes:
  • the query module 710 is adapted to obtain one or more candidate address texts corresponding to the address text to be queried;
  • the first similarity calculation module 720 is adapted to input the address text to be queried and the candidate address text into a preset address text similarity calculation model to obtain the similarity between the two, wherein the address text similarity calculation model is The training device 600 is trained;
  • the output module 730 is adapted to determine the candidate address text with the largest similarity as the target address text corresponding to the address text to be queried.
  • the various technologies described herein may be implemented in combination with hardware or software, or a combination thereof.
  • the method and apparatus of the present invention or some aspects or parts of the method and apparatus of the present invention, may adopt embedded tangible media, such as a removable hard disk, U disk, floppy disk, CD-ROM, or any other machine-readable storage medium
  • program code ie, instructions
  • the machine becomes a device for practicing the invention.
  • the computing device In the case where the program code is executed on a programmable computer, the computing device generally includes a processor, a storage medium readable by the processor (including volatile and non-volatile memory and / or storage elements), and at least one input device, And at least one output device.
  • the memory is configured to store the program code; the processor is configured to execute the method for recognizing the multilingual junk text of the present invention according to the instructions in the program code stored in the memory.
  • readable media includes readable storage media and communication media.
  • the readable storage medium stores information such as computer readable instructions, data structures, program modules, or other data.
  • Communication media generally embodies computer-readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave or other transmission mechanism, and includes any information delivery media. Combinations of any of the above are also included within the scope of readable media.
  • the algorithm and display are not inherently related to any particular computer, virtual system, or other devices.
  • Various general-purpose systems can also be used with examples of the present invention. From the above description, the structure required to construct such a system is obvious.
  • the present invention is not directed to any particular programming language. It should be understood that various programming languages can be used to implement the contents of the present invention described herein, and the above descriptions of specific languages are for disclosure of the best embodiments of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种地址文本相似度确定方法、地址搜索方法、装置和设备,地址文本包括级别从高到低排列的多个地址元素,方法包括:获取待确定相似度的地址文本对;将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度。本发明提高了地址文本相似度计算的准确度。

Description

地址文本相似度确定方法、地址搜索方法、装置和设备
本申请要求2018年11月19日递交的申请号为201811375413.2、发明名称为“地址文本相似度确定方法以及地址搜索方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及人工智能领域,具体涉及一种地址文本相似度确定方法、地址搜索方法、装置以及计算设备。
背景技术
在某些对地址敏感的行业或部门里,例如公安、快递、物流、电子地图等,其内部通常会维护一份标准的地址库。而在其地址数据的使用场景中常常存在与标准地址库不统一的描述,比如110报警时候的口述地址与公安系统内部的标准化地址就相去甚远。此时需要一种有效且快速的方法能够将非标准的地址文本映射到到标准地址库中的对应或者相近的地址,其中如何判断两段地址文本的相似程度则至关重要。
常用的地址文本相似度有如下几种计算方式:
1、利用编辑距离计算两段文本的相似程度,此种方式忽略了文本的语义内涵,例如:“阿里巴巴”和“阿里地区”之间的编辑距离与“阿里巴巴”和“阿里妈妈”之间的编辑距离相同,但是从语义上“阿里巴巴”和“阿里妈妈”之间的语义相似程度应该是大于“阿里地区”。
2、利用语义相似度计算两段文本之间的相似度,例如word2vec,此种方式适合于所有文本领域,并不单独针对地址文本。在应用到地址文本时,准确度不够高。
3、将地址文本分解为多个地址元素,人工指定各个级别的地址元素的权重后加权求和,缺点是无法针对数据集自动生成各地址级别的权重,不能很好的自动化。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的地址文本相似度确定方法和地址搜索方法。
根据本发明的一个方面,提供了一种地址文本相似度确定方法,所述地址文本包括级别从高到低排列的多个地址元素,所述方法包括:
获取待确定相似度的地址文本对;
将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度;
其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对。
可选地,在根据本发明的地址文本相似度确定方法中,所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,训练所述地址文本相似度计算模型的步骤包括:将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集;将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量;利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度;根据第一、二相似度调整所述地址文本相似度计算模型的网络参数。
可选地,在根据本发明的地址文本相似度确定方法中,所述网络参数包括:词嵌入层的参数和/或文本编码层的参数。
可选地,在根据本发明的地址文本相似度确定方法中,第一、二、三词向量集中的各词向量集包括多个词向量,每个词向量与地址文本中的一个地址元素相对应。
可选地,在根据本发明的地址文本相似度确定方法中,所述词嵌入层采用Glove模型或者Word2Vec模型。
可选地,在根据本发明的地址文本相似度确定方法中,所述第一相似度和第二相似度包括欧氏距离、余弦相似度或者Jaccard系数中的至少一个。
可选地,在根据本发明的地址文本相似度确定方法中,所述根据第一、二相似度调整词所述地址文本相似度计算模型的网络参数,包括:根据第一、二相似度计算损失函数值;利用反向传播算法调整地址文本相似度计算模型的网络参数,直到损失函数值低于预设值,或者训练次数达到预定次数。
可选地,在根据本发明的地址文本相似度确定方法中,所述损失函数值为:Loss=Margin-(第一相似度-第二相似度),其中,Loss为损失函数值,Margin为超参数。
可选地,在根据本发明的地址文本相似度确定方法中,所述文本编码层包括RNN模型、CNN模型或者DBN模型中的至少一个。
根据本发明的另一个方面,提供了一种地址搜索方法,包括:
获取待查询地址文本对应的一个或多个候选地址文本;
将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对;
将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
根据本发明的另一个方面,提供了一种地址搜索装置,包括:
查询模块,适于获取待查询地址文本对应的一个或多个候选地址文本;
第一相似度计算模块,适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对;
输出模块,适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
根据本发明的另一个方面,提供了一种地址文本相似度计算模型的训练装置,所述地址文本包括级别从高到低排列的多个地址元素,所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,所述装置包括:
获取模块,适于获取训练数据集,所述训练数据集包括多条训练数据,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对;
词向量获取模块,适于将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集;
文本向量获取模块,适于将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量;
第二相似度计算模块,适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度;
调参模块,适于根据第一、二相似度调整地址文本相似度计算模型的网络参数。
根据本发明的另一个方面,提供了一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。
由于地址文本天然包含层级关系,不同级别的地址元素在地址相似度计算中起到不同的作用。本发明实施例利用地址文本中的层级关系自动学习到不同级别地址元素的权重,避免了人工指定权重的主观性,同时具有了对目标数据源的自适应能力,进而能够准确的计算出两个地址文本的相似程度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的地址搜索系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的地址文本相似度计算模型的训练方法300的流程图;
图4示出了根据本发明一个实施例的的地址文本相似度计算模型400的示意图;
图5示出了根据本发明一个实施例的地址搜索方法500的流程图;
图6示出了根据本发明一个实施例的地址文本相似度计算模型的训练装置600的示意图;
图7示出了根据本发明一个实施例的地址搜索装置700的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
地址文本:比如“杭州文一西路969号阿里巴巴”、“四川省眉山市彭山区彭溪镇锦江大道1号四川大学锦江学院”等包含地址信息的文本。地址文本包括级别从高到低排列的多个地址元素。
地址元素:构成地址文本的各个粒度的要素,比如“杭州文一西路969号阿里巴巴”,“杭州”表示城市、“文一西路”表示道路、“969号”表示路号、阿里巴巴表示兴趣点(Point of Interest,POI)。
地址级别:地址中的地址元素对应的区域具有大小包含的关系,即地级元素具有相应的地址级别,例如:省>市>区>街道/社区>路>楼栋。
地址相似度:两段地址文本之间的相似程度,取值为0到1之间,值越大表示两个地址为同一地点的可能性越大,取值为1时两段文本表示同一地址,取值为0时,两段地址无关系。
偏序关系:地址中的区域具有大小包含的层级关系,例如:省>市>区>街道/社区>路>楼栋。
由于地址文本天然包含层级关系,即上述的偏序关系,不同级别的地址元素在地址相似度计算中起到不同的作用。本发明实施例利用地址文本中的层级关系自动生成不同级别地址元素的权重,且该权重隐含体现在地址文本相似度计算模型的网络参数中,从而能够准确的计算出两个地址文本的相似程度。
图1示出了根据本发明一个实施例的地址搜索系统100的示意图。如图1所示,地址搜索系统100包括用户终端110和计算设备200。
用户终端110即用户所使用的终端设备,其具体可以是桌面电脑、笔记本电脑等个人计算机,也可以是手机、平板电脑、多媒体设备、智能可穿戴设备等,但不限于此。计算设备200用于向用户终端110提供服务,其可以实现为服务器,例如应用服务器、Web服务器等;也可以实现为桌面电脑、笔记本电脑、处理器芯片、手机、平板电脑等,但不限于此。
在本发明的实施例中,计算设备200可用于向用户提供地址搜索服务,例如,计算 设备200可以作为电子地图应用的服务器,但是,本领域技术人员应当理解,计算设备200可以是任何能够向用户提供地址搜索服务的设备,而不仅限于电子地图应用的服务器。
在一个实施例中,地址搜索系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如MySQL、ACCESS等,也可以是非关系型数据库例如NoSQL等;可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如HBase等设置于多个地理位置处,总之,数据存储装置120用于存储数据,本发明对数据存储装置120的具体部署、配置情况不做限制。计算设备200可以与数据存储装置120连接,并获取数据存储装置120中所存储的数据。例如,计算设备200可以直接读取数据存储装置120中的数据(在数据存储装置120为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取数据存储装置120中的数据。
在本发明的实施例中,数据存储装置120中存储有标准地址库,标准地址库中的地址文本为标准地址文本(完整和准确的地址文本)。在地址搜索服务中,用户通过用户终端110输入待查询地址文本(query),通常,用户的输入是残缺和不准确的地址文本。用户终端110将查询query发送到计算设备200,计算设备200中的地址搜索装置通过检索标准地址库后会召回一批候选地址文本,通常在几条到几千条不等。之后地址搜索装置对这些候选地址文本和查询query之间计算相关程度,地址相似度则是相关程度的一种重要的参考信息,通过分别计算查询query和所有候选地址文本之间的地址相似度后,将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本,并将该目标地址文本返回给用户。
具体地,地址搜索装置可以利用地址文本相似度计算模型来计算待查询地址文本和候选地址文本之间的相似度。相应地,计算设备200中还可以包括地址文本相似度计算模型的训练装置,数据存储装置120还存储有训练地址库,训练地址库可以与上述标准地址库相同或不同,训练地址库中包括多个地址文本,该训练装置利用训练地址库中的地址文本来训练地址文本相似度计算模型。
图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204 可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括地址文本相似度计算模型的训练装置600和地址搜索装置700。装置600包括多条程序指令,这些程序指令可以指示处理器104执行地址文本相似度计算模型的训练方法300。装置700包括多条程序指令,这 些程序指令可以指示处理器104执行地地址搜索方法600。
图3示出了根据本发明一个实施例的地址文本相似度计算模型的训练方法300的流程图。方法300适于在计算设备(例如前述计算设备200)中执行。如图3所示,该方法300始于步骤S310。在步骤S310中,获取训练数据集,训练数据集包括多条训练数据,每条训练数据包括3个地址文本,分别为第一地址文本、第二地址文本和第三地址文本。每个地址文本包括级别从高到低排列的多个地址元素,第一地址文本和第二地址文本的前n个级别的地址元素相同;第一地址文本和第三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同。这里,n的取值范围为(1,N),N为地址文本所包括的地址级别的数目,例如,地址文本共包括5个地址级别,分别为:省、市、区、道路、路号,则N取值为5。当然,n也可以根据具体的应用场景采用其他的取值范围。
在本发明实施例中,每条训练数据为3个地址文本构成的三元组{target_addr,pos_addr,neg_addr},target_addr对应上述的第一地址文本,pos_addr对应上述的第二地址文本,neg_addr对应上述的第三地址文本。{target_addr,pos_addr}构成一对正样本对,{target_addr,neg_addr}构成一对负样本对。
在一个实施例中,训练数据集的获取方式如下:
首先,从训练地址库(或者标准地址库)中获取原始地址文本,并解析原始地址文本,将地址文本的字符串切分并格式化为地址元素。例如,对于地址文本“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区1号楼7层910号”,可以切分为“prov(省)=浙江省city(市)=杭州市district(区)=余杭区road(道路)=文一西路roadno(路号)=969号poi=阿里巴巴西溪园区houseno(楼号)=1号楼floorno(楼层号)=7层roomno(房间号)=910号”。具体地,可以结合分词模型和命名实体模型来完成上述解析,本发明实施例对具体的分词模型和命名实体模型不做限制,本领域技术人员可以根据需要进行合理选择。
然后,将格式化为地址元素的地址文本按不同级别的地址元素做聚合(去重和排序),形成如下的表格:
道路 路号 poi
浙江省 杭州市 余杭区 文一西路 969号 阿里巴巴西溪园区
浙江省 杭州市 余杭区 文一西路 1008号 浙江省社会主义学院
浙江省 杭州市 余杭区 高教路 248号 赛银国际广场
浙江省 杭州市 上城区 南山路 218号 中国美术学院南山校区
浙江省 杭州市 上城区 南山路 212号 潘天寿纪念馆
浙江省 杭州市 上城区 南山路 206号 茅以升旧居
浙江省 宁波市 鄞州区 宜园路 525号 宜家家居
浙江省 宁波市 鄞州区 宜园路 245号 国骅宜家花园1期
上海 上海市 长宁区 虹桥路 2550号 上海虹桥国际机场
最后,将表格中聚合后的数据按不同地址级别组合成训练数据的正负样本对,输出格式为:{target_addr,pos_addr,neg_addr}。如前所述,{target_addr,pos_addr}构成一对正样本对,{target_addr,neg_addr}构成一对负样本对。需要说明的是,一对正样本对可以对应多对负样本对,即,一个target_addr对应一个pos_addr,该target_addr可以对应多个neg_addr。
具体操作如下:
(1)选定一个地址文本,例如:prov=浙江省city=杭州市district=余杭区road=文一西路roadno=969号poi=阿里巴巴西溪园区;
(2)从高到低遍历所有地址级别,例如,省->市->区->道路,在每个地址级别上分别找到和当前地址元素相同和不同的地址元素,分别与当前地址元素构成正样本对和负样本对,例如:
在省级别,浙江省 杭州市 余杭区 文一西路 969号 阿里巴巴西溪园区的正例为:浙江省 宁波市 鄞州区 宜园路 245号 国骅宜家花园1期;负例为:上海 上海市 长宁区 虹桥路 2550号 上海虹桥国际机场。
在市级别,浙江省 杭州市 余杭区 文一西路 969号 阿里巴巴西溪园区的正例为:浙江省 杭州市 余杭区 文一西路 1008号 浙江省社会主义学院;负例为:浙江省 宁波市鄞州区 宜园路 525号 宜家家居。
在区级别,浙江省 杭州市 余杭区 文一西路 969号 阿里巴巴西溪园区 的正例为:浙江省 杭州市 余杭区 高教路 248号 赛银国际广场;负例为:浙江省 杭州市 上城区 南山路 218号 中国美术学院南山校区。
在获取到训练数据集后,方法300进入步骤S320。在描述步骤S320的处理过程之前,先介绍一下本发明实施例的地址文本相似度计算模型的结构。
参照图4,本发明实施例的地址文本相似度计算模型400包括:词嵌入层410、文本编码层420和相似度计算层430。词嵌入层410适于将地址文本中的各地址元素转换为词向量,并将各词向量组合为地址文本对应的词向量集;文本编码层420适于将地址文本对应的词向量集编码为文本向量;相似度计算层430适于计算两个文本向量之间的相似度,利用文本向量之间的相似度来表征地址文本之间的相似度。
在步骤S320中,将每条训练数据中的第一地址文本、第二地址文本和第三地址文本分别输入到词嵌入层进行处理,以得到与第一地址文本对应的第一词向量集,与第二地址文本对应的第二词向量集,与第三地址文本对应的第三词向量集。
词嵌入层(embedding层)能够将一个句子中的每一个词转化成一个数字向量(词向量),embedding层的权重可以通过海量语料库的文本共现信息预计算得到,例如采用Glove算法,或者,Word2Vec中的CBOW和skip-gram算法进行计算。这些算法都是基于这样一个事实:在相同潜在语义的不同文本表示会反复出现在同样的上下文语境当中,利用这种上下文和单词之间的关系进行单词到上下文的预测,或者通过上下文预测单词,从而得到每个单词的潜在语义。在本发明实施例中,词嵌入层的参数可以利用语料库单独进行训练得到;也可以将词嵌入层和文本编码层一起进行训练,从而同时得到词嵌入层的参数和文本编码层的参数。下文以词嵌入层和文本编码层一起进行训练为例进行说明。
具体地,地址文本包括多个格式化的地址元素,将地址文本输入到词嵌入层后,词嵌入层将地址文本中的每个地址元素作为一个词,转换为词向量,这样得到多个词向量,然后,将这些词向量组合为词向量集合。
在一种实现方式中,词向量集合表示为一个列表,即词向量列表,词向量列表中的每个列表项对应一个词向量,列表的项数为地址文本中地址元素的数目。在另一种实现方式中,词向量集合表示为一个矩阵,即词向量矩阵,矩阵的每列对应一个词向量,矩阵的列数即为地址文本中地址元素的数目。
在获取到词向量集后,方法300进入步骤S330。在步骤S330中,分别将第一词向量集、第二词向量集和第三词向量集输入到文本编码层进行处理,从而将第一词向量集编码为第一文本向量,将第二词向量集编码为第二文本向量,将第三词向量集编码为第三文本向量。
文本编码层采用深度神经网络(Deep Neural Networks,DNN)模型来实现,例如可以采用循环神经网络(Recurrent Neural Network,RNN)模型、卷积神经网络 (Convolutional Neural Network,CNN)模型或者深度信念网络(Deep Belief Network,DBN)模型。通过DNN将不定长度的地址句子文本的embedding输出编码为一个定长的句子向量,此时target_addr,pos_addr,neg_addr分别转化为vector_A,vector_B,vector_C。vector_A即上述的第一文本向量,vector_B即上述的第二文本向量,vector_C即上述的第三文本向量。
以RNN为例,可以将地址文本对应的词向量序列看作时间序列,按照顺序将词向量序列中的词向量输入到RNN中,最终输出的向量为地址文本对应的文本向量(句子向量)。
以CNN为例,将地址文本对应的词向量矩阵输入到CNN中,通过多个卷积层和池化层的处理,最后通过全连接层将二维特征图转换为一维的特征向量,此特征向量即为地址文本对应的文本向量。
在获取到文本向量后,方法300进入步骤S340。在步骤S340中,利用相似度计算层计算第一文本向量与第二文本向量之间的第一相似度,以及第一文本向量与第三文本向量之间的第二相似度。这样,第一相似度可以表征第一地址文本与第二地址文本之间的相似度,第二相似度可以表征第一地址文本和第三地址文本之间的相似度。
可以选择多种相似度距离计算方式,例如:欧氏距离、余弦相似度、Jaccard系数等。在本实施例中,vector_A和vector_B之间的相似度记作SIM_AB,vector_A和vector_C之间的相似度记作SIM_AC。
最后,在步骤S350中,根据第一相似度和第二相似度调整词嵌入层和文本编码层的网络参数。具体包括:根据第一相似度和第二相似度计算损失函数值;利用反向传播算法调整词嵌入层和文本编码层的网络参数,直到损失函数值低于预设值,或者训练次数达到预定次数。
这里的损失函数为三元组损失函数,利用三元组损失函数可以拉近正样本对之间的距离,推开负样本对之间的距离。损失函数具体可以表示为:loss=Margin-(SIM_AB-SIM_AC)。利用反向传播算法去优化网络的目标min(loss),这样网络会主动学习到参数使得target_addr在语义空间上更加靠近pos_addr,同时远离neg_addr。
其中,Margin是一个超参数,它表示训练的目标要保证SIM_AB和SIM_AC之间要保持一定的距离,以增大模型的区分度,Margin的取值可以根据数据情况和实际任务反复调整直到效果最优。
完成上述训练过程后,最终就得到了可用于计算两段地址文本之间的相似度的相似 度计算模型。基于该相似度计算模型,本发明实施例还提供一种地址文本相似度确定方法,包括如下步骤:
1)获取待确定相似度的地址文本对;
2)将所述地址文本对输入到训练好的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度。
另外,该相似度计算模型可以应用于各种需要计算地址文本相似度的场景,例如可以应用于公安、快递、物流、电子地图等领域的地址标准化。在这些场景中,利用本发明实施例的地址文本相似度计算模型,可以为用户提供地址搜索服务。
图5示出了根据本发明一个实施例的地址搜索方法500的流程图。参照图5,方法500包括步骤S510~S530。
在步骤S510中,获取待查询地址文本对应的一个或多个候选地址文本。在地址搜索服务中,用户通过用户终端输入待查询地址文本(query),通常,用户的输入是残缺和不准确的地址文本。用户终端将查询query发送到计算设备,计算设备中的地址搜索装置通过检索标准地址库后会召回一批候选地址文本,通常在几条到几千条不等。
在步骤S520中,将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型根据上述的方法300训练得到。在本步骤中,是分别计算待查询地址文本和各候选地址文件的相似度。
在得到了待查询地址文本与所有候选地址文本的相似度之后,方法500进入步骤S530。在步骤S530中,将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本,并将该目标地址文本返回给用户。
图6示出了根据本发明一个实施例的地址文本相似度计算模型的训练装置600的示意图。地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,训练装置600包括:
获取模块610,适于获取训练数据集,所述训练数据集包括多条训练数据,每条训练数据包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同。获取模块610具体用于执行如前述步骤S310的方法,关于获取模块610的处理逻辑和功能可以参见前述步骤S310的相关描述,此处不再赘述。
词向量获取模块620,适于将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集。词向量获取模块620具体用于执行如前述步 骤S320的方法,关于词向量获取模块620的处理逻辑和功能可以参见前述步骤S320的相关描述,此处不再赘述。
文本向量获取模块630,适于将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量。文本向量获取模块630具体用于执行如前述步骤S330的方法,关于词向量获取模块630的处理逻辑和功能可以参见前述步骤S330的相关描述,此处不再赘述。
第二相似度计算模块640,适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度。第二相似度计算模块640具体用于执行如前述步骤S340的方法,关于第二相似度计算模块640的处理逻辑和功能可以参见前述步骤S340的相关描述,此处不再赘述。
调参模块650,适于根据第一、二相似度调整词嵌入层和文本编码层的网络参数。调参模块650具体用于执行如前述步骤S350的方法,关于第二相似度计算模块650的处理逻辑和功能可以参见前述步骤S350的相关描述,此处不再赘述。
图7示出了根据本发明一个实施例的地址搜索装置700的示意图。参照图7,地址搜索装置700包括:
查询模块710,适于获取待查询地址文本对应的一个或多个候选地址文本;
第一相似度计算模块720,适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型由训练装置600进行训练得到;
输出模块730,适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的多语言垃圾文本的识别方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (13)

  1. 一种地址文本相似度确定方法,所述地址文本包括级别从高到低排列的多个地址元素,所述方法包括:
    获取待确定相似度的地址文本对;
    将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度;
    其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对。
  2. 如权利要求1所述的方法,其中,所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,训练所述地址文本相似度计算模型的步骤包括:
    将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集;
    将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量;
    利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度;
    根据第一、二相似度调整所述地址文本相似度计算模型的网络参数。
  3. 如权利要求2所述的方法,其中,所述网络参数包括:词嵌入层的参数和/或文本编码层的参数。
  4. 如权利要求2所述的方法,其中,第一、二、三词向量集中的各词向量集包括多个词向量,每个词向量与地址文本中的一个地址元素相对应。
  5. 如权利要求2所述的方法,其中,所述词嵌入层采用Glove模型或者Word2Vec模型。
  6. 如权利要求2所述的方法,其中,所述第一相似度和第二相似度包括欧氏距离、余弦相似度或者Jaccard系数中的至少一个。
  7. 如权利要求2所述的方法,其中,所述根据第一、二相似度调整词所述地址文本相似度计算模型的网络参数,包括:
    根据第一、二相似度计算损失函数值;
    利用反向传播算法调整地址文本相似度计算模型的网络参数,直到损失函数值低于 预设值,或者训练次数达到预定次数。
  8. 如权利要求7所述的方法,其中,所述损失函数值为:
    Loss=Margin-(第一相似度-第二相似度)
    其中,Loss为损失函数值,Margin为超参数。
  9. 如权利要求2所述的方法,其中,所述文本编码层包括RNN模型、CNN模型或者DBN模型中的至少一个。
  10. 一种地址搜索方法,包括:
    获取待查询地址文本对应的一个或多个候选地址文本;
    将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对;
    将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
  11. 一种地址搜索装置,包括:
    查询模块,适于获取待查询地址文本对应的一个或多个候选地址文本;
    第一相似度计算模块,适于将待查询地址文本和候选地址文本输入到预设的地址文本相似度计算模型,以得到二者的相似度,其中,所述地址文本相似度计算模型于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对;
    输出模块,适于将相似度最大的候选地址文本确定为待查询地址文本对应的目标地址文本。
  12. 一种地址文本相似度计算模型的训练装置,所述地址文本包括级别从高到低排列的多个地址元素,所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,所述装置包括:
    获取模块,适于获取训练数据集,所述训练数据集包括多条训练数据,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n 级别的地址元素不相同,构成负样本对;
    词向量获取模块,适于将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集;
    文本向量获取模块,适于将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量;
    第二相似度计算模块,适于利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度;
    调参模块,适于根据第一、二相似度调整地址文本相似度计算模型的网络参数。
  13. 一种计算设备,包括:
    一个或多个处理器;
    存储器;以及
    一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-10所述的方法中的任一方法的指令。
PCT/CN2019/119149 2018-11-19 2019-11-18 地址文本相似度确定方法、地址搜索方法、装置和设备 WO2020103783A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811375413.2 2018-11-19
CN201811375413.2A CN111274811B (zh) 2018-11-19 2018-11-19 地址文本相似度确定方法以及地址搜索方法

Publications (1)

Publication Number Publication Date
WO2020103783A1 true WO2020103783A1 (zh) 2020-05-28

Family

ID=70773096

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/119149 WO2020103783A1 (zh) 2018-11-19 2019-11-18 地址文本相似度确定方法、地址搜索方法、装置和设备

Country Status (3)

Country Link
CN (1) CN111274811B (zh)
TW (1) TW202020688A (zh)
WO (1) WO2020103783A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN111783419A (zh) * 2020-06-12 2020-10-16 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN111881677A (zh) * 2020-07-28 2020-11-03 武汉大学 基于深度学习模型的地址匹配算法
CN112632406A (zh) * 2020-10-10 2021-04-09 咪咕文化科技有限公司 查询方法、装置、电子设备及存储介质
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113544700A (zh) * 2020-12-31 2021-10-22 商汤国际私人有限公司 神经网络的训练方法和装置、关联对象的检测方法和装置
CN113779370A (zh) * 2020-11-03 2021-12-10 北京京东振世信息技术有限公司 一种地址检索方法和装置
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用
CN116150625A (zh) * 2023-03-08 2023-05-23 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN117725909A (zh) * 2024-02-18 2024-03-19 四川日报网络传媒发展有限公司 一种多维度的评论审核方法、装置、电子设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070429B (zh) * 2020-07-31 2024-03-15 深圳市跨越新科技有限公司 一种地址合并方法及系统
CN112559658B (zh) * 2020-12-08 2022-12-30 中国科学技术大学 一种地址匹配方法及装置
CN112579919B (zh) * 2020-12-09 2023-04-21 小红书科技有限公司 数据处理方法、装置及电子设备
CN113204612B (zh) * 2021-04-24 2024-05-03 上海赛可出行科技服务有限公司 一种基于先验知识的网约车相似地址识别方法
CN114048797A (zh) * 2021-10-20 2022-02-15 盐城金堤科技有限公司 确定地址相似度的方法、装置、介质及电子设备
CN114254139A (zh) * 2021-12-17 2022-03-29 北京百度网讯科技有限公司 数据处理方法、样本获取方法、模型训练方法和装置
CN116306627A (zh) * 2023-02-09 2023-06-23 北京海致星图科技有限公司 多路融合地址相似度计算方法、装置、存储介质和设备
CN115952779B (zh) * 2023-03-13 2023-09-29 中规院(北京)规划设计有限公司 一种位置名称校准方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
CN105988988A (zh) * 2015-02-13 2016-10-05 阿里巴巴集团控股有限公司 文本地址处理方法及装置
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
CN108536657B (zh) * 2018-04-10 2021-09-21 百融云创科技股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108805583B (zh) * 2018-05-18 2020-01-31 连连银通电子支付有限公司 基于地址映射的电商欺诈检测方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557574A (zh) * 2016-11-23 2017-04-05 广东电网有限责任公司佛山供电局 基于树结构的目标地址匹配方法和系统
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783419A (zh) * 2020-06-12 2020-10-16 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN111783419B (zh) * 2020-06-12 2024-02-27 上海东普信息科技有限公司 地址相似度计算方法、装置、设备和存储介质
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN111753516B (zh) * 2020-06-29 2024-04-16 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN111881677A (zh) * 2020-07-28 2020-11-03 武汉大学 基于深度学习模型的地址匹配算法
CN112632406A (zh) * 2020-10-10 2021-04-09 咪咕文化科技有限公司 查询方法、装置、电子设备及存储介质
CN112632406B (zh) * 2020-10-10 2024-04-09 咪咕文化科技有限公司 查询方法、装置、电子设备及存储介质
CN113779370B (zh) * 2020-11-03 2023-09-26 北京京东振世信息技术有限公司 一种地址检索方法和装置
CN113779370A (zh) * 2020-11-03 2021-12-10 北京京东振世信息技术有限公司 一种地址检索方法和装置
CN113544700A (zh) * 2020-12-31 2021-10-22 商汤国际私人有限公司 神经网络的训练方法和装置、关联对象的检测方法和装置
CN113468881A (zh) * 2021-07-23 2021-10-01 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN113468881B (zh) * 2021-07-23 2024-02-27 浙江大华技术股份有限公司 一种地址标准化方法及装置
CN114970525B (zh) * 2022-06-14 2023-06-27 城云科技(中国)有限公司 一种文本同事件识别方法、装置及可读存储介质
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用
CN116150625B (zh) * 2023-03-08 2024-03-29 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN116150625A (zh) * 2023-03-08 2023-05-23 华院计算技术(上海)股份有限公司 文本搜索模型的训练方法及装置、计算设备
CN117725909A (zh) * 2024-02-18 2024-03-19 四川日报网络传媒发展有限公司 一种多维度的评论审核方法、装置、电子设备及存储介质
CN117725909B (zh) * 2024-02-18 2024-05-14 四川日报网络传媒发展有限公司 一种多维度的评论审核方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
TW202020688A (zh) 2020-06-01
CN111274811B (zh) 2023-04-18
CN111274811A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
WO2020103783A1 (zh) 地址文本相似度确定方法、地址搜索方法、装置和设备
CN109960800B (zh) 基于主动学习的弱监督文本分类方法及装置
Xavier et al. A survey of measures and methods for matching geospatial vector datasets
CN106295796B (zh) 基于深度学习的实体链接方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
WO2019052403A1 (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
US20200327281A1 (en) Word classification based on phonetic features
WO2022126901A1 (zh) 一种商品推荐方法及其相关设备
Palumbo et al. Predicting Your Next Stop-over from Location-based Social Network Data with Recurrent Neural Networks.
Chehreghan et al. A geometric-based approach for road matching on multi-scale datasets using a genetic algorithm
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
TW201933879A (zh) 內容推薦方法及裝置
CN104199842A (zh) 一种基于局部特征邻域信息的相似图片检索方法
WO2021114825A1 (zh) 机构标准化方法、装置、电子设备及存储介质
CN116848490A (zh) 使用模型相交进行文档分析
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
CN116917887A (zh) 使用基于注意力的排名系统的查询处理
WO2023168810A1 (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
Li et al. Neural Chinese address parsing
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
Zhong et al. Evaluation of multimedia learning resource classification retrieval based on decision tree hashing algorithm
Guo et al. Getting more from one attractive scene: Venue retrieval in micro-videos

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19886707

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19886707

Country of ref document: EP

Kind code of ref document: A1