技术领域
[0001] 本发明属于地理信息技术领域,特别涉及一种基于地址要素索引的中文地址匹配方法。
相关背景技术
[0002] 地址作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。中文地址是由连续的字符串组成,能够帮助人们描述具体的地理位置。完整地址描述应该包括国家、省、市、区县、街道、乡村、道路、门牌号码、局部区域、楼址、楼栋号、楼层号和房间号等。一个有效的中文地址应该是唯一的,能够快速标识并定位某一地理实体位置。地址作为现代社会发展过程中所必需的地理空间数据资源和战略性基础信息资源,已经成为智慧城市中时空基础框架的重要组成部分,也是社会大数据组织、关联与共享应用的桥梁。
[0003] 地址匹配是将自然语言描述的地址数据,在地址模型或编码规范的基础上进行智能化的地址解析,从而建立地址描述信息与空间坐标转换的过程。通过地址匹配可以建立标准地址与非标准地址之间的有机联系,满足空间信息与非空间信息的有效融合,实现不同地址数据类型之间的共享与集成。地址模型是地址匹配的基础,地址解析是地址匹配过程中对地址结构化的关键步骤。随着人们空间认知和信息化技术的不断提升,先进的人工智能、大数据和自然语言处理等技术快速发展,为中文地址的解析和智能匹配提供了强有力的技术支撑。
[0004] 将带有中文地址要素模型的地址层级分类体系以及索引技术相融合,形成一种基于地址要素索引的中文地址匹配方法,可解决地址匹配中建立标准地址与非标准地址有机联系的问题,满足空间信息有效表达的需求,同时有效应对中文地址存在分隔符缺失、描述名称省略或者冗余以及形式复杂多样等问题导致的匹配效率低下、准确度亟待提高的窘境。
具体实施方式
[0033] 下面结合附图对本发明的具体实施过程作详细说明。基于地址要素索引的中文地址匹配方法包含以下步骤:
[0034] (1)根据中文地址的特征分析和中文地址数据特点,进行中文地址要素组成结构的构建以及组合模式分析。考虑到中文地址由多个不同空间范围的地址要素所组成。地址要素是指在特定区域内可以确定一个具体地理区域范围的地址字段,地址要素每一个都是不可以再继续分割的字段,是具有最小地址语义的单元。地址要素继续分割的话会引起歧义,例如“长江路”再继续分割为“长”、“江”、“路”,便失去了其原有语义。所以,构建合理的中文地址要素组成结构需要充分考虑地址规划的现状和中文地址实际特征,并兼顾公众对地址的认知规律。
[0035] 如图2所示,本发明在参考国家地址标准规范和行业地址分类标准规范的基础上,兼顾地址的通用性、统一性和扩展性,把中文地址元素分为六大类,其中包括行政区划、道路、局部区域、门牌号、楼址、单元户室号,每一类别又具有各自详细的小类。
[0036] (2)地址数据预处理。地址数据预处理目的是对低质量的地址数据进行清洗与筛选,从而保证实验数据的可靠性。由于实验数据存在要素冗余、数据不完整、地址中含有非地址要素等问题,主要包括删除残缺数据、删除非地址数据、删除非地址要素、删除重复数据、删除特殊符号、删除空白字符以及补充部分行政区划等。具体流程如图3所示。
[0037] 预处理主要步骤如下:1)建立行政区划数据库,包括市、区、街道和社区等,具体数据内容将参考《中华人民共和国行政区划代码(GB/T 2260‑2007)》;2)删除非地址数据、删除非地址元素、删除特殊符号空白字符,例如“@”、“。”、“、”和“!”等;3)规范部分地址数据;4)前三级行政区划要素补齐;5)地址数据去重;6)地址数据统一转化为简体并进行存储。
[0038] (3)对地址数据进行解析,并利用解析后结构化的地址数据建立地址索引文件,同时保存地址索引文件。地址解析的过程将参考先前构建的地址要素组合模式,待数据预处理完成后使用分词解析方法,结合各类型要素进行地址解析。随后将根据地址数据的解析结果建立地址索引文件,将索引进行存储。地址要素的索引构建流程如图4所示,要素索引建立步骤如下:
[0039] 1)地址要素词典文件存储。将地址数据库中的原始地址数据取出,经过地址解析后生不同语义的地址要素数据T1、T2、...Tn,其中Tn由同语义的多个地址要素组成。每一个语义类别的所有地址要素按照统一的方式依次排列,生成地址要素序列St=T1、T2、...Tn,将地址要素序列存储在地址要素词典中。
[0040] 2)地址要素索引文件构建。地址要素索引是存储地址要素索引记录的物理文件,用于存储地址要素索引记录条目和地址要素词典文件中地址要素之间的相互对应关系。地址要素词典文件中存储各个类别中不重复的地址要素,形成一条要素索引记录。每条地址要素索引记录中包含三个部分的数据信息:地址要素个数,地址要素的字符编码和地址要素词典文件存储位置。
[0041] 3)候选地址集合查询。首先对待查询地址进行解析,将地址按照解析后不同语义的地址要素进行结构化,获得带有语义的多个地址要素W1、W2、...,Wn。其次,利用解析后不同语义的地址要素分别作为检索关键字,在地址要素索引文件中搜索其要素对应的索引记录信息。最后,通过对索引记录中的地址信息进行反向解析查询,利用地址要素索引中记录的位置信息查询词典文件中对应的地址数据,并将全部搜索结果返回R={R1,R2,...Rn)。
[0042] 4)地址相似度排序。利用中文地址相似度计算模型进行排序(后文详细介绍),从而返回正确的地址匹配结果。
[0043] (4)加载地址索引文件,通过地址索引文件对待匹配地址进行检索,获得地址匹配结果的待选集合。同时利用地址相似度计算方法对结果集合进行筛选和排序,从而获得最优的匹配结果和对应的地址空间位置坐标。地址要素相似度计算模型包括两个部分。第一部分是基于地址要素加权的相似度计算,第二部分是基于地址语义的相似度计算。地址要素的加权相似度计算可以突出重要的地址要素,有效提高重点要素在地址匹配时的权重。地址语义相似度的计算可以解决在长地址匹配过程中,地址要素的匹配只能参考地址字符串中的局部信息,无法进行全局依赖及关联性的参考。
[0044] 1)地址要素权重:中文地址由多个层级的地址要素组成,地址要素的层级越高,其表示的范围越大,定位精度越低。层级较低的地址要素部分,往往指向的空间范围较小,定位精度较高。实验依据第二章统计的地址要素使用频率和地址组合模式频率,对不同类型的地址要素设置相应的匹配权重,使得匹配结果中权重较高的地址要素可以获得更高的匹配优先级。中文地址要素权重详情如表1所示。
[0045] 表1地址要素匹配权重
[0046]
[0047] 将权重矩阵用Wi和Wij表示,Wi表示地址要素一级权重,Wij表示地址在一级类型下的二级权重。对前二级行政区划设置权重的阈值,当二级行政区划匹配的相似度超过0.95,则一级的行政区划部分的权重设置为0。例如对行政区划“江苏省南京市”进行匹配,当“南京市”匹配成功时候,“江苏省”则不需要再进行匹配。多个局部区域名称嵌套时,权重从后向前进行递减,当局部区域要素的个数超过3个及以上时,设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化,避免计算单位的不统一。
[0048] 2)地址相似度计算:地址语义相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。加权的编辑距离算法能够更加准确的计算不同类型地址要素间的相似程度,而地址语义余弦相似度计算能够弥补地址要素相似度计算的缺陷,获得地址整体语义的相似度数值。
[0049] 地址相似度计算详细步骤如下:
[0050] (1)地址Address1、Address2进行相似度计算。首先对地址进行解析,或者直接从数据库中获取地址解析后的结果,得到不同级别的地址要素。
[0051] Address1={P1,P2,P3,...Pn}
[0052] Address2={P1,P2,P3,...Pn}
[0053] 式中,Pn表示地址经过地址解析后的不同地址要素部分。
[0054] (2)计算Address1、Address2两个地址中相同层级地址要素的加权相似度数值。
[0055]
[0056] 式中,wi表示地址一级矩阵,Wij表示地址要素二级矩阵,Pij表示地址要素之间计算的字符相似度。
[0057] (3)计算Address1、Address2两个地址语义信息的余弦相似度。
[0058]
[0059] 式中vi,wi为Address1、Address2通过BERT模型获得的地址语义矩阵。
[0060] (4)对地址语义信息的余弦相似度与地址要素字符距离加权相似度进行相加,并归一化,得出最终的地址相似度值。
[0061]
[0062] 式中,sim1,sim2分别表示地址要素加权相似度值和地址语义余弦相似度值。
[0063] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。