技术领域
[0001] 本发明涉及全国地址归一化领域,尤其涉及一种基于自训练地址切分模型的全国地址归一化方法。
相关背景技术
[0002] 随着我国数字城市和智慧城市的开展,相关部门采集并积累了大量的地址数据,大量行业和个人信息需要通过地址匹配服务实现空间表达,从而实现与地理数据的融合和大数据分析应用。但是,不同部门的地址数据组织结构多样,缺乏统一的标准,不利于地址的共享服务。因此,地址数据归一化已成为地址广泛应用的迫切需要,也是标准地址库建设急需解决的问题。传统的地址归一化方法多是利用中文地址分词与词典结合最大正向匹配算法或最大逆向匹配算法进行地址要素分词,这种地址要素分词方法在一定程度上会产生语义歧义问题,如“南京大学”中的“南京”会被切成地址要素市(city)。另外,传统的地址归一化方法没有对地址进行融合,对于表述不一的地址无法整合成一条标准地址,如“江苏省南京市建邺区沙洲街道云龙山路88号”、“江苏省南京市建邺区烽火科技”、“江苏省南京市建邺区沙洲街道烽火科技大厦”、“云龙山路88号烽火科技”无法整合成一条标准地址“江苏省南京市建邺区沙洲街道云龙山路88号烽火科技大厦”。
具体实施方式
[0038] 下面结合附图对本发明的技术方案做进一步的详细说明:
[0039] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040] 一种基于自训练地址切分模型的全国地址归一化方法,如图1所示,具体包含如下步骤;
[0041] 步骤1,采集互联网和相关部门的地址数据;
[0042] 步骤2,对步骤1采集的互联网和相关部门的地址数据进行预处理,其中,预处理具体包含地址数据特征分析、自训练模型切词、地址融合和地址存储四部分;
[0043] 步骤3,利用步骤2中融合好的地址构建标准地址库;
[0044] 步骤4,基于步骤3构建的标准地址库,提供地址归一化接口,实现地址规范、地址补全和地址纠偏。
[0045] 首先,通过对收集的各种数据源地址进行特征分析,将地址定义为不同的地址要素:省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息。
[0046] 如图2所示,采用自训练的BERT预训练模型+BI‑LSTM+CRF训练地址要素切词模型,其中训练地址的采集和构造过程中遵守两个原则:A.地址的普适性;B.各类地址的均衡性,并且最终模型的产生则遵守‘多轮迭代’原则,每轮迭代都会根据人工验证过程中模型切错的地址,构造相应的新地址,再添加到训练集中重新训练,最后选取准确率最高的模型作为最终模型。用最终保留的模型(准确率最高的模型)对地址进行地址要素切词。接下来,针对切词后的地址,提取8个地址要素:省、市、区、街道、村、路、路号和标志性建筑物landmark,然后进行地址融合,忽略原始地址中的与标志性建筑物并列的建筑物、兴趣点、户室和其他,融合后的地址中增加一个landmark_search字段,作为标志性建筑物landmark字段的不同写法补充字段,如landmark为“烽火科技大厦”的记录中,landmark_search字段是“烽火科技”和“烽火大厦”,以及这两中写法出现的频次。然后,利用融合后的地址构建标准地址库;最后,基于已经构建完成的标准地址库,提供地址规范、补全和纠偏的服务。
[0047] 对多源的地址数据制定统一的标准,构建标准地址库,提供地址规范、补全和纠偏的服务,来实现多源地址数据的归一化。首先,采集互联网和相关部门的地址数据;然后,对数据进行一系列的处理;最后,利用融合好的地址构建标准地址库,其中,地址的一系列处理步骤可以依次分为:地址数据特征分析、自训练模型切词(BERT预训练模型+BI‑LSTM+CRF模型进行地址要素切词)、地址融合和地址存储四个子模块。最后,基于构建的标准地址库,提供地址归一化接口,实现地址规范、补全和纠偏功能。具体实现方法步骤如下:
[0048] 采集互联网和相关部门的地址数据;
[0049] 对采集到的多源地址数据,进行特征分析,将地址定义不同的地址要素:省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和其他;
[0050] 如图2所示,训练BERT预训练模型+BI‑LSTM+CRF模型进行地址要素切词,之所以把该模型称为自训练模型,是因为在训练切词模型的过程中,对输入的训练数据进行了精心的挑选。挑选的过程中,严格遵守两个原则:A.地址的普适性,收集的地址会来自不同的机构,可能会携带一定的结构特点,如果不加以考虑会降低模型的鲁棒性,而人工标注的地址数据则充分考虑这个原则后提取出的;B.各类地址的均衡性(不同类的地址指的是:拥有地址要素级别序列不同的地址),若训练数据的结构太单一,会降低模型的泛化能力,在构造每类级别的地址数量时,则直接根据人工标注的地址比例生产数据。最终模型的产生则是‘多轮迭代’后最优的模型(最终模型的产出至少需要3轮迭代),训练模型的过程中,涉及到很多重要的参数,比如构造数据的数量等等,针对这些参数会按照格搜索找到相对最优解,并且会对每轮训练的模型进行人工验证,均保留切错的实例,并且根据实例构造相应的地址,让模型能够加强训练学习到该类地址的切词能力。
[0051] 切词模型的大致流程如下:首先,制定标注规范;接下来,根据标注规范,人工标注一定数量地址作为模型的原始训练数据,人工标注是指将原始地址数据按照地址要素的定义进行分词和标记;如图4所示,人工标注数据格式示意图,然后,统计出人工标注数据的地址要素级别序列,最后根据统计出的地址要素级别序列,根据不同地址要素级别序列的比列,成倍的构造一定数额的标注好的训练数据。然后把构造的已标注的训练数据+原始人工标注的训练数据=训练数据,把其按照训练集、测试集和验证集划分,进行地址要素切词模型训练,最终选取切词准确率最高的作为最终的模型。
[0052] 对采集到的多源地址数据利用训练好的地址要素切词模型进行地址分词,原始地址被分为12个地址要素:省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息。
[0053] 设定规则,过滤掉分词后的地址数据中无价值或者错误的地址,如地址中出现省市区对应关系错误的和不存在的省市等等;
[0054] 对过滤后较为纯净的地址数据,采用规则和投票机制进行地址融合,地址融合提取8个地址要素:省、市、区、街道、村、路、路号和标志性建筑物landmark,忽略原始地址中的与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关信息四个地址要素,融合后的地址中增加一个landmark_search字段,landmark_search是一个字典,记录同一个landmark不同的写法以及该写法对应的频数;
[0055] 利用融合后的8级地址要素的地址构建标准地址库;
[0056] 基于标准地址库,提供地址归一化服务,用户输入待归一化的原始数据地址;
[0057] 如图3所示,对原始地址进行预处理,包含:规范数字的写法,统一成全半角写法,去掉地址中存在的非法字符;
[0058] 对预处理后的地址进行地址要素切词:省、市、区、街道、村、路、路号、标志性建筑物、与标志性建筑物并列的建筑物、兴趣点、户室和与地址无关的信息;
[0059] 将切词后的地址数据分为两部分,第一部分包括:省、市、区、街道、村、路、路号和标志性建筑物,第二部分包括:兴趣点和户室;
[0060] 针对第一部分数据判断标准地址库中是否存在当前地址的标志性建筑物,如果存在,且符合推荐规则,将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
[0061] 如果标准地址库中不存在当前地址的标志性建筑物,判断标准地址库中是否存在当前地址的路和路号,如果存在,且符合推荐规则,将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
[0062] 如果标准地址库中不存在当前地址的路和路号,判断标准地址库中是否存在当前地址的路,如果存在,且符合推荐规则,将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户;
[0063] 同样按照上述方法,依次对当前地址的村、街道、镇、区和市进行判断,如果存在,且符合推荐规则,将地址库中匹配到的推荐度最高的8级地址要素的标准数据与输入数据的第二部分合并,将合并后的结果返回给用户,如果直到当前地址的市都不存在,那么告诉用户该条地址无法归一化。
[0064] 本发明对多源的地址数据制定统一的标准,构建标准地址库,提供地址规范、补全和纠偏的服务,来实现多源地址数据的归一化。具体效果如下:采用自训练切词模型前后效果对比如表1所示,自训练切词的效率是每切1w条需要48s,硬件环境:E5‑2697cpu.512G内存,1080TiGPU。
[0065] 表1
[0066]
[0067] 基于南京市标准地址库的归一化测试结果如表2,分别用从水、电和燃气采集的地址进行归一化,平均归一化率可达81.8%,并且从这三类可归一化的地址中分别随机抽取500条地址,进行人工验证归一化的准确率,平均准确率可达93.27%具体结果如表3所示:
[0068] 表2
[0069]地址类型 可归一化量 总地址量 可归一化率
电力 2477750 3406445 72.73%
燃气 1681555 1945562 86.43%
自来水 1651433 1915045 86.23%
[0070] 表3
[0071]地址类型 验证的地址数 正确量 准确率
电力 500 468 93.6%
燃气 500 466 93.2%
自来水 500 465 93%
[0072] 本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0073] 以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。