Python模糊匹配列表性能中的字符串
家电修理 2023-07-16 19:17www.caominkang.com电器维修
编写矢量化操作并避免循环可显着提高速度
导入必要的包裹
from fuzzyuzzy import fuzzimport pandas as pdimport numpy as np
从第一个列表创建数据框
dataframecolumn = pd.Dataframe(["apple","tb"])dataframecolumn.columns = ['Match']
从第二个列表创建数据框
pare = pd.Dataframe(["adfad","apple","asple","tab"])pare.columns = ['pare']
合并-通过引入密钥(自加入)的笛卡尔积
dataframecolumn['Key'] = 1pare['Key'] = 1bined_dataframe = dataframecolumn.merge(pare,on="Key",ho="left")bined_dataframe = bined_dataframe[~(bined_dataframe.Match==bined_dataframe.pare)]
向量化
def partial_match(x,y): return(fuzz.ratio(x,y))partial_match_vector = np.vectorize(partial_match)
使用矢量化并通过在阈值上设置阈值来获得期望的结果
bined_dataframe['score']=partial_match_vector(bined_dataframe['Match'],bined_dataframe['pare'])bined_dataframe = bined_dataframe[bined_dataframe.score>=80]
结果
+--------+-----+--------+------+| Match | Key | pare | score+--------+-----+--------+------+| apple | 1 | asple | 80| tb | 1 | tab | 80+--------+-----+--------+------+
空调维修
- 海信电视维修站 海信电视维修站点
- 格兰仕空调售后电话 格兰仕空调维修售后服务电
- 家电售后服务 家电售后服务流程
- 华扬太阳能维修 华扬太阳能维修收费标准表
- 三菱电机空调维修 三菱电机空调维修费用高吗
- 美的燃气灶维修 美的燃气灶维修收费标准明细
- 科龙空调售后服务 科龙空调售后服务网点
- 华帝热水器维修 华帝热水器维修常见故障
- 康泉热水器维修 康泉热水器维修故障
- 华凌冰箱维修电话 华凌冰箱维修点电话
- 海尔维修站 海尔维修站点地址在哪里
- 北京海信空调维修 北京海信空调售后服务
- 科龙空调维修 科龙空调维修故障
- 皇明太阳能售后 皇明太阳能售后维修点
- 海信冰箱售后服务 海信冰箱售后服务热线电话
- 海尔热水器服务热线