Python模糊匹配列表性能中的字符串
家电修理 2023-07-16 19:17www.caominkang.com电器维修
编写矢量化操作并避免循环可显着提高速度
导入必要的包裹
from fuzzyuzzy import fuzzimport pandas as pdimport numpy as np
从第一个列表创建数据框
dataframecolumn = pd.Dataframe(["apple","tb"])dataframecolumn.columns = ['Match']
从第二个列表创建数据框
pare = pd.Dataframe(["adfad","apple","asple","tab"])pare.columns = ['pare']
合并-通过引入密钥(自加入)的笛卡尔积
dataframecolumn['Key'] = 1pare['Key'] = 1bined_dataframe = dataframecolumn.merge(pare,on="Key",ho="left")bined_dataframe = bined_dataframe[~(bined_dataframe.Match==bined_dataframe.pare)]
向量化
def partial_match(x,y): return(fuzz.ratio(x,y))partial_match_vector = np.vectorize(partial_match)
使用矢量化并通过在阈值上设置阈值来获得期望的结果
bined_dataframe['score']=partial_match_vector(bined_dataframe['Match'],bined_dataframe['pare'])bined_dataframe = bined_dataframe[bined_dataframe.score>=80]
结果
+--------+-----+--------+------+| Match | Key | pare | score+--------+-----+--------+------+| apple | 1 | asple | 80| tb | 1 | tab | 80+--------+-----+--------+------+
空调维修
- 温岭冰箱全国统一服务热线-全国统一人工【7X2
- 荆州速热热水器维修(荆州热水器维修)
- 昆山热水器故障码5ER-昆山热水器故障码26
- 温岭洗衣机24小时服务电话—(7X24小时)登记报
- 统帅热水器售后维修服务电话—— (7X24小时)登
- 阳江中央空调统一电话热线-阳江空调官方售后电
- 乌鲁木齐阳春燃气灶厂家服务热线
- 珠海许昌集成灶售后服务电话-全国统一人工【
- 乌鲁木齐中央空调维修服务专线-乌鲁木齐中央空
- 新沂热水器故障电话码维修-新沂热水器常见故障
- 诸城壁挂炉24小时服务热线电话
- 靖江空调24小时服务电话-——售后维修中心电话
- 空调室外滴水管维修(空调室外排水管维修)
- 九江壁挂炉400全国服务电话-(7X24小时)登记报修
- 热水器故障码f.22怎么解决-热水器f0故障解决方法
- 营口热水器售后维修服务电话—— 全国统一人工