excel学习库-PowerBI中如何实现高性能的模糊词根匹配

特别说名：模糊匹配并不是适用于一个常规且常用的方法，但是在一些既定场合，或者既定行业又不得不去做这类分析，模糊匹配最早我分享过Lookup+find的方法实现，最后PowerBI上线后有分享过使用dax实现的方法，很多小伙伴在雷公子的讨论群里想了解如如何通过PowerQuery数据处理的阶段就能实现这个过程，今天雷公子就给大家简单展开介绍下吧！先看下原始数据及实现效果原始数据1-关键词列：

原始数据2-关键词词根：

（原始词根有300多行）实现效果：

几点说明： 1、模糊词根本身就是一个笛卡尔积式的数据裂变，例如，10000行原始数据，100行词根，做完这个匹配其实就需要计算100万次，所以一般方法匹配会效率低，数据量大，表格会卡死，或者刷新特别慢 2、所以本文会介绍两种方法，一种简单易些，但是效率低；另一种，看似复杂，实际上自己套用，但是性能相对高很多的方法方法1：简单但缺效率的方法使用场景：关键词1万行以内，词根100以内的场景 1、加载关键词及词根数据至PowerBI2、在关键词表中添加列，输入：Table.SelectRows(Dim地域词根,(x)=>Text.Contains([关键词],x[地域词根])){0}?

3、展开词根列即可方法说明：红色圈起来的都是Dim地域词根的列，其余是关键词表的列，类似在每一个行添加一个词根表，对表就行筛选，必须符合<地域词根包含在关键词中>，筛选出来，然后{0}是取符合条件的第一行，如果需要列出所有符合的词根，则可以删除{0}，最后一个”?”是为了容错，实际使用中也可以忽略，就是后期需要做一步替换错误的操作。方法2：复杂高效的方式使用场景，几十万/上百万关键词，几千甚至1万的词根，具体还要看自己硬件的性能 1、加载关键词及词根数据至PowerBI2、点击公式栏旁边的fx，输入如下公式： = [ 数据 = List.Buffer(Table.ToRecords(源)), 地域词根 = List.Buffer(Table.ToRecords(Dim地域词根)), result = List.Transform( 数据,(x)=>[ 关键词=x[关键词], 地域词根 = List.Select(地域词根, each Text.Contains(x[关键词],_[地域词根])){0}?] ), table = Table.FromRecords(result) ][table]

3、展开上一步操作即可完成PS：有没有被那么长的公式吓到呢？雷公子就给大家简单解读下方法说明：此方法是把两个表加载至内存中进行，所以性能比较高，处理数据量大的表格效率也特别高，其实看不懂，没有一点点关系，雷公子几句话教会你怎么使用 1、公式中的黄色框的部分，两者必须保持一致2、公式中红色部分为词根表及要匹配的词根所在的列3、公式中蓝色部分为关键词表中的关键词列的列名称，如果你的列名也叫关键词，则无需修改是不是比较简单？通过这个案例给大家一个提醒，就是我们在学习过程中，可以把一些复杂的问题封装为模块，在需要使用的时候直接拿来调用，更改参数即可，当然这个功能，我们也可以封装为自定义函数，未来有机会再给大家介绍，欢迎大家持续关注【Powerbipro】，powerbi.cc，了解学习更多powerbi相关知识。历史文章参考： Excel多条件查找(LOOKUP的使用揭秘) 如何在Excel插件PowerPivot中实现词根模糊匹配文章示例文件下载请关注回复：P01，或者添加Q，搜索P01下载

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

PowerBI中如何实现高性能的模糊词根匹配2024-02-28 10:48:29