LLM还能拿来做异常检测
创始人
2024-11-19 13:05:37

我从csdn上一路找原文章找到了这一篇

它使用distilbert-base-uncased这个模型给表格数据做文本embedding,并且期望这个LLM已经蕴含了合理的房产相关信息,因此对于没见过的异常房产信息,一定会产生一个与大多数信息embedding都不一样的embedding。

这是它的代码

具体来说,对于以下图中的表格房产数据,先转成自然语言。
在这里插入图片描述
然后扔进前面提到的大模型,distilbert-base-uncased,从名字也能看出来是bert的蒸馏模型。

收集一堆embedding后,假设我们已经有了一批好数据,则在UMAP降维算法的帮助下,能够轻易地把好数据的分布可视化,而且聚类也很好做,就找到了一堆聚类中心。

如何检测异常呢?一条数据来了,它可能和所有聚类中心都距离很远,这就不对劲了。

这是他的实验结果在这里插入图片描述
使用2%的异常数据,Anom Quantile置信度0.55,异常列大概意思是随机选4列变成异常值?总之最后性能极好。

相关内容

热门资讯

刚刚,Claude最新功能泄露... 新智元报道 编辑:定慧 大卫 【新智元导读】2026年5月4日,testingcatalog在An...
高分辨大宽带集成光子光谱仪成功... 麦姆斯咨询获悉,近日,中国科学院南京天文光学技术研究所天文光子学团队在面向天文观测的高分辨大宽带集成...
性价比高又稳定的云手机哪个好?... 作为搬了4年砖、踩过无数云手机坑的老玩家,今天直接给你们唠唠性价比高又稳定的云手机选法,全是实战干货...
以灵石破局,万物云参编国内首部... 4月23日,由低碳智慧建筑产业技术创新战略联盟与北京清华同衡规划设计研究院有限公司主办、万物云作为协...
专访 | CLA成功反哺全球 ... 2026年,是奔驰诞生的140周年,也是奔驰进入中国内地市场的20周年。 140年间,从第一款汽车问...