离群值概念的演变
现代数据科学彻底改变了我们理解异常值的方式,将异常值从仅仅是需要消除的 "错误 "转变为有价值的信息来源。与此同时,马尔科姆离群者:成功的故事"一书为我们提供了一个互补的视角,将人类的成功视为一种统计上的反常但有意义的现象。
从简单工具到复杂方法
在传统统计学中,离群值是通过相对简单的方法识别的,例如 箱形图、Z 值(衡量一个值偏离平均值的程度)和四分位数间距 (IQR) 等相对简单的方法来识别异常值。
这些方法虽然有用,但也有很大的局限性。只需一个离群值就能完全扭曲线性回归模型--例如,将斜率从 2 增加到 10。 这使得传统的统计模型在现实世界中很容易受到影响。
机器学习引入了更复杂的方法来克服这些限制:
- 隔离林:一种通过构建随机决策树来 "隔离 "异常值的算法。离群点的分离速度往往比正常点快,所需的划分次数也更少。
- 局部离群因子:该方法分析每个点周围的局部密度。与邻近点相比,密度较低区域内的点被视为离群点。
- 自动编码器:学习压缩和重建正常数据的神经网络。当某个点难以重建(产生高误差)时,就会被认为是异常点。
现实世界中的异常值类型
La 数据科学将异常值分为不同类别,每一类都有独特的含义:
- 全球离群值:与整个数据集相比明显偏离比例的数值,如热带气候中记录到的零下 10 摄氏度的温度。
- 上下文异常值:在一般情况下看似正常,但在特定背景下却成为异常值的数值。例如,低收入社区的 1000 欧元支出或凌晨 3 点突然增加的网络流量。
- 集体异常值:集合在一起显示异常行为的一组数值。一个典型的例子就是网络流量中的同步峰值,它可能预示着网络攻击。
与格拉德威尔成功理论的相似之处
一万小时规则 "及其限制
格拉德威尔在书中提出了著名的 "10,000 小时法则",认为专业知识需要这种特定数量的刻意练习。他举例说,比尔-盖茨在十几岁时就有机会接触电脑终端,积累了宝贵的编程时间。
这一理论虽然引人入胜,但随着时间的推移也饱受批评。正如保罗-麦卡特尼所言:"有很多乐队在汉堡练习了一万个小时,却没有取得成功,所以这并不是一个万无一失的理论。"
一些作者和学者对这一规则背后的概念本身提出了质疑,我们自己也对这一理论的有效性或其普遍性表示强烈怀疑。对于那些有兴趣探讨本书所涉及问题的人,我指出 这个例子但如果你感兴趣,还可以找到更多。
同样,在数据科学领域,我们已经意识到,重要的不仅是数据的数量,还有数据的质量和背景。算法不会因为数据越多而自动变得越好,它需要对上下文的理解和适当的质量。
文化背景的重要性
格拉德威尔强调了文化如何深刻影响成功的概率。例如,他论述了亚洲稻农的后代往往在数学方面出类拔萃,这不是因为遗传原因,而是因为语言和文化因素:
- 中文数字系统更直观,数字发音所需的音节更少
- 水稻种植与西方农业不同,需要不断艰苦地改进现有技术,而不是扩展到新的土地上
这种文化观察与现代数据科学中根据上下文处理异常值的方法产生了共鸣。正如一个值在某种情况下可能是异常的,但在另一种情况下则可能是正常的,成功也是与具体情况密切相关的。
缓解策略:我们能做些什么?
在现代数据科学中、 不同的策略不同的策略来处理异常值:
- 删除:只有明显错误(如负年龄)才有理由删除,但有风险,因为可能会删除重要信号
- 转换:"胜数化"(用不太极端的值替代极端值)等技术可通过减少扭曲影响来保存数据
- 算法选择:使用对异常值具有内在鲁棒性的模型,如随机森林,而不是线性回归
- 生成式修复:使用 GAN(生成式对抗网络)等先进技术,为异常值合成可信的替代物
机器学习和人工智能中异常值检测的真实案例研究
最近,离群值和异常点检测方法的应用从根本上改变了各行业组织识别异常模式的方式:
银行和保险
.png)
一个特别有趣的案例研究涉及基于强化学习的离群点检测技术在荷兰保险和养老基金报告的细粒度数据分析中的应用。根据偿付能力 II 和 FTK 监管框架,这些金融机构必须提交需要仔细验证的大型数据集。研究人员开发了一种集合方法,该方法结合了多种离群点检测算法,包括四分位距分析、近邻距离度量和局部离群点因子计算,并通过强化学习来优化集合权重。.1.
与传统的统计方法相比,该系统有了显著的改进,每核实一个异常点,就能不断完善其检测能力,这使其在核查成本高昂的监管监督领域尤为重要。这种自适应方法解决了数据模式随时间不断变化的难题,最大限度地利用了以前验证过的异常情况,提高了未来检测的准确性。
在另一项值得注意的实施中,一家银行实施了一个综合异常检测系统,该系统将客户行为的历史数据与先进的机器学习算法相结合,以识别潜在的欺诈交易。该系统对交易模式进行监控,以发现偏离既定客户行为的情况,如活动的突然地域变化或非典型的消费额。.5.
这次实施尤其值得注意,因为它体现了从被动防范欺诈到主动防范欺诈的转变。据报道,英国金融业通过在所有银行业务中实施类似的实时异常检测系统,挽回了约 18% 的潜在损失。这种方法使金融机构能够立即停止可疑交易,同时标记出需要进一步调查的账户,有效地防止了重大经济损失的发生。.3
研究人员开发并评估了一种基于机器学习的异常检测算法,该算法专为验证多个神经科学登记处的临床研究数据而设计。研究表明,该算法能有效识别因注意力不集中、系统误差或故意捏造数值而导致的数据异常模式。.4.
研究人员评估了几种距离度量,发现堪培拉、曼哈顿和马哈拉诺比斯距离计算的组合能提供最佳性能。在对独立数据集进行验证时,该实施方案达到了 85% 以上的检测灵敏度,成为临床研究中维护数据完整性的重要工具。本案例说明了异常检测如何有助于循证医学,确保临床试验和登记中尽可能高的数据质量。.4.
该系统展示了其普遍适用性,表明除了用于原始神经科学登记册的系统外,该系统还有可能应用于其他电子数据采集(EDC)系统。这种适应性凸显了精心设计的异常检测方法在不同健康数据管理平台之间的可移植性。
制造业
.png)
制造公司已经采用了先进的基于机器视觉的异常检测系统来识别制造部件中的缺陷。这些系统利用图像识别算法和在包含缺陷和非缺陷示例的大型数据集上训练的机器学习模型,对生产线上数以千计的类似部件进行检测。.3
与人工检测流程相比,这些系统的实际应用是一项重大进步。通过检测与既定标准的最小偏差,这些异常检测系统可以发现潜在的缺陷,否则这些缺陷可能不会被发现。这种能力对于部件故障可能导致灾难性后果的行业尤为重要,例如航空航天制造业,一个故障部件就有可能导致飞机事故。.
除了部件检测,制造商还将故障检测扩展到机器本身。这些设备可持续监控发动机温度和燃料水平等运行参数,以便在导致停产或安全风险之前发现潜在故障。.
各行各业的企业都已实施了基于深度学习的异常检测系统,以改变其应用性能管理方法。传统的监控方法会在问题影响运行后才做出反应,而这些实施方法则不同,它们可以识别潜在的关键问题,并在问题发生后立即做出反应。.
实施的一个重要方面涉及不同数据流与关键应用性能指标之间的关联。这些系统经过大量历史数据集的训练,能够识别表明应用程序正常运行的模式和行为。当出现偏差时,异常检测算法会在潜在问题演变成服务中断之前将其识别出来。
技术实施利用机器学习模型的能力,自动关联各种性能指标的数据,与传统的基于阈值的监控方法相比,能够更准确地识别根本原因。使用这些系统的 IT 团队可以更快地诊断和解决新出现的问题,从而大大减少应用停机时间及其对业务的影响。
EN
.png)
异常检测计算机安全实施侧重于持续监控网络流量和用户行为模式,以识别可能规避传统安全措施的入侵或异常活动的细微迹象。这些系统分析网络流量模式、用户访问行为和系统访问尝试,以检测潜在的安全威胁。
在识别基于签名的检测系统可能检测不到的新攻击模式方面,实施异常检测尤其有效。通过建立用户和系统的基线行为,异常检测可以标记出偏离这些规范的活动,这可能表明正在发生的安全漏洞。这种能力使异常检测成为现代计算机安全架构的重要组成部分,是对传统预防措施的补充。3.
从这些案例研究中可以看出几种常见的实施方法。各组织通常结合使用描述性统计和机器学习技术,并根据数据特征和潜在异常的性质选择具体方法。.2.
结论
这些真实案例研究展示了异常值和异常检测在各行各业的实用价值。从预防金融欺诈到医疗保健数据验证,从生产质量控制到 IT 系统监控,各组织都成功实施了日益复杂的检测方法,以识别值得调查的异常模式。
从纯粹的统计方法发展到基于人工智能的异常检测系统,代表着能力上的重大进步,能够更准确地识别复杂的异常模式并减少误报。随着这些技术的不断成熟和更多案例研究的出现,我们可以期待实施策略的进一步完善,并扩展到更多的应用领域。
现代数据科学建议采用混合方法处理异常值,将统计精度与机器学习的情境智能相结合:
- 使用传统统计方法对数据进行初步探索
- 采用先进的 ML 算法进行更复杂的分析
- 对排斥偏见保持道德警惕
- 针对特定领域理解什么是异常现象
正如格拉德威尔请我们把成功看作是受文化、机遇和时机影响的复杂现象一样,现代数据科学也敦促我们不要把异常值看作是简单的错误,而要把它看作是更广泛背景下的重要信号。
拥抱生活中的离群者
正如数据科学已经从将异常值视为单纯的错误转变为将其视为有价值的信息来源一样,我们也必须改变看待非常规职业的方式,即从简单的数字分析转变为更深入、更符合实际情况的成功理解。
在任何领域,成功都源于天赋、经验积累、人脉网络和文化背景的独特交汇。就像现代机器学习算法不再排除异常值,而是寻求了解异常值一样,我们也必须学会从最罕见的轨迹中发现价值。