您的数据可能有偏,这正成为一个大问题

您的数据可能有偏,这正成为一个大问题

没有人开始有偏见,但要避免的事情比您想的要难。 维基百科列出了从权威偏见和确认偏见到Semmelweis效应的100多种书面偏见,我们有很大的趋势让事实以外的事物影响我们的判断。 我们所有人都讨厌,尽管我们不愿承认。

机器,甚至是虚拟机器,也有偏差。 它们的设计必然是要优先于某些类型的数据。 不幸的是,我们很少质疑数学模型的判断,在许多情况下,它们的偏差会弥漫和扭曲操作现实,从而产生难以消除的意外后果。

但是,数据偏向的最大问题是我们几乎不了解它,因为我们认为数据和分析是客观的。 几乎从来没有这样。 无论是好是坏,我们的机器都是我们的扩展,并继承了我们的主观判断。 随着数据和分析越来越成为我们决策的核心组成部分,我们需要更加谨慎。

想象一下,您经营一家每年雇用100名员工的企业,并且您想建立一个预测模型,该模型可以告诉您应将重点放在哪些大学上。 一种看似合理的方法是检查您过去在哪里招聘过人员以及他们的表现如何。 然后,您可以集中精力从表现最好的学校招聘人才。

从表面上看,这似乎是有道理的,但是如果仔细看,它本身就是有缺陷的。 首先,分布在十几所大学中的100名学生远没有统计上的意义。 第二。 不难看出,来自一所学校的一两个杰出人物或愚蠢人物将如何严重扭曲结果。

一个相关的问题是统计学家所说的过度拟合,这基本上意味着,由于每个数据集都有偏差的元素,我们越具体地为过去定制预测模型,就越不可能反映未来。 换句话说,您使模型适合数据的详细程度越高,预测可能就越差。

这似乎违反直觉,这就是为什么过度拟合如此普遍的原因。 销售预测性软件的人喜欢说诸如“我们的模型已被证明是99.8%的准确性”之类的话,即使这通常表明他们的产品实际上不如80%的产品可靠。准确,但更简单,更强大。

对于人类,我们会谨慎地构建学习环境。 我们设计课程,仔细选择教材,讲师和学生,以尝试正确地结合信息和社会动力。 我们会遇到所有麻烦,因为我们知道我们创造的环境会极大地影响学习体验。

机器也有一个称为“语料库”的学习环境。例如,如果您想教一种识别猫的算法,则可以将其暴露给成千上万张猫的图片。 最终,它弄清楚了如何分辨猫和狗之间的区别。 就像人类一样,通过学习这些经验,算法变得有用。

发表于7wData.be。