几种机器学习算法的偏差以及防范 人工智能知识大全_AI知识

编辑


当人们对人工智能模型是有偏见的,他们通常意味着模型表现不好。但具有讽刺意味的是,糟糕的模型性能通常是由数据或算法中的各种实际偏差造成的。

机器学习算法是完全按照之前教学要求进行的,并且是和数学结构和训练的数据一样出色。 有成见的算法最终会做出反映这种成见的事情。

在人类构建算法并训练算法的程度上,来自人类情感的偏见将不可避免会带入人工智能模型。幸运的是,从这个词与机器学习相关的所有意义上来说,都是可以理解的。

人们需要注意和防范3种不同类型的机器学习偏差:

1、样本偏差

样本偏差是训练数据的一个问题。当用于训练模型的数据不能准确地表示模型将要运行的环境时,就会发生这种情况。实际上,在任何情况下,算法都不可能训练到它可以与之交互的整个数据领域。

但是,选择一个足够大且足够代表性以减轻样本偏差的宇宙子集是一门科学。 社会科学家是能很好的理解了这门科学,但并非所有数据科学家都接受过采样技术培训。

可以使用一个明显但说明该问题的例子,如自动驾驶汽车。如果数据科学家的目标是训练一种算法,使其能够在白天和晚上自动驾驶汽车,如果只在白天数据上训练,那么就已经在模型中引入了样本偏差。在白天和夜间数据上训练算法就可以消除样本偏差的来源。

2、测量偏差

当用于观察或测量的设备出现问题时,就会出现系统值失真。这种偏差倾向于在特定方向上扭曲数据。例如,使用带有彩色滤光片的相机拍摄训练数据图像会对每一幅图像的颜色造成相同的失真。该算法将对图像数据进行训练,这些数据系统就会无法表示它将在什么环境中工作。

仅仅通过收集更多的数据是无法避免这种偏差的。最好的方法是使用多种测量设备,以及让经过培训的人员来比较这些设备的输出。

3、算法偏差

最后一种偏差与数据无关。  在机器学习中,偏差是算法的数学属性。 在这种情况下偏向的对应物是差异。

高偏差模型可以很容易的适应训练数据,且复杂度高,但对噪声敏感。另一方面,高偏差的模型更加刚性,对数据和噪声的变化不敏感,并且容易忽略复杂性。重要的是,数据科学家经过训练,能够在这两种特性之间达到适当的平衡。

理解以上三种人工智能偏差的数据科学家将会产生出更好的模型和更好的训练数据。人工智能算法是由人类构建的,训练数据由人工组装、清理、标记和注释。数据科学家需要敏锐地意识到这些偏差,以及如何通过一致的、迭代的方法、持续测试模型,以及通过引入训练有素的人员来提供帮助,以此来避免这些偏差。