上周一,Kaggle发布了2018年Kaggle ML&DS调查挑战赛的结果。 这是调查第二年发出,超过23,000名受访者完成了调查,比2017年增长了49%。
该调查包括50个问题,包括多项选择和自由形式的答案。 来自147个国家和地区的受访者参加了该活动,尽管一个问题的受访者少于50个的被标记为“其他”。
受访者主要是通过Kaggle(电子邮件列表,论坛,社交媒体)找到的。
并非每个受访者都能看到每个问题。 根据受访者是否在某个问题上选择了某个特定选项而导致不显示相关问题的情况下进行了排除。
Kaggle对该数据集提出的挑战是使用叙述和探索来讲述一个选择子集的故事。 我已经决定将重点放在ML和DS中的问责制上,即如何影响受访者和方法的偏见,模型和算法的可解释性以及能够重现自己的工作。
我选择了探索该主题的一小部分问题,因为我有兴趣了解受访者如何评价问责制措施的重要性与实践中实际发生的情况之间是否存在脱节。
让我们开始吧!

发现偏见的重要性
由于数据收集者,数据分析人员或数据本身存在偏见,可能会产生偏差。 最近的一个例子表明了这一点:亚马逊最近取消了他们的AI招聘工具,因为他们将有偏见的招聘做法纳入了他们的模型中,男人偏爱女人。 确认我们有自己知道和不知道的偏见很重要,正如以下向受访者提出的询问他们在工作中的角色的问题所表明的那样。
问题11:选择构成您的工作角色重要部分的任何活动(选择所有适用项):
选择:
- 分析和理解数据以影响产品或业务决策
- 构建和/或运行可改善我的产品或工作流程的机器学习服务
- 建立和/或运行我的企业用于存储,分析和操作数据的数据基础架构
- 建立原型以探索将机器学习应用于新领域
- 做研究以提高机器学习的最新水平
- 这些活动都不是我在工作中扮演的重要角色
- 其他

从上表可以看出,相当多的受访者(40%)分析和理解数据会影响产品和业务决策。 这就是为什么将偏见作为分析的一部分如此重要的原因。 实际上,无论是构建机器学习服务还是进行研究以促进行业发展,每个活动都应考虑偏见。
用于确定模型是否成功的指标
问题41,第1部分:您如何看待以下主题的重要性? —机器学习算法中的公平性和偏见
选择 :
- 很重要
- 稍微重要
- 一点都不重要
- 没有意见; 我不知道
- 没回答


大多数受访者(36%)认为机器学习模型中的公平性和偏见非常重要。 令我感到惊讶的是,考虑到在ML / DS中不缺少在一个阶段或另一个阶段出现偏见的方法,有19%的用户只觉得这个主题有些重要。 即使我们考虑本次调查,受访者仍来自Kaggle渠道,但不包括更广泛的数据科学界。 语言障碍也可能在影响用户是否选择回答调查问卷,或者难以理解所要询问的内容。 甚至我选择将重点放在本次调查的多项选择问题上,而不是查看自由格式的答案!
要查看偏见如何在您的算法中隐藏的示例,请阅读这篇有用的文章。
发现偏差的时间百分比
问题43:您大约有百分之几的数据项目涉及探索数据集和/或算法中的不公平偏见?
答案: 0–100%的时间花费在探索偏见上。


尽管大多数受访者认为偏见是一个重要的话题,但很少有人花很多时间将其作为探索的一部分。 原因可能有很多。 下一个问题可能使我们对为什么更多的受访者没有花更多的时间来发现偏见有所了解。
是什么使得确保算法公平且无偏难?
问题44:对于确保算法公正无偏,您发现最困难的是什么(选择所有适用的方法)
选择 :
- 收集数据的个人与分析数据的个人之间缺乏沟通
- 难以确定目标不明确的群体
- 收集有关群体的数据可能很困难,这些群体可能会受到不公平的针对
- 难以确定和选择适当的评估指标
- 我从没有发现任何困难
- 我从未执行过此任务


在所有答案中,除了2%的人在发现偏见方面没有发现任何困难(我想知道你们是如何做到的!)的事实之外,结果几乎是均匀的。 19%的用户从未执行过此任务,这比我预期的要高得多。
有趣的是,四分之一的受访者很难收集到足够多的关于可能被不公平地作为目标的群体的数据,这比实际识别这些群体的困难更大。 如果我们回到亚马逊的文章,数据集中女性雇员的缺乏是导致公司最终模式不佳的一个因素。 显然,这不仅对人类群体如此,而且在我们班级不平衡的任何情况下(自然灾害,罕见疾病等)
虽然有一些方法可以解决不平衡问题。 本文为我们提供了一些不错的想法。
偏见重要性的看法会随着人的教育,角色,行业或经验而改变吗?
简短的回答:不!
长答案:
为了了解有多少受访者对基于这些描述符看待偏见和公平的重要性做出了回应,我使用了可爱的vcd包创建了一个表格,该表格将标称变量交叉列出。 我还计算了Cramer的V,以查看用户如何回答两个问题之间的关联强度 。 教育,行业,角色和经验与受访者如何看重偏见和公平之间的联系非常薄弱。 对于此示例,Cramer的V为0.04。 从0到1的比例相当低!

PS这是一个双层图,我无法弄清楚如何很好地显示上面的表格。

年龄或性别如何?
当我查看Cramer的V值(分别为0.044和0.053)时,关联仍然非常弱。 在大多数人中,没有年龄组或特定性别的人同意算法中的偏见主题非常重要。
我们可以计算偏见与诸如受访者的位置,专业,所处理的数据类型之类的东西之间的各种关系的规模缩减效应,这些最终可能会导致更高的关联性,但我现在将不谈(现在! )。

可解释性的重要性
问题41第2部分:您如何看待以下主题的重要性? -能够解释机器学习模型的输出和/或预测(对非常重要没有意见)


如您所见,大多数受访者认为能够解释输出结果/预测的能力非常重要。 没什么奇怪的!
我们在什么阶段探索模型洞察力并解释预测?
问题45:在什么情况下您会探索模型的见解并解释模型的预测? (选择所有符合条件的)
选择:
- 仅针对已经生产的非常重要的型号
- 对于所有模型,在将模型投入生产之前
- 在确定将模型投入生产是否值得时
- 首次探索新的ML模型或数据集时
- 我不会探索和解释模型的见解和预测


当用户决定探索模式的见解和预测时,我们在各个方面的分配相当平均。 由于用户可以选择多个选项,因此我们可以感觉到,发生这种情况的阶段会视情况而定。 对于未来的研究,我们可以找出受访者认为相关的平均情况。
解释见解的方法
问题47:您希望采用哪种方法来解释和/或解释ML模型做出的决策? (选择所有符合条件的)
选择 :
- 绘制预测结果与实际结果
- 检查功能重要性
- 检查特征关联
- 降维技术
- 打印出决策树
- 检查单个模型系数
- 绘制决策边界
- 灵敏度分析/扰动重要性
- 创建部分依赖图
- 注意映射/显着性映射
- LIME功能
- SHAP功能
- ELI5功能
- 其他
- 无/我不使用这些模型解释技术


受访者解释或解释模型的前三种方式是通过功能重要性,相关性以及查看预测结果与实际结果。 同样,我很好奇看到受访者使用的平均方法数量,如果选择一种方法意味着选择另一种方法的可能性增加了!
ML模型是黑匣子吗?
问题48:您是否认为ML模型是“黑匣子”,其输出难以解释或无法解释?
选择 :
- 我相信我可以解释大多数(如果不是全部)ML模型的输出
- 我相信我可以理解和解释许多但不是全部ML模型的输出
- 我将机器学习模型视为“黑匣子”,但我相信专家能够解释模型输出
- 是的,大多数机器学习模型都是“黑匣子”
- 我不知道; 我对此事没有意见


令人惊讶的是,DNA占所有受访者的44%。 这是一个非常高的数字,因为大约有6%的人说他们没有使用任何方法来解释模型。

重现性的重要性
问题41第3部分:您如何看待以下主题的重要性? —数据科学的可重复性? (没有意见很重要)


回答此问题的大多数用户都同意可重复性是DS的重要组成部分。
哪些工具可用于再现性?
问题49:您使用什么工具和方法来简化作品的复制? (选择所有符合条件的)
选择 :
- 使用虚拟机(VirtualBox等)共享代码,数据和环境
- 使用容器(Docker等)共享数据,代码和环境
- 使用托管服务(Kaggle Kernels,Google Colaboratory,Amazon SageMaker等)共享数据,代码和环境。
- 定义相对而非绝对文件路径
- 包括描述所有依赖项的文本文件
- 在Github或类似的代码共享存储库上共享数据和代码
- 定义所有随机种子
- 在Github或类似的代码共享存储库上共享代码
- 确保代码是人类可读的
- 确保代码记录正确
- 其他
- 无/我不方便他人复制自己的作品


看来,通过使文档和可读代码使人类可以理解代码,可以对受访者有所帮助。 考虑到文档是选择获胜者的因素之一,这对本竞赛是个好消息😉我很惊讶地发现考虑到我们在Kaggle上,更多的受访者没有选择共享! 也许我们会在下一个问题中找到答案。
哪些障碍阻止了可重复性/可重复使用性?
问题50 :哪些障碍阻止了可重复性/可重复使用性? (选择所有符合条件的)
选择 :
- 太贵了
- 害怕别人会在没有给予应有信誉的情况下使用我的作品
- 需要太多的技术知识
- 没有足够的动力来分享我的工作
- 太费时间
- 我从未考虑过让别人更容易复制自己的作品
- 这些原因都不适合我
- 其他


绝大多数用户认为创建可重复性/可重用性的最大障碍是花费时间。 考虑到受访者选择了文档并使其具有可读性,因此我认为这是一个有趣的选择。 有一个名为roxygen2的R软件包,可以使感兴趣的人更轻松地进行操作。
我认为看到18%的受访者认为自己没有足够的动力来分享他们的工作非常有趣,而13%的受访者认为这样做需要太多的技术知识。 我想知道更多关于这两个群体的知识,以及缺少哪些激励和知识。

问责制的重要性
我从这个数据集中学到了很多! 因此,无论我们是否意识到,我们都将在思考如何才能使所有人都对查看数据的方式以及如何创建模型和算法产生偏见。 有趣的是,在内核的每个阶段都在考虑这一点,以及根据受访者的构成,我自己的假设等等,调查可以告诉我的内容如何受到限制。 我希望这可以帮助Kagglers对我们在工作中承担的责任进行更多思考,并确保我们在做任何事情时都考虑偏见,可解释性和可重复性。
参考文献
- 亚马逊取消了秘密的人工智能招聘工具,该工具显示出对女性的偏见— 路透社杰弗里·达斯汀 ( Jeffrey Dastin)
- 您的算法中可能隐藏的5个鬼S的偏见 — Hillary Haley,Oracle + Datascience.com
- 打击机器学习数据集中不平衡课堂的8种策略— Jason Brownlee , 机器学习过程
- roxygen2简介— Hadley Wickam
我喜欢使用的软件包
- 华夫饼当然!
- VCD
- ggmosaic(我最终没有将其用于分析,而是使用了双层,但这对于查看标称v标称值很有用)
- colorRampPalette()—当然,这是一个函数,而不是程序包,但是对于希望为其报告指定颜色主题并且需要为不同图表使用不同数量的颜色的人来说,这很有用。
谢谢阅读!
