Kaggle 2018调查:使用Waffles进行ML和DS的可访问性
上周一,Kaggle发布了2018年Kaggle ML&DS调查挑战赛的结果。 这是调查第二年发出,超过23,000名受访者完成了调查,比2017年增长了49%。 该调查包括50个问题,包括多项选择和自由形式的答案。 来自147个国家和地区的受访者参加了该活动,尽管一个问题的受访者少于50个的被标记为“其他”。 受访者主要是通过Kaggle(电子邮件列表,论坛,社交媒体)找到的。 并非每个受访者都能看到每个问题。 根据受访者是否在某个问题上选择了某个特定选项而导致不显示相关问题的情况下进行了排除。 Kaggle对该数据集提出的挑战是使用叙述和探索来讲述一个选择子集的故事。 我已经决定将重点放在ML和DS中的问责制上,即如何影响受访者和方法的偏见,模型和算法的可解释性以及能够重现自己的工作。 我选择了探索该主题的一小部分问题,因为我有兴趣了解受访者如何评价问责制措施的重要性与实践中实际发生的情况之间是否存在脱节。 让我们开始吧! 发现偏见的重要性 由于数据收集者,数据分析人员或数据本身存在偏见,可能会产生偏差。 最近的一个例子表明了这一点:亚马逊最近取消了他们的AI招聘工具,因为他们将有偏见的招聘做法纳入了他们的模型中,男人偏爱女人。 确认我们有自己知道和不知道的偏见很重要,正如以下向受访者提出的询问他们在工作中的角色的问题所表明的那样。 问题11:选择构成您的工作角色重要部分的任何活动(选择所有适用项): 选择:…