一个尴尬的发现:
自动驾驶系统也有人群歧视。
英国伦敦国王学院的研究人员进行一项研究,通过对超过 8000 张图片检测后,发现了一个漏洞:
自动驾驶汽车使用的由 AI 驱动的行人检测系统,对儿童的检测准确率比成人低了 19.67%,深色皮肤的检测准确率比浅色皮肤低了 7.53%。
而性别在检测准确率上相差不大,仅有 1.1% 的差距。
这意味着对于无人驾驶汽车来说,儿童和黑皮肤的行人将会比成年人和浅皮肤的行人更难检测。
为什么会这样?
01、对儿童、深肤色人群不友好
先来看这个实验过程。
这个研究小组采用的是数据分析的方法,他们首先找到 8 种自动驾驶企业最常用到、也是市面上常见的行人专用探测系统。
再用这些行人探测系统收集真实场景测试的数据,包括不同亮度、对比度、天气情况等实际场景,这些数据集,主要是由所拍摄的真实街道图像组成。
他们在四个真实场景中,共得到 8311 张图像,图像中展示了不同姿势、大小和遮挡场景下的行人。研究人员对图像中的行人还特意加了标签,共有 16070 个性别标签、20115 个年龄标签和 3513 张肤色标签。
研究重点是,自动驾驶的行人检测系统在面对不同行人时,所作出的反应是否相同,特别是在性别、年龄和肤色这三个因素上,会不会出现不公平的问题。
所使用到的探测系统包括 ALFNet、CSP、MGAN 和 PRNet 等,其中 ALFNet 采用的是多步预测进行渐近定位,解决了行人检测中单步检测的局限性。
CSP 通过定位中心和缩放行人引入一种无锚方法;MGAN 则是利用可见区域边界框信息引导注意力生成,主要用于遮挡情况下对行人的检测。
图像收集完后,针对自动驾驶系统是否对群体存在不公平的问题,研究小组使用了一个差异性公式。MR 一般是表示行人检测研究中最常用的性能指标,MR=1-TP/(TP+FN),这里的 TP(真阳性)是指成功删除的地真边界框的数量,FN(假阴性)是指未检测到的地真边界框的数量。
经过计算,行人探测器对女性和男性行人的失检率相似,相差 1.1%,而在年龄和肤色上差异较大,分别达到了 19.67% 和 7.52%!
这意味无人驾驶行人检测系统,对儿童和肤色较深的人群更难辨别,这些人群也将面临更大的风险。
而且尤为注意的是,在夜晚这些数字都有一定增加,儿童的 EOD(儿童和成人群体之间的差异)从白天到夜晚,失检率从 22.05% 上升至 26.63%,肤色组(深色和浅色皮肤)差异率从白天的 7.14% 增加到夜间的 9.68%。
另外和男性相比,女性在三个因素的失检率都大于男性。
此外,研究小组对不同亮度和不同对比度情况下对数据进行研究,这些变量也会对失检率有较大影响。
在选用的 8 种行人检测系统中,随着亮度的降低,其中一级检测系统表现最差,尤其是在肤色上,深色皮肤和浅色皮肤的差异值达到最高。
“公平的 AI 应当对所有群体一视同仁,但目前无人驾驶汽车方面似乎不是这样的。”该研究的作者 Dr. Jie Zhang 说道。
为什么会出现这种情况?
这主要是人工智能系统需要进行大量数据训练,而这些数据一旦不足,也会不可避免地反映在人工智能的表现上。这也是说,训练数据的缺乏,导致一些人工智能 AI 存在一定的偏见。
02、还有很多问题未解决
其实人工智能系统存在一定的不公平性,研究人员也不是第一次研究了。
早在 2019 年,美囯佐治亚理工学院的研究就表明,在路上皮肤较黑的人比皮肤较白的人,更容易被无人驾驶汽车撞到,研究人员分析了无人驾驶汽车监测物体的方法,一共分析了 3500 张肤色各异的人的照片。
最后得出结论,无人驾驶技术在识别黑色皮肤人群时的准确度平均低了 5%。
这些研究虽然没有涉及已经上路的无人驾驶汽车,但无疑会让人们对无人驾驶技术更加警觉。
无人驾驶落地困难,很大一部分原因是,它无法真正代替人类对行人及路况作出及时的反应。
在 2018 年,打车服务巨头 Uber 的一辆无人驾驶汽车在美国亚利桑那州坦佩市撞人致死,这是首次出现无人驾驶事故事件,“来不及做出反应”就是其一大问题。
前段时间,美国加州投票决定,允许两大无人出租车 Cruise 和 Waymo 在旧金山全天候商业运营,这则消息引来美国群众的不满,因为无人驾驶出租车经常引来事故。
汽车的无人驾驶系统可以用多种方式来识别路况,比如安在车顶的激光雷达,它可以每秒多次对汽车周围环境产生三维图像,主要是利用红外激光脉冲来反射物体,把信号传给传感器,这种可探测到静止和移动的物体。
但是遇到极端天气时,比如浓雾或暴雨天气,激光雷达的准确度会大大降低。
而短程和远程光学摄像头,可以实际的读取信号、判断物体颜色等更细节的物体,可以弥补激光雷达的短板。
为了加大识别能力,国内不少无人驾驶系统,都采用了混合感知路线,通过激光雷达和摄像头视觉技术来实现,并且视觉感知优先于雷达感知,以视觉感知为主,雷达感知为辅。
但特斯拉是“纯视觉感知”的忠实粉丝,马斯克曾表示,激光雷达就像人身上的阑尾。然而这也导致特斯拉多次因事故吃上官司。
其实即便是混合感知路线,也需要克服很多挑战。
比如远距离成像的行人通常目标较小,也就导致分辨率较低,定位准确度不够,这也是儿童的失检率较高的原因之一。其次行人姿态各异也会导致算法检测不准确,而且行人检测会受到背景的影响,比如光照的强弱,天气的变化等都会影响判断。
最后还有障碍物的原因,目标重叠、有遮挡对算法识别也有较大影响。
03、华人学者领衔研究
这篇介绍自动驾驶系统公平性的论文,全名为《深色皮肤的人在街上面临更多风险:揭露自动驾驶系统的公平性问题》,该论文在《新科学家》杂志发表。
论文研究小组来自于伦敦国王学院,论文所列出的作者共有 6 位,其中 Xinyue Li、Ying Zhang、Xuanzhe Liu、来自中国北京大学,Zhenpeng Chen、费德里・卡萨罗来自英国伦敦大学,Jie M.Zhang 来自伦敦国王学院。
Jie M.Zhang 目前是伦敦国王学院的助理教授,她的研究重点是将软件工程研究与人工智能研究结合,从而提高软件的可信度。她曾是伦敦大学的研究员,并在中国北京大学获得计算机科学的博士学位。
作为中国籍学者,Jie M.Zhang 在国内的成绩也可圈可点,她在今年 3 月被评为“中国女青年学者十五强之一”,还曾多次受邀进行机器翻译可信度的主题演讲,她和小组也多次对人工智能的学习能力进行研究分析。
对于行人检测系统公平性缺失的问题,Jie M.Zhang 表示,汽车制造商和政府需要共同制定法规,来确保自动驾驶系统的安全性和公平性。
其实以前就有过人工智能招聘软件和面部识别软件,黑人女性的准确度不如白人男性的情况,而现在自动驾驶汽车一旦存在识别误区,造成的后果可能会更加严重。
“以前少数族裔可能会因为一些软件,而被剥夺了该有的便利”。Jie M.Zhang 表示,现在他们可能面临更严重伤害,甚至是人身伤害。