YouTube儿童频道AI字幕吐“脏话”?!中招比例达40%!
AI 自动生成的字幕可说是带给了人们不少便利,尤其是语言不通的时候,即便是 AI 生成的字母没办法 100分准确,但也不会离谱到太夸张。但是,就有一份研究论文表示:YouTube 儿童频道中的自动生成字幕,不仅把“螃蟹”(crab)误听成“废话”(crap),当场爆粗!
“甚至还能把“玉米”(corn)给翻译成 p*rn”
据悉,被 AAAI 2022 收录的一篇新研究发现,在 7013 个儿童视频中,接近 40% 的节目出现了少儿不宜或脏话等词汇,甚至在一个 113 集的儿童机器人学习栏目中,AI 在自动生成字幕中就“爆粗”了 103 次,平均接近一集一次!
YouTube 在接受《连线》采访时回应:我们为 13 岁以下的儿童开发了 YouTube Kids,这个 App 会关闭字幕生成功能。
研究人员一共从 YouTube 上选出了 24 个儿童频道,而筛选出来的视频播放量基本都达到了百万级,订阅人数也同样不少。
论文调查结果发现,在 7013 个视频中,AI 出现错误字幕的次数达到 2768 次,接近 40%。经过研究人员发现,AI 主要容易在以下几种情况中出错:
- 背景音乐嘈杂
- 说话者为婴儿
- 说话者为儿童
- 说话者以英语为第二语言
- 说话者在唱歌
- 包括但不限于这些情况
有鉴于此,研究人员提出了一个新的数据集,利用近音字词来构建禁忌词的“替换”备选。例如,对于 crap 这一可能出现的“粗口”,研究人员就给它设置了 crab、craft 等读音相似的字词,便于 AI 在搞错时进行替换。
资料来源:IT之家