AI和听障者的半步之遥

500

前不久,我们启动了星火计划,征集普通人与AI的故事。听障者李朋程的来信,吸引了编辑部的所有人。别误会,我们并不打算从困境与过往遭遇说起,尽管这些现实的难处确实存在,而且坚硬冰冷,但不是我们今天要讲述的重点。

我和李朋程与他的听障伙伴们共度了一天,印象最深刻的其实是那些滚烫的热爱。比如说,他们会痴迷跳街舞,会组建合唱团,琢磨着拍属于自己群体的综艺/纪录片……无声的世界里,其实有着大量的鲜活与热闹。而这一切,都与AI、科技紧紧相连。

为什么会格外注意到这一点呢?是因为我们之前接触过不少科技企业的无障碍项目,绝大多数都关乎的是障碍群体的基础生活与沟通需求,或者是帮他们就业的,几乎没有人关注过他们的娱乐需求。

500

当听觉缺席,科技却延伸了听障者的感官,让他们仍然能享受娱乐跟喜悦。但是,这着落在科技世界上的无声欢喜,AI与听障者的距离,实际上还隔着半步之遥。

500

我们在线下见到了李朋程和他的伙伴徐梦娇。那天的行程,大部分时间都放在一个AI编程舞蹈项目上。她们用AI编程开发了一款专为听障群体设计的街舞辅助软件。

听不见节拍,该怎么跳舞?一般的选择是,视觉。

而传统的视觉方案,就是打手语。比如春晚舞台上的《千手观音》,这类舞台表演都需要手语老师在一旁实时指挥。但徐梦娇所在的听人街舞团,有一些特殊情况:一是成员来自全国各地,很多人只能线上跟练,无法依靠现场手语指挥;二是听障+街舞本就小众,一些团员是独自参与的,也找不到手语老师与自己配合。

手语的方案行不通,街舞团又想到了触觉。她们有的选择俯身贴在地板上,通过音响和地板的震动来感受节拍。这个方式不仅特别累人,而且效率也很低,得先趴着听一阵子,再起来练习,不停重复这个过程。

AI的出现,特别是多模态能力,让舞团得以尝试新的视觉方案,用另一种方式看见节拍。

徐梦娇把听人跳街舞的需求传达给了AI,让AI生成了一套编程提示词,明确了街舞软件需要实现的功能、核心逻辑和操作方向。仅用一天时间,就和伙伴们合作完成了一款专为聋人设计的街舞辅助软件demo。

500

这款软件的核心,就是用视觉弥补听觉的缺失,借助AI的多模态理解与转换能力,先对Hip‑hop、Popping、Breaking等各类街舞音乐进行精准分析,提取出每分钟节拍数(BPM)、重拍、鼓点等关键信息,再将这些音频信号,转化为聋人能清晰感知的视觉信号。

500

比如,不同的音律对应五种不同的颜色,节拍的强弱对应闪烁的快慢,重拍时灯光会快速闪烁。这样大家只要看着屏幕上的灯光变化,就能跟上节拍,在线上和伙伴们同步练舞。

很难说,究竟是活泼的徐梦娇热爱跳舞,还是热爱跳舞使她活泼,不过她本人也很清楚,自己性格开朗、上过大学,有学识,还能用技术实现热爱,这样的人生是很多听障伙伴都羡慕的。做公益的这些年,她见到了太多在现实中屡屡碰壁而感到自卑的听障者。

AI,能让年龄尚小的听障儿童,变得更快乐一点吗?

500

对“无声合唱团”来说,唱歌与听觉无关,只关乎触觉。

这个由14名重度听障儿童组成的合唱团,团员都来自中国三、四线及以下经济欠发达地区。这些孩子有的被父母离弃,有的长期与家人缺乏情感沟通,更无法通过传统方式感受音乐的快乐,艺术家李博希望借助科技的力量,让这些孩子能够用音乐表达自己。

因为听不到旋律,他们便以震动为媒介,给孩子们戴上贴片式传感器,这些小设备能实时捕捉他们发声时喉咙、肌肉的细微震动,以及呼吸的变化,再将这些生理信号转化为低频震动,通过巨型音箱传递出来。

500

李博还规划,收集10万个妈妈的音频,并通过熵增算法将这些声音转化为底噪,加入9分钟的合唱中。但关于具体的算法细节,李博与合作的技术团队仍尚不明确。

在李博看来,聋人对节奏异常敏感且稳定,对时间的理解也与健听人存在本质差异。但长期以来,社会更多关注听障者融入主流,并没有反向去理解聋人的原生状态。

的确,科学界已经有大量证据证实,听觉的损失会由别的感官代偿一部分,这让听障者的其他感觉格外敏锐。但社会的运作方式,是以五感健全的人群为中心的,大家潜意识中总觉得应该聋人佩戴助听器、做耳蜗手术,来适应既定的规则。

但街舞社也好、合唱团也好,以听障群体自身为核心,这样生长出来的视觉、触觉等技术方案,显然更符合听障者的身体直觉。

500

李朋程喜欢看综艺,每次工作压力大到撑不住的时候,他就靠看综艺解压。

市面上的恋爱综艺比比皆是,却没有一档是正聚焦听人或障碍群体的。听人们聚在一起都忍不住叹气:“我们想谈恋爱,真的太难了。”没有人懂,那就自己做。李朋程用手机拍摄、用AI制作字幕,硬生生做出了第一档聋人恋爱综艺《无声恋曲》。

500

网友们年年吐槽枯燥乏味的春晚,李朋程也是在无障碍手语转播的功能上线之后,才第一次完整看完的。他全程不舍得错过一秒,觉得特别好,“如果有人说春晚无聊,我就打他”。

他还有一些其他爱好,比如打游戏,但MR/VR眼镜都得语音交互,对他不友好。也跟风买过AI玩具,买回来才发现不管他说什么,玩具都没反应,大概是听不懂他不标准的口语,最后只能退货。

陀思妥耶夫斯基写过一本书,书名叫《人不单靠面包活着》。娱乐是一种正常的需求,就如吃喝一样。但市面上大量的科技无障碍产品,关注娱乐需求的十不存一,只能靠听障者们自己来做,难道科技公司都在敷衍吗?

其中一个主要原因是,主导这些产品研发的仍然是健听工程师,听障者大多以体验者、反馈者的身份存在,数量不多,话语权也不高。

如前所说,听障者有自己独特的身体经验、生命经验,有些东西,只有身受,才能感同。健听人虽然真诚,也常常因为经验匮乏,无法真正代入他们的感受。举个例子,常常会见到全黑的小房间,来让观众体会视障者的生活,但那短短的几分钟,跟24小时身处黑暗,是完全不一样的心理活动。

此外,科技公司的无障碍项目往往是跟其他项目一起推进的,为了更高效地推进,产品边界清晰,流程节奏也很快。但娱乐需求是高度个性化的,有人喜欢音乐,有人热爱跳舞,有人沉迷短剧,公司级项目注定无法兼顾每一种小众需求。

还有一种隐秘的桎梏,就是全社会有一种享乐羞耻。解决生存所需的燃眉之急可以,涉及娱乐的需求就显得奢侈了、超前了。

听人即便有娱乐需求,往往因为不想给别人添麻烦,不敢轻易提出,“我要这个产品,我要那个功能”。而对科技企业来说,娱乐项目也不敢轻易做,因为它不像AI手语主播、紧急呼救辅助等基础功能,这些有社会价值,也更容易在内部过会、拿资源、推进。假如真心想帮听障者做成一点事情,后者也是更务实可行的选择。

所以,尽管大厂团队做无障碍产品的心态蛮真诚的,也做了大量努力,吸纳了听障员工和用户,但很多科技无障碍功能却都是在自我感动。

500

其实这些问题,只需要一个事情就能全部解决,就是听障者参与技术的角色转变,不再被动地使用和接受现有的无障碍产品,像徐梦娇那样为自己开发,像李朋程那样为自己当导演,自己定义需求、自己手搓产品,那一切就都顺理成章了。

但是,旧世界的种种惯性与阻力,仍在深深地影响着一切。

当天,我跟着李朋程、徐梦娇一行人,一同去直面一个现实难题:有了demo,该如何转化成可落地、可推广的成熟产品。

面向听障的街舞软件,在一个黑客马拉松比赛中获得了二等奖,当天会议的目的,是邀请更多专职设计师和工程师,帮他们优化这个demo。会议中,所有人都很努力想解决问题,但摩擦几乎无时不在。

500

有街舞团成员提出,之前研发的软件需要盯着屏幕看,舞者跳舞时常常需要背对屏幕,能不能打造一款手环,通过震动来传递节拍信号?这个想法刚一提出,就被在场的产品经理否定了。因为这家企业是个纯软件公司,并不涉及硬件开发,这种软件与硬件结合的研发需求,他们做不到。

身体经验的缺失,也导致沟通进展缓慢。在场的设计师和工程师都是健听人士,其中有不少人本身就是舞蹈爱好者,却无法想象听障者是如何练舞的,仅“如何学习一支新舞”这个问题,双方就反复探讨了很久。

会议结束时,很多工程师依然是带着需求和疑惑走的。到底什么时候能完成优化、真正落地使用,没有人能给出明确答案。

这个过程中,还有一个清晰的产业生态断层:国内的AI生态与听人群体的需求,是天生契合的。本土AI最大的作用是让需求更容易显影,门槛低、易操作,可以让听人轻松将想法转化为demo,但往往没有后续的指导和资源扶持,很多优质创意只能停留在原地。

外企的无障碍理念更先进,也有成熟的企业文化和制度保障来支撑项目,但他们习以为常的海外科技生态,难以适配国内的开发与部署环境,让本土开发者水土不服。

就拿这款街舞软件来说,是在国内AI开发平台上做出来的。而帮助街舞团优化产品的,则是一家海外公司的中国团队。这些长期做跨国项目的设计师和工程师,甚至没有听说过这个开发平台,光是把项目文件完整地拷贝出来,就花了几个小时。

500

(听障者和外企工程师的会议讨论)

这些断层,是当下科技领域的另一种真实图景:AI可以让需求显影,把听障者被忽视的娱乐需求从想法变成demo,却很难独自跑通产品化的全链路。这中间,有大量环节无人接手,仅靠听障者和简单的AI工具是无法走完的。

我看过一位听障创业者的演讲,其中一句话被很多人划了重点:在AI时代,将真实需求转化为可用的产品,是一项至关重要的能力,而这本质上考验的,是我们对自身与外界的认知边界。

听觉缺失了,但AI延伸了听障者的视觉,还原出他们的触觉,建构出他们的情感世界……技术拓展了他们的身体边界,进而把他们的娱乐体验拓展得更宽、更远、更多彩。而听障者亲手所构建的这一切,也拓展了科技无障碍领域的边界,这是技术世界中不可或缺的一块版图。

500

站务

全部专栏