我自己在win和mac电脑上用过讯飞的语音识别,远没有它所宣传的那么好

【本文由“珠友”推荐,来自《现在学习速记的人不多,我们应该继承,不能让这门学科丢失了》评论区,标题为小编添加】

  • 珠友
  • 文秘专业速录与语音识别的探究

    一、语音识别

    语音识别被很多专家认为是近年信息技术领域重要的科技发展技术之一。科大讯飞作为中国智能语音与人工

    智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。使用“讯飞输入法”,以180字/钟语速读取3分钟文本,笔者感受如下。

    1.要求环境安静,说话时要对准麦克风,否则将无法识别。

    2.识别50秒后,上屏速度开始越变越馒,之后出现的识别错误会越来越多。

    3.以普通话乙级教师的发音为样本,摘取部分错误如下:“七十”一“其实”、“布朗运动”

    4.在语调的辨别,以及“1"“m³“n”的辨别上表现较弱。

    5.如果说话者中英文夹杂,错误率会升高。

    6.语句停顿时会添加符号,但只有2种 逗号和问号,通篇没有分段。

    7.无法做到语音识别与改错同时进行。

    8.文本若为2人朗读,即使是一男声一女声,也不能标识为另一人发言。

    二、文秘专业速录

    (一)速录源于传统的手写速记

    传统的速记是由专业人员操作一种符号将语言信息转化成文字信息,由于符号的独特性,记录出来的信息还得进行整理,这样的速度难以满足一些特定场合需要。随着中文速录机的诞生,从而实现了对语音信息进行不间断采集并实时转换为电子文本信息的一个过程。“言出字现,音落符出”是对速录速度的最好的概括。

    (二)速录与速记及普通的电脑打字有许多共同之处,但有其自身独特的职业特点

    1.速录需要满足记录人们语言的需要。速录的主要服务目的是采集人们的语言信息,即对瞬息即逝的语言进行实时记录。人们讲话的语音速度一般为每分钟180字至200字,无论是手写速记还是速录都必须满足这一需要,而一般的电脑打字则很难达到这一速度,而手写速记记录需在记录后花费4~6倍的记录时间来整理成文字。速录则可以在记录后即时打印成文,更能体现出文秘专业速录的职业特点。

    2.根据语言结构特点编制输入方法。以汉语为例,其语言结构是由许多单音节、双音节、三音节、四音节及四音节以上的多音节词语组成的,而其中双音节词语占60%以上。根据这一特点,手写速记有一系列的词语连写、略写规则,其中规定双音节词语必须连写。速录则采用以词语为单元的编码方法,对双音节、三音节、四音节及四音节以上的多音节词语规定了一系列省略方法。普通电脑打字虽也有词语智能联想,但有时画蛇添足。

    3.速录具有看打、想打、听打三种功能。符号速记具有三种功能,即记录他人语言、表达自我思维(速记人员自己用速记写作〉、抄写文字资料。速录也同样具备这三项功能,即看打(输入文字资料)、想打(用于个人写作)、听打(记录他人语言)。一般电脑打字则不必具备这三种功能。

    4.速录人员要求有较高的文化素质和文字工作能力。按照国家规定,速录员必须具备高中毕业或同等学历文化水平,速录师必须具备大专以上学历。作为一名专职速录员或速录师,不仅要求能够听懂并记录不同职业人员的讲话,而且要求在不改变讲话人本意的原则下对有些语病或语言结构进行必要的修改。因此,文秘专业速录没有较高的文化素质或较强的文字工作能力是不能胜任的。

    三、文秘专业速录方向的未来发展

    中国的语言博大精深,同音字、同形字多,上千种方言,即使讲普通话,每个人的语音、语调和语气也不尽相同,语音识别技术不可能在短时间内采集所有人语言信息,语音识别出来的内容不会自动修正。因此,笔者认为,语音识别技术不可能完全替代速录师,文秘专业速录方向未来将会向以下三个方面发展。

    (一)人机共存

    语音识别必将能越来越好地服务于学习、工作和生活,协助我们处理掉繁重的低端业务;但会议速记要求快速准确地现场出稿,这类专业的服务还是语音识别所无法替代的,需要专业速录来完成。

    (二)高端服务

    在互联网时代下的人工智能,特别是语音识别技术在未来的发展中一定能做到速度越来越快,准确率越来越高,但无法突破方言、标点、段落这些硬指标,更无法做到纠正语法、调整语序、补充语意等这些高级的文字处理功能。而文秘专业速录经过一段时间工作的积累,与客户的交流,以及学习其他速录高手的长处和经验,会越来越少地在速记稿中出现让客户头疼的时间码标注(表示该时间段未听懂),这种自我突破的觉悟是机器无法做到的,正是因为如此,高级别会议的速记席中仍有速录师的身影。

    作者简介

    徐小刚(1977一),男,汉族,广东深圳市人,延安大学计算机应用专业毕业,研究方向:计算机应用的理论与实践。

我自己在win和mac电脑上用过讯飞的语音识别,远没有它所宣传的那么好。我使用后所识别出来的文字,错别字、漏字很多,如果加上人为进行反复修改,这就显得很麻烦,非常繁琐。

如果远一点,大约20米左右,不时会有片段漏掉缺失,且有错别字。远不如直接录视频,并从剪辑里识别文字来得好。

最近更新的专栏

全部专栏