国立大阳城集团网站法人筑波工业大阳城集团网站 筑波工业大阳城集团网站是一所面向视听障碍人士的大阳城集团网站。

研究/产学合作

vol8:基于网络的字符解释系统,用于支持聋哑人和听力障碍人士 captiOnline (202541)

研发背景

当失聪和听力障碍人士参加活动和课程时,他们会使用“电脑文本翻译”将音频实时转换为字幕。但仅靠语音识别,存在误识别、口语表达困难等问题。因此,需要一种供支持者打字、组织和总结文本的方法。特别是日语,有大量的汉字和词汇,因此使用了一种称为“协作输入”的技术,该技术需要多人一起输入信息(图 1)。

图 1:链接输入概述

图 1:链接输入概述

传统 PC 字符解释的问题

 对于传统的 PC 字符解释系统,已经开发并使用了在特定操作系统上运行的专用本机应用程序。这些应用程序使用 LAN 内通信,这需要支持者将 PC 带到现场并设置 LAN(图 2)。此外,许多通信未加密,在线使用时存在内容可能被拦截的风险。此外,由于它是本机应用程序,因此依赖于特定操作系统,因此很难在其他操作系统、平板电脑和智能手机上使用它。

图2:使用传统专用应用程序构建文本解释环境的示例

图2:使用传统专用应用程序构建文本解释环境的示例

研发目的

 captiOnline 的开发就是为了解决这些问题。它是使用 HTML5 和 JavaScript 实现的 Web 应用程序,并在 Web 浏览器上运行,因此它不仅可以在 PC 上使用,还可以在平板电脑和智能手机上使用(图 3)。使用 WebSocket 的安全双向通信使您可以安全地在线执行 PC 字符解释。

图 3:CaptiOnline 配置概述

图 3:CaptiOnline 配置概述

captiOnline 的功能

 captiOnline 不需要安装专门的应用程序;用户和支持者只需打开 URL 即可使用它。只需访问服务器即可搭建PC字符解释环境,大大减轻了准备工作负担(图4)。除了联动输入之外,语音识别还可以用于执行文本解释,支持者纠正错误识别和冗余部分(图5(a))。此外,我们还实现了“混合字幕”功能,允许您将图形和表格实时插入字幕中,提高用户理解性(图5(b))。

图4:CaptiOnline输入页面外观

图 4:CaptiOnline 输入页面外观


图5:captiOnline的特征

图5:captiOnline的特征

社会成果

 随着captiOnline的推出,即使在新型冠状病毒感染爆发期间的在线活动中,PC文本翻译也成为可能,并且用户数量急剧增加(图6)。支持者之间的互动已经在网上进行,即使在支持者短缺的地区也可以进行文本翻译。此外,我们现在还可以在国际站点提供文本翻译,例如在海外请求生成实时英文字幕。此外,这导致了与字幕和转录相关公司的联合研究和开发,并且在提供新服务和实施功能方面正在取得进展。

图 6:按季度统计的 captiOnline 访问量趋势

图 6:按季度统计的 captiOnline 访问量趋势


 captiOnline 是一个革命性的系统,使失聪和听力障碍的人能够访问更多信息并支持参与文本解释的人员。预计它将继续在各种情况下使用。


相关信息等

网页:https://captionlineorg
主要论文等:
1) Daisuke Wakatsuki、Tatsuya Arai 和 Takeaki Shionome,为聋哑和听力障碍学生提供的包含公式或图形的混合字幕,JACIII,第 25 卷,第 2 期,第 187-194 页,2021 年 (doi: 1020965/jaciii2021p0187)
2) Daisuke Wakatsuki、Nobuko Kato、Takeaki Shionome、Sumihiro Kawano、Tomoyuki Nishioka 和 Ichiro Naito,基于网络的远程语音转文本解释系统的开发 captiOnline,JACIII,第 21 卷,第 2 期,第 310-320 页,2017 年(doi:1020965/jaciii2017p0310)
3) Daisuke Wakatsuki、Nobuko Kato、Gosuke Shionome、Jundai Kono、Tomoyuki Nishioka、Ichiro Naito,针对听力障碍者开发基于网络的远程字符解释系统,IEICE 技术报告,卷。 114,没有。 217,WIT2014-32,第 69-74 页,2014 年 9 月。


研究员介绍

研究员介绍

2003年,他在新泻大阳城集团网站自然科学技术研究生院完成了博士课程,在新泻大阳城集团网站和筑波工业大阳城集团网站学习后,于2021年被任命为筑波工业大阳城集团网站工业技术学院教授。我的专业领域是福利工程、教育技术和人机界面,特别专注于支持聋哑人和听力障碍者以及开发相关的技术技术。我们正在研究和开发基于网络的远程字符解释系统“captiOnline”,并将其向公众发布。该系统提供了一个仅使用网络浏览器即可进行实时计算机文本解释的环境,有助于改善耳聋和听力障碍人士的信息获取。此外,我们正在研究以字幕为主要焦点的视频观看系统,以及利用人工智能为聋哑人和听力障碍者提供支持的系统。

研究员信息:https://researchmapjp/wktkdsk


(工业技术学院工业信息学系,Daisuke Wakatsuki 教授/2025 年 4 月 1 日)