声音类 AI 产品的创业探索

来源：AI新智能公众号　2023-07-31 11:06:08

机器与人类交互的最直接方式无非就三种，视觉、触觉和听觉。大语言模型满足了视觉上对文字的交互，而听觉就需要语音模型来补齐了。

找到AI新赛道

(相关资料图)

随着大语言模型的技术日趋成熟，寻找新的增长点，探索未完全开发的AI市场成为了一个必然的趋势。

其中，人类与gGbRI机器之间的交互无疑是一个重要的方向。

图1目前部分国产大语言模型列表

机器与人类交互的最直接方式无非就三种，视觉、触觉和听觉。

大语言模型满足了视编程客栈觉上对文字的交互，而听觉就需要其它类型的AI来补齐了。

在听觉方面，声音创作类AI作为语音领域的一个细分方向，近年来发展迅速，不断有新的应用场景被开发出来。

声音AI的研究可以追溯到20世纪90年代，早期很多工作集中在语音识别和语音合成等基础技术上。

进入21世纪后，随着深度学习在语音识别和语音合成方面的广泛应用，声音AI的能力得到了极大提升。现在不仅可以做到非常准确的语音转文字和文字转语音，而且可以学习并模拟特定人物的声音特征。

这无疑大大拓宽了AI的应用范围。

一款声音类AI的创业探索

在语音创作工具领域，大饼AI变声是一个典型的在声音方面的AI探索案例。

2021年，毕业于卡内基梅隆大学的凌天格创立了上海格子互动信息技术有限公司（以下简称格子互动），并在同年就开发出第一款应用“ HALO 剧本杀”。顾名思义，这款应用是一个专注于线上剧本杀的应用。

格子互动通过将各类优秀剧本和DM（剧本杀主持人）资源整合起来，迅速收获了一批忠实用户。格子互动也获得源码资本种子业务“源码一粟”的种子轮投资。

图2“Halo有戏”官网截图

在拥有了一个稳定收入来源和声音数据源后，格子互动启了它的野心征途:“大饼AI变声”，正式走向了声音类 AI赛道。

通过前期剧本杀应用的长期积累，格子互动获得了大量的DM的优质干声（指仅有人声不含其它杂音的声音）。在拥有了数字资源后，格子互动就着手于将资源变换为实际可利用的 AI模型。将干声训练为了一个个可供使用的语音模型。

由此格子互动便推出了大饼AI变声，其主要功能就是一个多功能的语音转换工具。它能够实时地把输入的人声，转换成不同风格的语音输出，实现语音的变声效果。

这对于需要频繁配音的内容创作者来说，可以极大地提高内容产出效率。

目前来看，大饼AI变声未来可以通过定制化声音模型训练提供定制化的变声服务，将定制化模型变为商业化主要道路。同时降本增效，持续技术投入，将模型定制成本逐渐降低，以此快速实现商业化。

拓宽声音AI的应用视野

语音转换或者说变声仅仅只是声音AI的冰山一角。摆脱了“变声”这一单一方向后，语音内容生成语音生成类 AI会有更大的发展空间。

语音生成类 AI的发展，可以赋能大量与人声相关的行业，大幅提升效率，增加成果转化速度。

1.有声书

有声书类别中，人类配音目前最大的优势就是情感的丰富性和角色的多样性和音色的多变性。然而人工录制有声读物仍需要人工朗读与校对，各项成本都不会因为边际效应而降低。而 AI配音则可以快速产出内容，文字量甚至可以达到500万字/天。目前，喜马拉雅等传统听书软件已经纷纷下场开始了这项业务内容。

2.网络视频快速配音

在短视频快速发展的当下，有大量的AI配音视频的产生。如魔音工坊等平台更有完整的 AI配音方案辅助完成一期短视频。AI配音提升了视频的产出效率，作者只需要准备好合格的文案就可以快速产出内容。同时避免了观众对于某一个特定视频博主声音的依赖性，能够更长期的稳定运营一个频道。

3.虚拟主播

虚拟主播行业是近几年诞生的新兴直播种类。主播常以一种虚拟二次元形象出现。在视觉效果上，主播已不需要实际露脸，而是以自身的独特设定（例如萌化动物，某种独特性格）为基础完成每次直播。但是目前的直播中缺少了重要的声音因素，使得角色设定中缺少了一部分内容。而当下的 AI变声搭配 AI语php音生成就可以很好的解决这一问题，加强了主播的娱乐性。

4.游戏内配音

与虚拟主播类似的就是游戏了。但是不同的是游戏行业不需要实时的语音变化，而是需要更精细的调节。不论是任何独特的角色设定和背景故事，都可以使用 AI提供专属的、唯一且稳定的音源。不仅提高了游戏的沉浸感，还能够大幅提升配音音源的稳定性。AI配音的出现极大降低了由于配音的不确定性带来的风险（如配音演员更替、演员受伤、声线变换等等），降低了运营风险。

图3由ElectricNoir创作的互动型小说，语音均由AI录制

总的来说，声音AI不再局限于单一的“变声”，而能够广泛应用于内容创作的各个方面，大幅提升效率并打开更多创作可能性。这将推动语音AI技术在各创意产业中的深入应用。

但是目前来看，AI语音生成仍然有情感缺失等不足。而且在面对汉语这类有多音字词的语言时，生成语调与换气等仍有较大的问题。

目前各类云已提供了基于云上的文本到语音（Text-to-Speech， TTS）系统，从微软的Azure到国内的阿里云腾讯云都有这方面的服务。

除此之外，语音生成技术都有开源的开源方案和完备的论文支撑。这意味着后入局的企业必须要双管齐下，努力扩大自身的技术护城河的同时，通过商业互补建立起数字资源围栏。

声音类AI的风险

在找到了语音生成类 AI的基础商业方向之后，风险控制就成了开发中的重要一环。目前语音生成 AI仍有很多风险敞口。

1.误导信息传播:因为语音生成AI可以创造极其逼真的人声，有可能被用于制造假新闻或深度伪造（Deepfakes），为了传播误导性信息或进行欺编程客栈诈活动。

2.侵犯隐私:语音生成AI需要大量的语音数据进行训练。如果这些数据没有得到适当的处理和保护，可能会侵犯个人隐私。

3.冒名行骗:高级的语音生成AI可以模仿特定的人的声音，这可能被用于冒充他人进行欺诈。

4.就业影响:随着语音生成AI的应用越来越广泛，一些需要人类声音的行业（例如:广播、旁白、语音合成等）可能会受到影响，导致就业机会的减少。

5.伦理和道德问题:例如，使用某人的声音（尤其是未经其同意）进行语音合成可能涉及到伦理和道德问题。