环球看点!36氪专访 | 格子互动创始人凌天格:开发元宇宙的声音“皮肤”,让声音在未来成为货币

时间:2022-08-04 16:01:20       来源:36氪

文 | 周鑫雨

编辑 | 苏建勋

今年年初,源码资本种子业务源码一粟投中了一家“玩声音”的公司“格子互动”。


(资料图)

剧本杀是格子互动发轫的起点。2022年初,格子互动上线了HALO剧本杀。目前Halo每个月的在线剧本杀局数都在1万左右,相当于上百家剧本杀门店的规模。

而作为成长在新风口迭出的一代,格子互动创始人凌天格对格子互动的期许远不止做好线上剧本杀。利用HALO剧本杀积累的DM(主持人)声音资源,他希望格子互动开发的虚拟声音引擎,能够成为元宇宙社交中的虚拟声音infra,“就像柯南里的蝴蝶结变声器一样,不仅完全改变音色,还能保留人说话的自然语气”。

除了实时音色转换,天格的团队也正在研发小样本声音克隆,声音编辑,甚至结合机器翻译做实时语言转换,类似于海外AI配音技术公司Deepdub的业务。

现阶段,格子互动的虚拟声音引擎主要瞄准游戏、配音、影视公司,通过离线语音合成实现自动配音。未来,凌天格计划将声音引擎做成API,出售给实时语音交互场景较为丰富的游戏、社交,甚至元宇宙社交软件。

今年年初,格子互动已完成天使轮融资,投资方为源码一粟,原力资本担任本轮融资顾问。目前,格子互动已经发展成了40个人的完整团队。联合创始人徐颍曾任阿里巴巴语音算法专家,刘建俊也有丰富的互联网运营与市场经验,曾担任恺英网络市场VP。

以下是与凌天格的对话:

做声音的“皮肤”

Q:为什么选择声音infra赛道?

A:因为我觉得95后、00后的年轻人还是比较容易emo的,而声音是能够很好引起年轻人共鸣的一个切入点。比如说看无声电影,你是很难看哭的,但是配上了一个好BGM,能够起到的情感共鸣是完全不一样的。过去十年来,声音确实不如视觉有市场影响力,但再看未来十年,我觉得声音在这一代年轻人当中的影响力会不断提升。另外,静态视觉领域诞生了美图,视频领域火了抖音,但声音领域还有足够的空间和机会。

Q:十多年前,初音未来这样的虚拟角色就已经运用了声音合成技术。格子互动做的声音infra有什么独特之处?

A:区别特别大。视觉的发展其实经历了这样一个过程:从传统的纯靠建模驱动角色,到现在由中之人操控虚拟形象,他们笑,角色就笑。

声音也会经历这样一个变革。我们做的其实是类似于“皮肤”一样的东西,即便改变音色和语言,但是你说话的抑扬顿挫和语音语调会被保留。传统的语音合成ASR(语音识别)和TTS(语音合成)的输出是相对固定的,但我们做的方向,就是把声音做成一个完全可以穿戴的“皮肤”,改变音色的同时,保留你自身说话的一些方式——这是从产品化的角度来区分。

从技术上来说,想要直接实现声音转声音的算法,需要高效、高质的提取音色这个特征值,提取的质量越高,对于声源本身的语气、顿挫、和其他内容保存的就更完整。提取的效率更高,算法的实时率就能更高,用着整体就更顺畅。当然需要商用的话还需要考虑鲁棒性,降低使用门槛。在高质高效的基础上,再实现高鲁棒性就更难了。目前音色特征值提取这块没有一个很好的解决方案,我们填补的就是这块的技术空白。

Q:如果互联网公司也入局这样一个赛道,格子互动能招架的住吗?

A:大厂想要全力做声音赛道的话,纯技术板块我相信肯定也能做。钱和人是他们的优势,但切入点、坚持度、专注度和开放度反而可能是大厂会面对的挑战,不然世界早被一个公司垄断了。

作为一家创业公司,我们的团队对于做声音infra这件事是有共识的,也会全力focus在上面,就是小团队的优势,灵活,迅猛。同时我们产品化的进程很快很轻量,比如为了积累声音资源,我们很快推出了HALO剧本杀,同时这也是一个让我们不断打磨技术的试验田,有什么新想法都可以在上面推出产品做尝试。况且从BD的角度来说,创业公司也会有自己独有的资源和方式。相对于那些一切需要考虑ROI效益,同时架构疯狂内卷的大厂来说,我们反而更占优势。

Q:未来格子互动的声音引擎会有怎样的应用场景?

A:其实像早期的字节,他们基于头条就能把推荐算法打磨得特别好。后续他们推出了火山引擎,不仅做toB,也基于此不断推出toC的产品。我们的声音引擎也不仅仅会做toB的SaaS,toC应用是更长期的一个方向。没有人知道下一个产品会有多牛。

我们的声音引擎现在还在研发阶段,但已经有了产品化的初步方向。我们打算做一个非实时声音合成的SaaS后台,提供给游戏、影视、配音等团队。比如一个有100个角色的游戏,如果找100个配音演员来配,成本就很高,但如果我们提供了一个事先有500个声优的声音模型的SaaS后台,那公司一个人就能用至少500种音色配音了。就能节省很多成本。后续我还想把声音引擎做成一个API,卖给有很多语音交互的游戏,社交,甚至元宇宙社交软件,或者直接找RTC厂商合作。

不止线上剧本杀

Q:外界许多报道会把格子互动定义为“线上剧本杀”创业公司,你觉得这个定义是正确的吗?

A:最早也许是,但我们一直在快速迭代。我对格子互动的要求是“持续地小步快跑”,所以为了达到这个要求,我觉得要有两个东西,一是要有持续跑的明确方向,二是跑道也要不错。我们的方向很明确,要打造属于未来的声音引擎。

HALO剧本杀就是一个很好跑道和试验田,让我们把所有的最新的声音玩法,也就是最新的声音技术用到跑道上去。为什么我强调HALO剧本杀是“很好”的,有以下两个原因:

首先HALO是一个有稳定收入的App,一个月能有几百万元的营收,这意味着通过HALO,我们可以拥有自负盈亏的能力。其次,HALO剧本杀也不断地在给我们积累大量的声音资源,提升对于优质声音的认知,完善声音和场景的匹配逻辑。通过招募剧本杀DM,我们也能持续发现优秀、有潜力的声源。如此往复,就形成了从应用场景产生资源,从资源形成工具,再从工具满足应用场景需求的向上飞轮。所以,我们在做线上剧本杀,但又不至于如此而已。

HALO剧本杀

Q:你会把公司定义为元宇宙公司吗?未来有怎样的玩法?

A:会。之前我就表达了,创业的初期我们就是按照元宇宙来的,只是我对元宇宙的理解更偏向于体验层面,声音的加入会让你的体验更加丰富更好玩。虽然我们的元宇宙好像修炼法门和别人不大一样,但内核和目标是一致的。

HALO剧本杀本身就是一种元宇宙的探索。当初我们在讨论要做如何的产品和面向什么样人群的时候,首先瞄准了和我们自己一样的95后、00后人群。就好像我本人一样,是社交需求和社恐的矛盾结合体,一方面喜欢剧本杀这种新鲜的内容社交方式,但同时面对陌生人又会产生社交压力。

元宇宙在我看来,撇开技术和概念,至少要实现用户心理的2个核心需求,一个是我在元宇宙干嘛,另外一个是我在元宇宙里是谁?而剧本杀提供的元宇宙的社交内容,你是来沉浸故事的,是来扮演角色的,是来和其他“角色”互动和社交的,我们在一个个故事里体验“自己”,带入感受,延展“剧情”。而声音,可以帮助你更好的进入“角色”,不会因为一个很不匹配角色的声线而出戏,不会因为自己的声音没有别人动听而产生压力。“剧本杀+声音”的产品特色,让人拥有更多遐想的空间,真正做到100个演员就有100个哈姆雷特的效果,这可能是我们切入元宇宙的一个小入口。

未来我也计划把声音引擎和NFT相结合。比如你做了一个API,别人访问是需要有Token的,比如我做了某个明星的声音“皮肤”,面向公众我只发行100个Token,那就只有100个人拥有这个API,这个逻辑是能够跑通的。

Q:你会怎么评价目前公司的效益?比如HALO剧本杀的DAU。

A:可能一个纯toC的产品会用DAU,但我们有平台属性,作为垂直赛道,既然主导用户体验,那用户忠诚度和付费意愿对我们来说更重要,所以我们核心是看ARPU值。如果ARPU值足够高,或者在持续提升,说明用户对平台就有多认可。这个指标能说明我们做的是件对了的,有价值且可持续的事。

Q:现在还有继续接触资本吗?未来的融资计划是怎样的?

A:现在持续都有资本来接触我,我觉得这也是对项目的一种肯定。我们不会说想要急于融资,但也不会刻意去定义一个节奏。

Q:有考虑过如何规避变声带来的法律和伦理风险吗?

A:我们先不想这么长远,创业公司来不及顾虑太多!

我觉得这就和自动驾驶一样,肯定是先把技术跑通,再解决伦理的问题。等到技术跑通的时候,也许就能成长为一家超级牛的公司了。

关键词: 创业公司 语音合成