热点资讯
开云体育一气呵成 TTS 系统比年来-开云(中国)Kaiyun·官方网站 登录入口
发布日期:2025-08-10 07:53 点击次数:138
活久见开云体育,太乙真东说念主给讲论文了噻!
咳咳,诸君说念友且听我一番罗唆。
老说念我闭关数日,所得一篇妙诀,等于此Llasa之法。此术上个月一出,外洋仙长们无不瞠目钦慕,直呼" HOLY SHIT "!
热度最高时,曾在 huggingface 上的"丹药热度榜"上排第六。
咳咳,书回正传。
如上激发围不雅的适度由香港科技大学等连合推出,它考证语音合成模子,也不错遵从 Scaling Law,即扩张野心资源、语音合奏效果不错更好。
它中枢提倡了一个语音合成的简便框架 Llasa,该框架采用单层 VQ 编解码器和单个 Transformer 架构,和圭臬 LLM 保捏一致。
盘考团队提供了 TTS 模子(1B、3B、8B)、编解码器的 checkpoint 以及锻真金不怕火代码。
一气呵成 TTS 系统
比年来,基于 Transformer 的大型语言模子(LLM)在当然语言处治规模赢得了显赫泄漏,尤其是通过扩张模子范围和锻真金不怕火数据来进步性能。
干系词,现时的 TTS 系统频频需要多阶段模子(举例在 LLM 后使用扩散模子),这使得在锻真金不怕火或推理阶段扩张野心资源变得复杂。
本盘考提倡了一种单阶段 TTS 框架Llasa,旨在简化这一进程,同期探索锻真金不怕火时辰和推理时辰扩张对语音合成的影响。
它基于 Llama 模子,采用单 Transformer 架构,伙同了一个想象讲究的语音分词器(tokenizer),简略将语音波形编码为繁芜的语音标记,并解码回高质料音频。
该框架的中枢在于将语音和文本标记连合建模,通过瞻望下一个语音标记来生谚语音。
要道组件:
语音分词器(Xcodec2):将语音波形编码为繁芜标记,同期保留语音的语义和声学信息。
Transformer 模子:基于 Llama 开动化,学习文本和语音标记的连合散播。
考证 Scaling Law 锻真金不怕火时辰扩张(Scaling Train-time Compute)
盘考者通过扩张模子范围和锻真金不怕火数据范围来盘考其对语音合成性能的影响。
实验标明,增多模子参数(从 1B 到 8B)和锻真金不怕火数据量(从 80k 小时到 250k 小时)不错显赫提高语音的当然度、韵律准确性和情谊抒发能力。
要道发现:
文智力路能力:更大的模子和更多的数据简略更好地解析复随笔本(如诗歌、情谊文本)。数据越多,连荒原字,复合词也能辨其真意。
零样本学习能力:扩张锻真金不怕火资源简略显赫提高模子对未见语言东说念主的语音克隆能力。
推理时辰扩张(Scaling Inference-time Compute)
盘考还探索了在推理阶段通过增多野心资源(举例使用语音解析模子算作考证器)来优化生谚语音的质料。实验标明,推理时辰扩张不错显赫提高语音的情谊抒发、音色一致性和执行准确性。
要道步地:
进程奖励模子(PRM):通过冉冉优化生成进程来提高语音质料。
输出奖励模子(ORM):通过评估最终身成的语音来采用最优输出。
实验适度
语音分词器性能:提倡的 Xcodec2 在多个策动上优于现存分词器,尽头是在低比特率下的语音重建质料。
TTS 性能:Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 数据集上达到了源头进的性能,尤其是在情谊雷同性、音色雷同性和零样本学习能力方面。
推理时辰扩张效果:通过 PRM 和 ORM 步地,推理时辰扩张显赫提高了语音合成的质料,尤其是在复杂任务中。
"开源渡世"
咳咳,太乙真东说念主再行上线:
老说念已将丹方(锻真金不怕火代码)、丹药(模子权重)公之于世,广邀三界修士共参:
秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
论文剖析:https://arxiv.org/abs/2502.04128
Llasa 锻真金不怕火代码 https://github.com/zhenye234/LLaSA_training
Codec 锻真金不怕火 https://github.com/zhenye234/X-Codec-2.0
Llasa test-time-scaling 代码 https://github.com/zhenye234/LLaSA_inference
模子权重 : https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44
诸君说念友若有心得,不妨留言论说念,老说念自当逐一解惑!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿执行
附上论文 / 名堂主页剖析,以及干系面孔哦
咱们会(尽量)实时修起你
一键矜恤 � � 点亮星标
科技前沿泄漏逐日见
一键三连「点赞」「转发」「注意心」
接待在驳倒区留住你的念念法!开云体育