背景

传统的文本转语音系统通常需要将文本发送到服务器进行处理，然后再将生成的音频传回客户端。

这种方式不仅延迟较高，还可能涉及隐私风险，因为用户的文本数据需要传输到云端。

Kokoro TTS通过在本地运行的方式，解决了这些问题。

它支持在浏览器中完全离线运行，利用WebGPU加速，确保数据隐私和安全，同时提供高效的语音合成。

简介

Kokoro TTS由hexgrad团队开发并开源。该团队通过创新的模型架构和训练方法，成功打造了一个轻量级但性能卓越的TTS模型。

Kokoro TTS的模型参数仅为8200万，却能在语音合成质量上媲美大型模型。

尽管其架构轻量，但在语音合成质量上可媲美更大型的模型，同时在速度和成本上更具优势。

Kokoro 采用 Apache 2.0 许可证，允许在各种环境中自由部署，无论是生产环境还是个人项目。

参数量小：Kokoro TTS 的模型参数仅为 8200 万，相比一些大型 TTS 模型（如某些基于 Transformer 的模型，参数量可能达到数亿甚至数十亿），其资源占用更少，运行效率更高。

推理速度快：轻量级架构使得 Kokoro TTS 在处理文本转语音任务时能够快速生成音频，适合实时应用场景，如语音助手、实时翻译等。

多语言支持 ：Kokoro 支持英语、西班牙语、法语、意大利语、日语和中文普通话，满足不同语言用户的需求。

完全离线运行：Kokoro 可在浏览器中通过 WebGPU 技术实现完全离线、100% 本地化的语音合成，确保数据隐私和安全。

高效性能：得益于轻量级架构，Kokoro 在保持高质量语音输出的同时，实现了快速的推理速度。

开源许可：采用 Apache 2.0 许可证，用户可以自由地在商业和个人项目中使用 Kokoro。

模型地址:

在线体验:

镜像网站:

通过 HuggingFace 镜像网站 HF Mirror

环境变量 linux

$env:GIT_CLONE_PROTECTION_ACTIVE="false"

windows

set GIT_CLONE_PROTECTION_ACTIVE=false

安装git-lfs

git lfs install
git clone https://hf-mirror.com/hexgrad/Kokoro-82M kokoroDemo