Edge-TTS

Edge-TTS 是 Microsoft Edge 文本转语音 (TTS) 服务的 Swift 实现。该库提供了一个简单易用的 API 接口，允许开发者将高质量的文本转语音功能无缝集成到 Apple 平台应用程序中。

日本語ドキュメント | 中文文档 | 한국어 문서

特性

多种声音和语言

超过 400 种神经网络声音
支持 100+ 种语言和区域变体
自然的语音合成效果

灵活的声音控制

可调节的语速（-50% 到 +100%）
音调控制（-50Hz 到 +50Hz）
音量控制（-50% 到 +50%）
边界类型选择（句子/单词）

丰富的输出选项

支持 MP3 格式导出
实时语音合成流
异步转换和播放
可选的 JSON 元数据导出
可选的 SRT 字幕导出
跨平台文件导出支持 (iOS/macOS)

开发工具

用于快速测试和批量处理的命令行工具
带有可视化配置的本机 GUI 应用程序
详细的 API 文档和使用示例

跨平台兼容性

macOS 13.0+
iOS/iPadOS 15.0+

安装

Swift Package Manager

将以下依赖项添加到您的 Package.swift 文件中

dependencies: [
    .package(url: "https://github.com/brewusinc/edge-tts.git", from: "1.0.0")
]

快速开始

基本用法

import EdgeTTS

// Create TTS instance
let tts = EdgeTTS(config: Configure(
    voice: "en-US-JennyNeural",
    rate: "+0%",
    pitch: "+0Hz",
    volume: "+0%",
    saveJSON: true,  // Enable JSON metadata export
    saveSRT: true,   // Enable SRT subtitle export
    boundaryType: .sentence  // Use sentence boundary (.word for word boundary)
))

// Async conversion
Task {
    do {
        try await tts.ttsPromise(text: "Hello, World!", audioPath: "output.mp3")
        print("Conversion completed")
    } catch {
        print("Conversion failed: \(error)")
    }
}

命令行工具用法

CLI 工具提供两个主要命令：list 和 speak。

列出可用声音

# List all available voices
edge-tts-cli list

# List voices with proxy
edge-tts-cli list --proxy http://host:port

将文本转换为语音

# Basic usage with text
edge-tts-cli speak --text "Hello, World!" --output hello.mp3

# Read text from file
edge-tts-cli speak --file input.txt --output hello.mp3

# Specify voice and language
edge-tts-cli speak --text "Hello, World!" --voice en-US-JennyNeural --lang en-US --output hello.mp3

# Adjust speech parameters
edge-tts-cli speak --text "Hello, World!" --rate +50% --pitch +10Hz --volume +20% --output hello.mp3

# Enable JSON and SRT export
edge-tts-cli speak --text "Hello, World!" --save-json --save-srt --output hello.mp3

# Set boundary type
edge-tts-cli speak --text "Hello, World!" --boundary word --output hello.mp3

# Use proxy
edge-tts-cli speak --text "Hello, World!" --proxy http://host:port --output hello.mp3

speak 命令的可用选项

--text: 要说的文本
--file: 输入文本文件路径
--voice: 要使用的声音（默认：en-US-JennyNeural）
--lang: 要使用的语言（默认：en-US）
--rate: 语速（例如，+0%，-10%）
--pitch: 音调（例如，+0Hz，-10Hz）
--volume: 音量（例如，+0%，-10%）
--boundary: 边界类型（句子或单词，默认：句子）
--save-json: 将时间信息保存为 JSON
--save-srt: 将时间信息保存为 SRT
--proxy: 代理 URL（例如，http://host:port）
--output: 输出文件名（默认：output.mp3）

GUI 应用程序用法

下载并安装最新版本的 Edge TTS Demo
打开应用程序并输入要转换的文本
选择所需的声音和参数设置（语速、音调、音量）
如果需要，启用 JSON/SRT 导出
选择边界类型（句子或单词）
单击“转换并播放”按钮以收听合成语音
使用导出按钮保存文件
- 在 iOS 上：使用系统共享表进行灵活的文件处理
- 在 macOS 上：使用保存对话框选择保存位置

导出功能

文件类型

MP3：包含合成语音的音频文件
JSON：每个句子/单词的时间元数据
SRT：带有时间戳的字幕文件

平台特定导出

iOS/iPadOS
- 系统共享表集成
- 分享到其他应用程序
- AirDrop 支持
- 保存到“文件”应用
macOS
- 本机保存对话框
- 选择保存位置
- 文件类型过滤
- 自动文件扩展名处理

常用声音

您可以使用以下命令获取支持的声音列表

let voices = try await tts.fetchVoices()

流行的英语声音包括

en-US-JennyNeural（女）
en-US-GuyNeural（男）
en-GB-SoniaNeural（女）
en-GB-RyanNeural（男）
en-AU-NatashaNeural（女）

贡献

我们欢迎所有形式的贡献，包括但不限于

错误报告和功能建议
代码改进
文档改进
测试用例添加

许可证

本项目根据 MIT 许可证授权 - 详情请参阅 LICENSE.txt 文件。