潘俊杰（Jeff） - 大模型算法专家

工作经历和教育背景

职业经历

2023 - 至今

语音算法专家

字节跳动 - Seed

- 豆包语音：负责豆包大模型的语音能力交付，包括语音朗读、实时通话、唱歌和方言支持
- Audio Caption：开发基于多模态大模型的音频描述生成系统，实现真实语音的精准描述
- 领导语音交互生成团队，支持多种应用场景

2018 - 2023

语音算法工程师

字节跳动 - AI Lab

- 番茄小说有声书：从 0 到 1 搭建自动化单播、多播有声书方案
- 剪映文本朗读：上线抖音小姐姐、东北老铁、陕西佟掌柜等热门音色
- 优化语音合成模型，提升自然度和真实感

2016 - 2018

语音算法工程师

Cerence (Nuance)

- 方言 TTS 系统：开发支持多种中国方言的语音合成系统
- TTS 前端：优化文本分析和韵律建模技术
- 参与车载语音助手的研发，提升在复杂环境下的识别率

教育背景

2015 - 2016

硕士

英国剑桥大学

机器学习 (Machine Learning)

2013 - 2015

本科

英国伯明翰大学

电子电气工程与计算机工程 (EECE)

2011 - 2013

本科

华中科技大学

通信工程

项目成果

豆包语音

为豆包大模型提供语音能力，包括朗读、实时通话、唱歌和方言支持

S2S Voice Chat Singing Dialect

番茄小说有声书

从 0 到 1 搭建自动化单播、多播有声书方案，支持多种音色选择

单播多播自动后期情感细粒度

剪映文本朗读

上线抖音小姐姐、东北老铁、陕西佟掌柜等热门音色，支持方言和特色发音

音色克隆 Dialect Multi-Language

🎵

Audio Caption

开发基于多模态大模型的音频描述生成系统，实现真实语音的精准描述

ALM GRM

🏮

方言 TTS 系统

开发支持多种中国方言的语音合成系统，提升方言识别和合成精度

音色迁移 Dialect

🌍

多语种 TTS 系统

支持中、英、日、韩、法、德、意、西、阿、越等共计15语种的语音合成系统

音色迁移 Multi-Language LID

学术产出

Seed-tts: A family of high-quality versatile speech generation models

P Anastassiou, J Chen, J Chen, Y Chen, Z Chen, Z Chen, J Cong, L Deng, ... arXiv preprint arXiv:2406.02430, 2024 引用: 272

Speech SynthesisTTSMachine Learning

A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis

J Pan, X Yin, Z Zhang, S Liu, Y Zhang, Z Ma, Y Wang ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, 2020 引用: 42

Speech SynthesisTTSNLP

Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech

P Wu, J Pan, C Xu, J Zhang, L Wu, X Yin, Z Ma arXiv preprint arXiv:2110.04153, 2021 引用: 23

Speech SynthesisEmotion TransferMachine Learning

你好，我是潘俊杰（Jeff）

工作经历和教育背景

职业经历

教育背景

项目成果

学术产出

Seed-tts: A family of high-quality versatile speech generation models

A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis

Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech

A chapter-wise understanding system for text-to-speech in Chinese novels

A hybrid text normalization system using multi-head self-attention for mandarin

A novel chinese dialect TTS frontend with non-autoregressive neural machine translation

Direct speech-to-speech translation without textual annotation using bottleneck features

An Automatic Soundtracking System for Text-to-Speech Audiobooks

An End-to-End Speaker Determination Model with Joint Learning for Text-to-Speech Audiobooks

你好，我是 潘俊杰（Jeff）

工作经历和教育背景

职业经历

教育背景

项目成果

学术产出

你好，我是潘俊杰（Jeff）