你好,我是 潘俊杰(Jeff)

大模型算法专家

目前在字节跳动 Seed 担任语音生成与交互团队负责人。

研究方向:多模态生成式大模型、语音对话大模型、Audio Caption

工作经历和教育背景

职业经历

2023 - 至今
语音算法专家
字节跳动 - Seed
- 豆包语音:负责豆包大模型的语音能力交付,包括语音朗读、实时通话、唱歌和方言支持
- Audio Caption:开发基于多模态大模型的音频描述生成系统,实现真实语音的精准描述
- 领导语音交互生成团队,支持多种应用场景
2018 - 2023
语音算法工程师
字节跳动 - AI Lab
- 番茄小说有声书:从 0 到 1 搭建自动化单播、多播有声书方案
- 剪映文本朗读:上线抖音小姐姐、东北老铁、陕西佟掌柜等热门音色
- 优化语音合成模型,提升自然度和真实感
2016 - 2018
语音算法工程师
Cerence (Nuance)
- 方言 TTS 系统:开发支持多种中国方言的语音合成系统
- TTS 前端:优化文本分析和韵律建模技术
- 参与车载语音助手的研发,提升在复杂环境下的识别率

教育背景

2015 - 2016
硕士
英国剑桥大学
机器学习 (Machine Learning)
2013 - 2015
本科
英国伯明翰大学
电子电气工程与计算机工程 (EECE)
2011 - 2013
本科
华中科技大学
通信工程

项目成果

豆包语音
豆包语音
为豆包大模型提供语音能力,包括朗读、实时通话、唱歌和方言支持
S2S Voice Chat Singing Dialect
番茄小说有声书
番茄小说有声书
从 0 到 1 搭建自动化单播、多播有声书方案,支持多种音色选择
单播 多播 自动后期 情感细粒度
剪映文本朗读
剪映文本朗读
上线抖音小姐姐、东北老铁、陕西佟掌柜等热门音色,支持方言和特色发音
音色克隆 Dialect Multi-Language
🎵
Audio Caption
开发基于多模态大模型的音频描述生成系统,实现真实语音的精准描述
ALM GRM
🏮
方言 TTS 系统
开发支持多种中国方言的语音合成系统,提升方言识别和合成精度
音色迁移 Dialect
🌍
多语种 TTS 系统
支持中、英、日、韩、法、德、意、西、阿、越等共计15语种的语音合成系统
音色迁移 Multi-Language LID

学术产出

Seed-tts: A family of high-quality versatile speech generation models

P Anastassiou, J Chen, J Chen, Y Chen, Z Chen, Z Chen, J Cong, L Deng, ... arXiv preprint arXiv:2406.02430, 2024 引用: 272
Speech SynthesisTTSMachine Learning

A unified sequence-to-sequence front-end model for mandarin text-to-speech synthesis

J Pan, X Yin, Z Zhang, S Liu, Y Zhang, Z Ma, Y Wang ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, 2020 引用: 42
Speech SynthesisTTSNLP

Cross-speaker emotion transfer based on speaker condition layer normalization and semi-supervised training in text-to-speech

P Wu, J Pan, C Xu, J Zhang, L Wu, X Yin, Z Ma arXiv preprint arXiv:2110.04153, 2021 引用: 23
Speech SynthesisEmotion TransferMachine Learning

A chapter-wise understanding system for text-to-speech in Chinese novels

J Pan, L Wu, X Yin, P Wu, C Xu, Z Ma ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing, 2021 引用: 17
Speech SynthesisNLPChinese Language

A hybrid text normalization system using multi-head self-attention for mandarin

J Zhang, J Pan, X Yin, C Li, S Liu, Y Zhang, Y Wang, Z Ma ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, 2020 引用: 30
Text NormalizationNLPChinese Language

A novel chinese dialect TTS frontend with non-autoregressive neural machine translation

J Zhang, W Bao, J Pan, X Yin, Z Ma arXiv preprint arXiv:2206.04922, 2022 引用: 8
Speech SynthesisChinese DialectsMachine Translation

Direct speech-to-speech translation without textual annotation using bottleneck features

J Zhang, J Pan, X Yin, Z Ma arXiv preprint arXiv:2212.05805, 2022 引用: 3
Speech TranslationSpeech ProcessingMachine Learning

An Automatic Soundtracking System for Text-to-Speech Audiobooks

Z Chen, L Wu, J Pan, X Yin, AI Bytedance INTERSPEECH, 2022 引用: 1
Audio ProcessingSpeech SynthesisAudiobook

An End-to-End Speaker Determination Model with Joint Learning for Text-to-Speech Audiobooks

L Wu, J Pan, X Yin, Z Ma, AI Bytedance , 2022 引用: 0
Speech SynthesisSpeaker RecognitionAudiobook