took
@wataru9871
takeの過去形 長岡高専➡︎東大シス創➡︎東大院情報理工
エッホ エッホ エッホ エッホ 残響を保持した音声復元ができるって伝えなきゃ エッホ エッホ エッホ エッホ 残響の制御もできるって伝えなきゃ エッホ みんなに伝えなきゃ paper: arxiv.org/abs/2505.05077 demo: google.github.io/df-conformer/r…
来月のSpeech Synthesis Workshop 2025 (SSW13)で発表します! 韻律ラベルつきTTSのために、HuBERT、Whisperの音響モデルとPnG BERTなどの言語モデルを使うと、音声のアクセントや境界強度の推定精度が上がることを示しました。 blogs.helsinki.fi/ssw13-2025/ful… arXiv preprint: arxiv.org/abs/2507.03912
WASPAAで発表します!
Wataru Nakata, Yuma Koizumi, Shigeki Karita, Robin Scheibler, Haruko Ishikawa, Adriana Guevara-Rukoz, Heiga Zen, Michiel Bacchiani, "ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability," arxiv.org/abs/2505.05077
Wataru Nakata, Yuma Koizumi, Shigeki Karita, Robin Scheibler, Haruko Ishikawa, Adriana Guevara-Rukoz, Heiga Zen, Michiel Bacchiani, "ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability," arxiv.org/abs/2505.05077
Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari, "Active Learning for Text-to-Speech Synthesis with Informative Sample Collection," arxiv.org/abs/2507.08319
All three papers from our project have been accepted to WASPAA⛰️!! Miipher-2 google.github.io/df-conformer/m… ReverbMiipher google.github.io/df-conformer/r… FLOSS google.github.io/df-conformer/f…
春の音響学会の発表が学生優秀発表賞を受賞しました🎉 ありがとうございます。
M2 淺井さんの発表「話者オーバーラップ音声からの特徴抽出に向けた自己教師あり学習モデルの検討」が音響学会 2025年春季研究発表会で学生優秀発表賞を受賞しました.おめでとうございます!👏
M2 淺井さんの発表「話者オーバーラップ音声からの特徴抽出に向けた自己教師あり学習モデルの検討」が音響学会 2025年春季研究発表会で学生優秀発表賞を受賞しました.おめでとうございます!👏
Our paper is now available on arXiv! We propose TTSOps, a closed-loop framework for building multi-speaker TTS from noisy web data by jointly optimizing data cleansing, selection, model training, and evaluation. 🔗arxiv.org/abs/2506.15614
``TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data,'' Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari, ift.tt/7yMOTSm
Our paper titled "Language-Queried Target Speech Extraction Using Para-linguistic and Non-linguistic Prompts" has been ACCEPTED for publication in Acoustical Science and Technology (AST) Letters. Congratulations, Seki-kun!
LASS(言語クエリ音源分離)に基づくTSE(目標音声抽出)の論文がacceptされました! こちらの内容は秋ASJにて発表させていただきますので、ぜひご議論いただけますと幸いです。
My first-authored paper has been accepted! Language-queried audio source separation(LASS) meets target speech extraction (TSE) with a text-to-speech (TTS) corpus. Grateful to my co-authors!
Finally wrapped up my first work after joining @GoogleDeepMind last year 🥳 FLOSS: Flow matching meets Source Separation! with John Hershey, @ArnaudDoucet1 , and Henry Li. 📜 arxiv.org/abs/2505.16119 🔊 google.github.io/df-conformer/f…