took (@wataru9871)

Pinned

t

took@wataru9871 · May 9

ｴｯﾎｴｯﾎｴｯﾎｴｯﾎ残響を保持した音声復元ができるって伝えなきゃｴｯﾎｴｯﾎｴｯﾎｴｯﾎ残響の制御もできるって伝えなきゃｴｯﾎみんなに伝えなきゃ paper: arxiv.org/abs/2505.05077 demo: google.github.io/df-conformer/r…

2

42

203

92

25.0K

took Retweeted

T

Tomoki Koriyama@hyama5_ · Jul 22

来月のSpeech Synthesis Workshop 2025 (SSW13)で発表します！韻律ラベルつきTTSのために、HuBERT、Whisperの音響モデルとPnG BERTなどの言語モデルを使うと、音声のアクセントや境界強度の推定精度が上がることを示しました。 blogs.helsinki.fi/ssw13-2025/ful… arXiv preprint: arxiv.org/abs/2507.03912

0

11

38

10

3.0K

t

took@wataru9871 · Jul 17

WASPAAで発表します！

aarXiv Sound@ArxivSound · Jul 17

Wataru Nakata, Yuma Koizumi, Shigeki Karita, Robin Scheibler, Haruko Ishikawa, Adriana Guevara-Rukoz, Heiga Zen, Michiel Bacchiani, "ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability," arxiv.org/abs/2505.05077

0

3

26

1

2.0K

took Retweeted

a

arXiv Sound@ArxivSound · Jul 17

Wataru Nakata, Yuma Koizumi, Shigeki Karita, Robin Scheibler, Haruko Ishikawa, Adriana Guevara-Rukoz, Heiga Zen, Michiel Bacchiani, "ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability," arxiv.org/abs/2505.05077

0

3

18

5

3.0K

t

took@wataru9871 · Jul 14

espnet,依存おおすぎるんだよな．espnetで完結すればいいけど他のライブラリと合わせると大体コンフリクト起きる

0

18

0

1.0K

took Retweeted

a

arXiv Sound@ArxivSound · Jul 14

Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari, "Active Learning for Text-to-Speech Synthesis with Informative Sample Collection," arxiv.org/abs/2507.08319

0

4

12

8

2.0K

t

took@wataru9871 · Jul 12

ablation studyほど和訳が難しい単語あるか？

0

5

0

691

took Retweeted

Y

Yuma Koizumi@yuma_koizumi · Jul 2

All three papers from our project have been accepted to WASPAA⛰️!! Miipher-2 google.github.io/df-conformer/m… ReverbMiipher google.github.io/df-conformer/r… FLOSS google.github.io/df-conformer/f…

0

14

55

6

5.0K

t

took@wataru9871 · Jul 1

春の音響学会の発表が学生優秀発表賞を受賞しました🎉 ありがとうございます。

YYuki Saito@ysaito_human · Jun 30

M2 淺井さんの発表「話者オーバーラップ音声からの特徴抽出に向けた自己教師あり学習モデルの検討」が音響学会 2025年春季研究発表会で学生優秀発表賞を受賞しました．おめでとうございます！👏

0

5

71

2

7.0K

took Retweeted

Y

Yuki Saito@ysaito_human · Jun 30

M2 淺井さんの発表「話者オーバーラップ音声からの特徴抽出に向けた自己教師あり学習モデルの検討」が音響学会 2025年春季研究発表会で学生優秀発表賞を受賞しました．おめでとうございます！👏

1

3

26

2

10.0K

t

took@wataru9871 · Jun 25

音声LLM，テキストの指標をそのまま使うのではなくて，音声特有のなにかを評価してほしいという気持ちが強い．

0

2

18

5

2.0K

t

took@wataru9871 · Jun 19

Our paper is now available on arXiv! We propose TTSOps, a closed-loop framework for building multi-speaker TTS from noisy web data by jointly optimizing data cleansing, selection, model training, and evaluation. 🔗arxiv.org/abs/2506.15614

aarXiv Sound@ArxivSound · Jun 19

``TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data,'' Kentaro Seki, Shinnosuke Takamichi, Takaaki Saeki, Hiroshi Saruwatari, ift.tt/7yMOTSm

0

15

53

11

12.0K

took Retweeted

H

Hiroshi Saruwatari@hsaruwatari727 · Jun 16

Our paper titled "Language-Queried Target Speech Extraction Using Para-linguistic and Non-linguistic Prompts" has been ACCEPTED for publication in Acoustical Science and Technology (AST) Letters. Congratulations, Seki-kun!

0

11

18

1

6.0K

t

took@wataru9871 · Jun 16

LASS（言語クエリ音源分離）に基づくTSE（目標音声抽出）の論文がacceptされました！こちらの内容は秋ASJにて発表させていただきますので、ぜひご議論いただけますと幸いです。

KKentaro Seki / 関健太郎@trgkpc · Jun 16

My first-authored paper has been accepted! Language-queried audio source separation(LASS) meets target speech extraction (TSE) with a text-to-speech (TTS) corpus. Grateful to my co-authors!

0

6

42

1

5.0K

took Retweeted

R

Robin Scheibler@fakufakurevenge · May 26

Finally wrapped up my first work after joining @GoogleDeepMind last year 🥳 FLOSS: Flow matching meets Source Separation! with John Hershey, @ArnaudDoucet1 , and Henry Li. 📜 arxiv.org/abs/2505.16119 🔊 google.github.io/df-conformer/f…

3

25

185

75

20.0K