はまなすなぎさ
@hamanasu_nagisa
Posts are my own. / 全ての呟きは私個人のささやかな気づきや興味に基づくものです。
全ての煩わしい学習率スケジューリングを滅却するoptimzierを作りました(巨人の肩の上に乗っただけではあるが) 収束品質もちゃんと優秀なのでどんなタスクにも使えます 全人類はAdamを捨ててRAdamScheduleFreeを使いましょうzenn.dev/dena/articles/…
> 2023年9月に2,000基超の「NVIDIA Ampere GPU」── 0.7EFLOPS > 2024年10月には4,000基超の「NVIDIA Hopper GPU」── 4.0EFLOPS > 4,000基超の「NVIDIA Blackwell GPU」を搭載 ... 2025年7月22日に完了 ── 13.7EFLOPS 着実に桁が上がっていて頼もしいというか恐ろしい
世の中的にはタスクやドメインに熱量を注ぐ人が注目を浴びやすいけど、数百GPU規模の分散訓練や深層学習の技術そのものに興味ある人って結構いるはずだと勝手に思っていて、そういうみなさんは業務委託とかでもいいのでぜひ一度うちを体験してそのまま心を掴まれてぬるっと入社してほしさがある
FSDP2でfully shardからHSDPまで柔軟に設計して大規模訓練するのがだいぶ板についてきた やらねばわからない勘所が毎秒新鮮に手に入るという意味で現環境の感覚がバグる規模の計算環境は本当にありがたいし楽しい 日々楽しい
なんかふと左足の小指の爪見たら根本から垂直に折れてて、みるみるうちに剥がれていって綺麗に爪が取れたのだが、それがなぜか親指サイズの小指に似つかわしくない大きさで、そのやや白く濁った半透明な薄い湾曲面を指先でつまんで通りすがる人に見せるという意味不明な悪夢を昨晩見たことを思い出した
XやYouTubeに溶ける可処分時間も我々の敵だけど、それなりに丁寧な構造を維持しつつ大きくなったリポジトリやきちんとメンテし続けているREADMEを眺めながら定期的にニヨニヨしてしまうのもエンジニアの敵だと思っている なんか作った作品をたまに見返して満足げになってしまうあの現象にかなり近い
関連トピックの記事は既にいくつもあれど、これくらいの濃度(単に表層を撫でるだけでもなく、かといって深く立ち入りすぎない絶妙さ)でこれくらい一本筋でコンパクトにまとめてくれてある記事はあまり見た記憶がないので、ふと立ち返る場所として重宝しそうな記事だったzenn.dev/green_tea/arti…