Toma Tanaka
@fuyu_quant
BrainPad Inc. Data Scientist | AutoRes https://www.autores.one/japanese (AI研究の自動化PJ,松尾研発PJ) | 自動研究のためのOSS「AIRAS」の開発
現在開発している研究自動化のためのOSS「AIRAS」がGENIACプロジェクトの一つとして利用されることになりました!! まだ未完成の部分もありますが、研究自動化の基盤となるような仕組みを引き続き開発していきます。 prtimes.jp/main/html/rd/p… #GENIAC
LLMの学習に関するハードウェアのことがまとめられていてすごい。 ここまでまとめられている資料は見たことがない... automation.jp/research-repor…
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation 新しいdLLMと、その性能を上げるための強化学習手法(coupled-GRPO)の提案。GRPOをdLLMのために改良 拡散言語モデル(dLLM)の論文がいろいろ出てきている。 arxiv.org/abs/2506.20639
Kimi K2 DeepSeekに似たモデルでヘッド数を減らしてexpertを増やした、1兆パラメータのMoEモデル。 幅広いタスクで最新のオープンモデルを超える性能。ツールの利用方に関するデータセットでの学習も行っている。商用利用可能。

Potemkin Understanding in Large Language Models ポチョムキン理解(表面的には理解しているように見えるが概念の適用を誤る現象)の命名とその頻度を定量化した研究 現在のLLMは概念の応用力に欠けており、既存のベンチマークでは理解力を測るのに不十分なことを示唆 arxiv.org/abs/2506.21521
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models 新しいMoEであるChain-of-Expertsを提案。CoEではトークンを各レイヤー内で複数のexpertsに順番に渡し、段階的に隠れ状態を変化させ、それぞれの隠れ状態にあったルーティングを行う。 arxiv.org/pdf/2506.18945

What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models LLMがworld modelを獲得できているかを評価する手法,Inductive bias probeを提案 合成データセットに対して背後にあるworld modelを学習し新しいタスクを解かせ検証 arxiv.org/pdf/2507.06952

Agents4Science 2025 AIによる論文の執筆が必須でAIがレビューを行うカンファレンスの第一回が開催 これは投稿したい agents4science.stanford.edu

ウェイティング出すだけだしてみよ
👀NexaScienceのコアとなるOSS「AIRAS」のお披露目 🙇プロダクトのウェイティングリストへの登録募集 の2本立てでございます! 株式会社NexaScience、研究自動化AI「AIRAS」の開発支援と商用展開を本格始動 prtimes.jp/main/html/rd/p… @PRTIMES_JPより
牛久さんに紹介していただいている、研究自動化の基盤になるOSS「AIRAS」を開発しています!! 現在も活発に開発を進めており、コントリビューションはいつでも大歓迎です!
👀NexaScienceのコアとなるOSS「AIRAS」のお披露目 🙇プロダクトのウェイティングリストへの登録募集 の2本立てでございます! 株式会社NexaScience、研究自動化AI「AIRAS」の開発支援と商用展開を本格始動 prtimes.jp/main/html/rd/p… @PRTIMES_JPより
株式会社NexaScience、「GENIAC」第3期公募において「自律駆動R&DのためのAIエージェントアダプターの研究開発」が... prtimes.jp/main/html/rd/p…
GENIACですってよ 株式会社NexaScience、「GENIAC」第3期公募において「自律駆動R&DのためのAIエージェントアダプターの研究開発」が採択 prtimes.jp/main/html/rd/p… @PRTIMES_JPより
スタンフォード大の「多言語におけるAIの確信的表現が利用者に与える影響」の研究により、日本語が最も「AIへの過依存リスクが高い」ことが判明した。 日本語話者は、AIの回答を疑わずに信じてしまう依存度が他の言語に比べて高く、AIが自信満々に言う間違いに引っかかってしまう割合が最も高かった。
Models talk big and users believe them, no matter the language. LLMs often sound sure even when wrong. This paper checks that pattern and how people react across 5 languages. Confidence words like 'definitely' or 'maybe' are called epistemic markers. When a model uses a…
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 従来のLLMで行っているトークン化の処理をモデルが内容や文脈に応じて自動的に行う動的チャンキングを行うH-Netを提案 従来の言語モデルに比べデータ効率がよく汎用性が高い結果になった。 arxiv.org/abs/2507.07955

もろもろ整ったらちゃんと告知をしますが、データサイエンティスト向けの実践的なエンジニアリング本を夏に発売する予定です 仕事に慣れてきた若手の方が読んだり、PMやMLOpsエンジニアがDSに紹介するような使い方をしてもらえたら嬉しいです
タイトル的にはGoogleの話ですが、後半では私どもが人工知能学会でお話したこともピックアップして頂いてありがたい限り👏 自律駆動開発を日本からも盛り上げていきます‼ AlphaEvolveが変える研究開発の在り方 進む自動化、AI開発力勝負になる可能性も xtech.nikkei.com/atcl/nxt/colum…
ポケモンバトルのLLMを用いた研究のsurvey ポケモンバトルを再現するPythonライブラリが作られてるの面白い speakerdeck.com/tt1717/lun-wen…
o4-miniやGemini 2.5などを使い、モンテカルロ木探索の幅と深さの探索の他にどのLLMモデルで推論させるべきかも探索させ、推論時間スケーリングにより難しい問題を解くアルゴリズム,Multi-LLM AB-MCTSを提案 Sakana AIの研究 sakana.ai/ab-mcts/
AutoResではAI研究、数学研究の自動化を目指して活動しています! 過去の投稿 x.com/sugakuyaro/sta…
arXiv公開🙌 AutoResではAIによるAI研究を目指しています. 機械学習の理論を自動で形式検証するためにはライブラリが必要ですが,まだまだライブラリが足りないので力を合わせて作っています. Lean Formalization of Generalization Error Bound by Rademacher Complexity arxiv.org/abs/2503.19605