马东锡 NLP
@dongxi_nlp
Prev. PhD @Stockholm_Uni | Alumni @KTHuniversity @uppsalauni Sharing insights on AI, autonomous agents, and large language & reasoning models.
Qwen3 最新模型的 GSPO 与 Kimi K2 的 Process Accuracy 概念相通: 都把奖励、优化和评估提升到 sequence / tool-call 级别,把 LLM 从 token 里解放出来。 本质上,重新定义了 Agentic LLM 最基本的核心单元,不是 token,而是与具体任务最相关的序列。
建议有条件的朋友学习弹钢琴。让大脑在 vibe 一切的当下,保留一份清醒感。 最近练习 C 大调与 D 大调的卡农,音阶不同,旋律却几乎一模一样。听来仍是那首曲子,但传递出的情感截然不同: C 像是一场内心的安静独白, D 更像是向世界敞开的表达。…
Kimi K2的report仔细读了,很棒! 然而,与Agentic capability最关联的 Agent task rubrics, report中匆匆几笔带过,只描绘了大概,没有具体信息。 “Each task is paired with an explicit rubric that specifies success criteria, expected tool-use patterns, and evaluation checkpoints. ”…
OpenAI 和 Gemini 相隔两天分别宣布他们的模型达到了国际数学奥林匹克 IMO 金牌水平。 为什么差两天?因为 IMO Board 要求所有 AI lab,必须在参赛学生成绩宣布后,以及在独立专家验证其结果后,才能宣布。 显然,OpenAI 没有按照这个规定完成流程,这家公司的文化,明显出了问题。
Lovable 成功融资2亿美元,跻身独角兽。 Lovable 来自瑞典,创始人Anton是我校友,他还曾经去浙大交换过! Anton 从2023年底开始做 Lovable,那时候推友们在干啥呢!
ChatGPT agent can automate repetitive tasks. 我在想,什么样的工作不是repetitive的?

Congrats! Super exciting work!
Excited to share what we’ve been working on!