
毅马当闲
2025年02月18日 14:04 来自 微博网页版
网页链接 这是我们组最近与忆生科技(网页链接)、微软研究院等共同完成的另一项在压缩编码的原理下大大简化目前最常用(但非常复杂)的无监督视觉表征学习系统DINO和DINOv2。这项工作再一次证明:只要稍稍应用一下学习的原理,这些通过大量工程与经验设计的系统,不仅可以大 ... 展开

毅马当闲
2025年02月17日 11:14 来自 iPhone 14 Pro Max
首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight Deepseek 的工作从一个侧面反映目前通过经验设计出来的模型有大量的冗余。那么目前的大模型效率是否还有提升空间?能否通过基本数学原理,设计出完全可解释的更高效的学习系统呢?这是我们组,与多个合作伙伴,过去几年一直在努力探索的问题。近期有很多新的发现。这是其中之一。 ... 展开

毅马当闲
2025年02月13日 21:26 来自 微博网页版
这次Deepseek的工作从一个方面揭示了靠非常昂贵的经验试错方式得到的网路构架或优化方法都会有极大的冗余。而很多人并不知道,目前对深度学习的原理已经相对系统完善,压缩编码的理论框架已经可以指导我们设计数学上完全可以解释并且计算效率有本质提升的深度网络构架。ToST是我们在这个方向上探索的初 ... 展开

毅马当闲
2025年02月06日 14:42 来自 微博网页版
回复@暑声:探索不同工程路径,有很大的不确定性。水平、经验与运气并行!另外,工程实现与执行需要很好的管理能力以及其他的支撑资源条件。与纯粹技术水平互补。//@暑声:为啥百度愣是做不出来呢?到底还是人不行
这几天老有人问我如何看deepseek。我个人的看法是deepseek非常像是童话《皇帝的新衣》故事里的那个小孩子,戳破了openai 炒作o1系列模型的泡沫。我早就讲过(例如在twitter上),目前以大模型为主的AI技术在方法上,尤其是在提升大模型推理能力的方法上,没有什么秘密(学术界早就在研究相似的方法: ... 展开
2025年02月05日 19:06 来自 iPhone 14 Pro Max

毅马当闲
2025年02月06日 14:24 来自 iPhone 14 Pro Max
以前说过,对那些带着狭隘的立场或者个人偏见来这里发表意见。没有证据就下结论的,一概拉黑。不再与任何这样的浪费时间。

毅马当闲
2025年02月05日 19:06 来自 iPhone 14 Pro Max
这几天老有人问我如何看deepseek。我个人的看法是deepseek非常像是童话《皇帝的新衣》故事里的那个小孩子,戳破了openai 炒作o1系列模型的泡沫。我早就讲过(例如在twitter上),目前以大模型为主的AI技术在方法上,尤其是在提升大模型推理能力的方法上,没有什么秘密(学术界早就在研究相似的方法: ... 展开

毅马当闲
2025年02月04日 15:16 来自 微博网页版
转发微博
今天大家都在聊大S去世的事情。一位朋友说大S的一生都太要强,而人生不可以太要强。
我说我觉得相比于不可太要强,更重要的可能是不要太强求。
人可以努力,但对结果不要太强求。
我说我觉得相比于不可太要强,更重要的可能是不要太强求。
人可以努力,但对结果不要太强求。
2025年02月04日 14:19 来自 iPhone客户端

毅马当闲
2025年02月01日 13:46 来自 iPhone 14 Pro Max
网页链接 现在开始认识到closed-loop(或者双向编码)的重要性了。我应该是四、五年前就讲过,只要大家都朝着真正的通用智能发展,通过闭环实现自主自洽的学习系统是绕不开的!

毅马当闲
2025年02月01日 13:28 来自 iPhone 14 Pro Max
网页链接 所以说deepseek花很少成本实现目前的模型完全是myth。一万卡的运营成本一年就上亿美元。还不算数据的成本。目前AI的技术路线,还是很暴力很消耗资源的。不过能不计试错成本,把最终模型开源出来,就比ClosedAI高明了太多!

毅马当闲
2025年02月01日 11:05 来自 iPhone 14 Pro Max
奥特曼:在开源AI上,我们错了!DeepSeek让OpenAI优势不再,下一个是GPT-5 我两年前就讲过,中美只要有一方坚持彻底开源,AI就不会脱钩。开源的一方一定会最终领先。当时强烈建议过香港政府全力建设做开源AI平台。 目前的AI在方法上没有任何秘密可言。主要是探索技术实现。独乐乐与众乐乐,不若与众。