谷歌这个腹泻式更新,内容也太多了,有点大公司各个部门争刷存在感的感觉,重点不够清晰,整理一下:LLM 模型方面,- 推出 Gemini 1.5 Flash:一个比 1.5 Pro 更轻量级的模型,拥有 100 万的上下文窗口,是由 1.5 Pro 蒸馏而来。- Gemini 1.5 Pro:上下文窗口扩展到 200 万个 tokens ,另外还通 ...全文
OpenAI 在产品上的能力还是被低估了,这家公司真的是能把一堆「显而易见」的技术打造成一个亮眼的产品,之前 Sora 是这样,现在 GPT-4o Voice Mode 也是如此。你可以说 OpenAI 不务正业,没有全力以赴去搞模型的推理能力,反而分散兵力去搞了一些产品化的探索。(这确实让人对他们的 AGI 愿景感到迷 ...全文
当手机公司在大谈特谈 AI 手机,OpenAI:任何手机+GPT-4o 就是 AI 手机[二哈]当手机公司大谈终端推理,OpenAI:我们将延迟降低到了人类交流的正常水平。苹果:留点面子,6 月 10 日,我还要重新发布 GPT-4o 呢[二哈][二哈][二哈]
GPT-4o 的野心更接近于苹果和微软当年拉开的「图形界面」变革,开创人与计算机的新交互方式,目前最直接能想到的应用:《her》中的萨曼莎、真正的 Siri、盲人向导。现在 GPT-4o 还只能看(图片)和说,未来可能会再加上 action,向真正的数字 agent 方向演进? 仔细想想,这是苹果和谷歌应该 ...全文
GPT-4o 果然是端到端模型,OpenAI 博客:「在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。为实现这一目标,语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本 ...全文
Google Research 与哈佛合作的绘制大脑项目。他们最近绘制了一立方毫米的人脑 3D 图,相关论文于 5 月 9 号发表于 Science 上,可参考:谷歌联合哈佛团队绘制目前最高清人脑局部图谱,包含近1.5亿个神经突触 i陆三金的微博视频
Waymo 现在每周在旧金山、凤凰城、洛杉矶提供5万次付费载客服务。 i陆三金的微博视频
1860s 的蒸汽动力人,你也可以说是汽车的雏形。蒸汽动力,机械人走路来拉动车辆,站在当时人的角度是不是很合理? Runway 首席执行官的这个评论还挺好的,大意是人们喜欢用过去去推测未来,但这往往是错误的。
评论区现在是这样的,我属实没想到,这么快就向人工智障缴枪投降了?你要真是疲劳了,你可以不驾驶,去服务区睡,别在路上霍霍别人。
大连 EX ROBOTS 的这段视频这两天在推特很火,各种西部世界的声音不绝于耳。去年在世界机器人大会上看过他们的展台,其实吧,这种机器人偏表演性质,不需要走路,甚至也不需要面对开放域的环境,更没有自主能力,表演也还是固定脚本,很像迪斯尼乐园情景戏木偶的高清版,跟现在的人形机器人完全不是 ...全文