
Machine Pro ・会员通讯的心脏沟通第29周---本周我们将解释值得尝试的AI机器人行业的关键问题--- 1。“铁三角CV”已解决。 Visualai在多模式中如何发展?完成进一步狩猎策略的深刻含义是什么?您如何验证“ CV铁三角”的五个任务?多模式AI的重要进展?多模式AI的发展还有哪些其他里程碑?我们应该克服其他哪些障碍才能实现完整的模态OMNI-LLM? ... 2。多个代理商的合作正在出现,但是注定要简单地成为过渡计划吗?获得改进的发电(抹布)和持续记忆机制之间的相似性和差异,以及如何实现互补性?多级内存体系结构和短篇小说的动态压缩如何有效地支持?在多模式和多支持环境中,内存系统如何避免语义漂移和上下文“污染”?如何设计有效的机制,以管理上下文优先级和搜索对大型内存数据的多级上下文? ... 3。困惑是否使用本机AI浏览器来对抗Google的“流量限制”?为什么最近拍摄了混乱?为什么Google只能推出流量有限的AI产品? Aravind Srinivas如何设计公司的“坑”产品?如何使用有限的资源来打破巨人的“攻城”的混乱? ...该新闻通讯的完整版本包括3个对特殊主题的解释 + 30个机器人技术,10个技术方面,8个国家方面和12个外国方面的关键事件。这个沟通问题总共有24,110个单词,最多可以免费使用7%的罐头。消费99个豆子微信可以在完全解释此问题的过程中解释关键问题(约9.9)。 Dola对V-Hierro三角“元” Evolv的解释ES到多模式。经过行业审查,发现是视觉AI和未来“完整模式模型”发展的重要道路的基础。 Openai的苏黎世办事处以前与GoogleBrain合作(后来合并到DeepMind中),被称为Google的“ CV三角形”,并于2024年加入Openai,建立了Zurich。办公室。 2。这三个团队已经工作了近十年。他们的研究项目,包括最著名的“ VIT”,是极其连续性,其研究轨迹与视觉AI的开发路径大致相当。 [1-1] AI的社区组织了包括S4L在内的“三角形CV”领导的五项代表性任务,并组织了BIT系列VIT,MLP-MIXER和PALI,该任务涵盖了从图像到多模式融合的开发路线。根据芽结果发布的数据顺序,2019年5月提出的“ S4L”针对图像类别的半乳房学习问题ifier。结合自动学习和半表面。模型的“ Fabrica”学习目标,用于未通过辅助任务标记的样品,从而减少了手动注释的依赖性,从而提高了培训的一般有效性。后基本模型采用的基本范式,包括剪辑和萨摩尔,于2020年10月您可以将纯变压器应用于视觉任务,试图将图像转换为向量,并且可以与其他模态相关,例如共享函数空间中的文本。 VIT表明,“ CNN并不是训练一般技能的唯一选择”,并且了解全球图像的能力也是实现图像和文本等方式深入融合的基础。 2021年5月提议的“ MLP混合”具有一个变压器,该变压器具有CVES,可以重新考虑其在任务中受欢迎的性能与建筑复杂性之间的相关性。这项工作使用令牌混合物和通道的混合物来实现信息的交换空间位置和功能通道之间的区别。没有卷积和自催化机制,使用最简单的MLP体系结构对具有出色功能的模型进行了训练。 parings于2022年9月提议,是“多模式统一”的早期尝试。帕利(Pali)结合了对图像的理解和语言的产生,以将问题的所有图像转换为文本生成任务,通过此界面以多种语言执行视觉,语言和多模式任务。在这条道路下,Google从那以后衍生出Pali 3,Paligemma和其他任务。 3。从图像分类任务到基于图像的多语言对话,对“ CV铁三角形”的研究可以逐步进行项目并提高AI的视觉能力,并同时在一系列任务中构建现代多模式AI的基本框架,因此,可以整合集合模型AI集成AI模型的能力。什么是“英里”石头和视觉AI的多模式?