苹果
重点新闻(1215~1221)
DRAM 苹果 LLM
苹果提出新方法,成功让边缘装置执行DRAM两倍大的LLM
苹果最近提出一种新方法,来解决行动装置DRAM记忆体不足、难以执行大型语言模型(LLM)的难题。进一步来说,LLM虽有出色的语言处理表现,但需耗费大量运算资源和记忆体,很难在资源有限的边缘装置上执行,特别是DRAM有限的行动装置。
於是,苹果团队结合2种技术,将模型参数储存在快闪记忆体上,再依需求,将参数传送到DRAM,让行动装置也有办法执行原本DRAM无法负荷的LLM应用。这2种技术分别是视窗化(Windowing)和列行合并(Row-column bundling),前者透过重复使用已活化的神经元,来减少资料传输,後者针对快闪记忆体的序列资料存取优势,来增加快闪记忆体读取资料的大小。团队测试,采用这些方法,可执行高达DRAM两倍大的模型,而且与单纯的CPU和GPU加载方法相比,推理速度分别提高了4到5倍和20到25倍。
这项研究意义重大,因为苹果计画将生成式AI功能整合到iOS 18作业系统中,来强化Siri和讯息App体验,更有效地回答问题和自动完成句子。不只苹果,三星最近也推出可在行动装置上执行的语言模型Gauss,并计画纳入2024年初要发布的Galaxy S24手机中,他们还打算将这种语言模型整合到其他手机、笔电和平板电脑等设备。另一方面,Google也推出Gemini Nano低阶版语言模型,可在装置上执行,且预计结合Google Pixel 8手机,要提供录音App的摘要功能和Gboard智慧键盘的智慧回应等功能。(详全文)
LLM Google 影片生成
Google发表影片生成模型VideoPoet
大型语言模型(LLM)不只能用来生成文字、图片,还能生成影片。最近,Google研究院就发表了影片生成模型VideoPoet,可执行一系列影片生成任务,包括文字转影片、图片转影片、产生不同风格的影片、影片修复和外扩,以及影片转音档等。
有别於现有模型分段的做法,VideoPoet的特别之处在於,只用单一个LLM架构就整合多种影片生成能力。VideoPoet以多种标记器(Tokenizer)训练而成,像是让模型理解影片和图片的MAGVIT V2、学习音讯的SoundStream等。
经测试,团队发现,VideoPoet能根据文字提示生成更贴切的影片,也就是文字保真度和动作趣味性比Pika、Stable Video Diffusion、Imagen Video、RunwayML等同类模型表现要好。此外,VideoPoet也擅长零样本学习,能根据单一文字或图片输入,来产出良好且连贯的影片。(详全文)
GAI LLMOps Google
Google要打造从端到云全套GAI工具链
Google在12月发表不少生成式AI工具,不只有大语言模型Gemini,也在AI开发套件Vertex AI上释出企业用Gemini Pro模型预览版API,开放企业免费试用。同时,他们也推出Web版AI Studio开发工具,将自家MLOps开发平台Vertex AI转为聚焦企业GAI开发的LLMLOps平台,要涵盖开发、部署到维运更多模型生命周期阶段的需求。
进一步来说,就Gemini而言,Google发表高阶Ultra版、中阶Pro和用於行动装置的低阶Nano版模型等3种版本,Ultra版将可同时辨识和理解文字、图片与声音,也能处理几种热门开发语言,如Python、Java、C++。而先上架的Gemini Pro模型API预览版,就是中阶款,包括只支援文字输入和生成的Gemini Pro,以及Gemini Pro Vision端点这2种API,後者可处理文字和影像输入,但只输出文字。…