top of page

我们的社交媒体

  • YouTube Social  Icon
  • QQ图片20190302213724
  • Facebook Social Icon
  • QQ图片20190302213855
Vandaveli.png
Image_20240605103349.png

我们的合作伙伴

2.png

本文来源:华尔街见闻

谷歌和OpenAI你追我赶的时候,第三个派别——开源AI一直在悄悄地抢饭碗。


AI大战,究竟谁才是最终赢家?

或许既不是人们讨论最激烈的OpenAI,也不是微软、谷歌等科技巨头,开源AI可能将在未来占领高地。 周四,据媒体semianalysis报道,谷歌研究员在一份泄密文件中坦言,谷歌没有护城河,OpenAI也是如此,与开源AI竞争将难以占据优势。

正如文件中提到的,开源模型训练速度更快,可定制性更强,更私密,而且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌1000万美元和540亿的参数难以企及”的事情,而且在短短几周内就能做到,而不是几个月。

对于用户而言,如果有一个没有使用限制、免费、高质量的替代品,谁还会为谷歌的产品付费呢? 以下是谷歌泄密文件:谷歌没有护城河,OpenAI也是如此

我们对OpenAI进行了很多审视和思考,谁会跨越下一个里程碑?下一步会有什么行动? 但令人不安的事实是,我们没有能力赢得这场军备竞赛,OpenAI也是如此。在我们争吵不休的时候,第三个派别一直在悄悄地抢我们的饭碗。

我指的是开源AI,简而言之他们正在抢走我们的市场份额。我们认为的“主要的开放问题”如今被解决了,并且已经触达用户。仅举几例: 手机上的LLMs:人们以5 tokens/sec在Pixel 6上运行基础模型。

可扩展的个人人工智能:你可以在一个晚上用你的笔记本电脑上微调生成个性化的AI助手。 负责任的发布:这个问题并没有“解决”,而是“避免”。有的整个网站充满了没有任何限制的艺术模型,而文字也不甘落后。

多模态性:目前的多模态ScienceQA SOTA是在一小时内训练完成的。

虽然我们的模型在质量上仍有一点优势,但差距正在以令人惊讶的速度迅速缩小。开源模型训练速度更快,可定制性更强,更私密,而且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌用1000万美元和540亿的参数难以企及”的事情,而且在几周内就能做到,而不是几个月。这对我们有深远的影响: 我们没有诀窍。我们最大的希望是向谷歌以外的其他人学习并与他们合作。我们应该优先考虑实现3P整合。 当免费的、不受限制的替代品质量相当时,人们不会为一个受限制的模式付费。我们应该考虑我们的附加值到底在哪里? 大模型正在拖累我们,从长远来看,最好的模型是那些可以快速迭代的模型。

发生了什么?

三月初,Meta的大语言模型LLaMA被泄露,开源社区得到了第一个真正有能力的基础模型。它没有指令或对话调整,也没有RLHF。尽管如此,社区立即理解了他们所得到的东西的意义。

随后,巨大的创新成果接连涌现出来,发展仅仅间隔了几天。现在,不到一个月的时间,就出现了指令调整、量化、质量改进、人类评价、多模态、RLHF等变体,许多都是相互关联的。

最重要的是,他们已经解决了缩放(scaling)问题,达到了任何人都可以调整的程度。许多新的想法都来自于普通人,门槛已经从一个主要研究机构下降到一个人、一个晚上和一台强大的笔记本电脑。

在许多方面,这对任何人来说都不那么惊讶。当前开源大模型的复兴紧随生成图像模型的火热,开源社区并没有忘记这些相似之处,许多人称这是LLMs的“Stable Diffusion”时刻。 通过低秩矩阵微调方法(LoRA),结合规模上的重大突破(如大模型Chinchilla),公众可以用较低成本参与进来;在这两种情况下,获得一个足够高质量的模型可以引发了世界各地的个人和机构的想法和迭代的热潮,很快就会超越大型企业。

这些贡献在图像生成领域非常关键,使Stable Diffusion公司走上了与Dall-E不同的道路。拥有一个开放的模式带来的产品整合、市场、用户界面和创新,这些都是Dall-E所没有的。 其效果是可想而知的:在文化影响方面,与OpenAI的解决方案相比,它迅速占据了主导地位,变得越来越相互依赖。同样的事情是否会发生在LLM上还有待观察,但广泛的结构元素是相同的。

我们错过了什么?

开源最近成功的创新直接解决了我们仍在挣扎的问题,多关注他们的工作可以帮助我们避免重蹈覆辙。

LoRA是一个非常强大的技术,我们应该多加注意,LoRA的工作原理是将模型更新表示为低秩因子化,这将更新矩阵的大小减少了几千倍。这使得模型的微调只需要一小部分的成本和时间。能够在几个小时内在消费类硬件上对语言模型进行个性化调整是一件大事,特别是对于那些涉及在近乎实时的情况下纳入新的和多样化的知识。这项技术的存在在谷歌内部没有得到充分的利用,尽管它直接影响了我们一些最雄心勃勃的项目。

从头开始重新训练模型是一条艰难的道路,LoRA之所以如此有效,部分原因在于--像其他形式的微调--是可堆叠的,像指令调整这样的改进可以被应用,然后随着其他贡献者增加对话、推理或工具使用而被利用。虽然单个的微调是低等级的,但它们的总和不需要,允许模型的全等级更新随着时间的推移而积累。

这意味着,随着新的和更好的数据集和任务的出现,模型可以以较低成本保持更新,而不需要支付全面训练的费用。

相比之下,从头开始训练大模型,不仅丢掉了预训练,还丢掉了之前的任何迭代改进。在开源的世界里,这些改进在不久之后就会占据主导地位,从而使全面重新训练的成本变得非常昂贵。

我们应该深思熟虑,每个新的应用或想法是否真的需要一个全新的模型。如果我们真的有重大的架构改进,那么我们应该投资于更积极的提炼形式,尽可能地保留前一代的能力。如果我们能在小模型上更快地进行迭代,那么从长远来看,大模型并不是更有优势。

LoRA更新的成本非常低(约100美元),这意味着几乎任何有想法的人都可以生成。训练时间少于一天是很正常的,在这种速度下,所有这些微调的累积效应不需要很长时间就可以克服初始的模型规模劣势。 数据质量的扩展性比大小更好体现在这些项目中,许多模型通过在小型、高质量的数据集上进行训练来节省时间。这表明在数据扩展规律有一定的灵活性,同时正迅速成为谷歌之外的标准训练方式。这两种方法在谷歌都不占优势,但幸运的是,这些高质量的数据集是开源的,可以免费使用。

与开源直接竞争是一个赔本生意 最近的这一进展对我们的商业战略有直接、重大的影响,如果有一个没有使用限制、免费、高质量的替代品,谁还会为谷歌的产品付费呢?

而且,我们不应该指望能够追赶上,现代互联网在开放源码上运行是有原因的,开放源码有一些无法复制的优势。

我们更需要他们,对我们的技术进行保密始终是不稳固的,谷歌的研究人员经常变动,所以我们可以假设他们知道我们所知道的一切,而且只要这个途径是开放的,相关技术就会继续散播出去。

但在技术方面保持竞争优势变得更加困难,世界各地的研究机构都在彼此的工作基础上,以广度优先的方式探索解决方案的空间,远远超过了我们的能力。我们可以尝试紧紧抓住我们的秘密,而外部的创新会稀释它们的价值,或者我们可以尝试相互学习。

每周五下午5:00-7:00直播: 报名链接: https://us02web.zoom.us/.../571.../WN_cuCx2zB0SgWwkcwLK1HIvA

2023股市面临巨大风险,关注“一级市场”投资机会


我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员


加入方式: 1, 微信: Vandave 2, WhatsApp: 604-7227628 3, 视频号: 时空“资升堂”联系在线客服


风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。


 
 

免责声明

文章内容不代表本网站立场。 如有争议,请随时联系我们!

 

扫码关注我们吧

微信公众号|温渡传媒

资深媒体人|华美嘉

社群运营 · 融媒制作

公关策划 · 活动推广

商务合作:1-778-707-5568

Email:vandomediacorp@gm

ail.com

YouTuBe:https://www.youtube.com/vandomedia

Instagram:VandoMedia

Facebook:https://www.facebook.com/reneezhao716VOA




文章来源: 娱乐圈哔哔King

与英伟达的GPU相比,谷歌TPU采用低精度计算,几乎不影响深度学习处理效果的前提,比基于英伟达 A100 芯片的系统快 1.7 倍,能效高 1.9 倍。


我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI。 本周二,谷歌公布了其训练语言大模型的超级计算机的细节,基于 TPU 的超算系统已经可以比英伟达的同类更加快速、节能。

谷歌张量处理器(tensor processing unit,TPU)是该公司为机器学习定制的专用芯片(ASIC),第一代发布于 2016 年,成为了 AlphaGo 背后的算力。与 GPU 相比,TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度。同时,TPU 使用了脉动阵列等设计来优化矩阵乘法与卷积运算。 当前,谷歌 90% 以上的人工智能训练工作都在使用这些芯片,TPU 支撑了包括搜索的谷歌主要业务。作为图灵奖得主、计算机架构巨擘,大卫・帕特森(David Patterson)在 2016 年从 UC Berkeley 退休后,以杰出工程师的身份加入了谷歌大脑团队,为几代 TPU 的研发做出了卓越贡献。

如今 TPU 已经发展到了第四代,谷歌本周二由 Norman Jouppi、大卫・帕特森等人发表的论文《 TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 》详细介绍了自研的光通信器件是如何将 4000 多块芯片并联成为超级计算机,以提升整体效率的。

TPU v4 的性能比 TPU v3 高 2.1 倍,性能功耗比提高 2.7 倍。基于 TPU v4 的超级计算机拥有 4096 块芯片,整体速度提高了约 10 倍。对于类似大小的系统,谷歌能做到比 Graphcore IPU Bow 快 4.3-4.5 倍,比 Nvidia A100 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。

除了芯片本身的算力,芯片间互联已成为构建 AI 超算的公司之间竞争的关键点,最近一段时间,谷歌的 Bard、OpenAI 的 ChatGPT 这样的大语言模型(LLM)规模正在爆炸式增长,算力已经成为明显的瓶颈。

由于大模型动辄千亿的参数量,它们必须由数千块芯片共同分担,并持续数周或更长时间进行训练。谷歌的 PaLM 模型 —— 其迄今为止最大的公开披露的语言模型 —— 在训练时被拆分到了两个拥有 4000 块 TPU 芯片的超级计算机上,用时 50 天。

谷歌表示,通过光电路交换机(OCS),其超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免出现问题并实时调整以提高性能。

下图展示了 TPU v4 4×3 方式 6 个「面」的链接。每个面有 16 条链路,每个块总共有 96 条光链路连接到 OCS 上。要提供 3D 环面的环绕链接,相对侧的链接必须连接到相同的 OCS。因此,每个 4×3 块 TPU 连接到 6 × 16 ÷ 2 = 48 个 OCS 上。Palomar OCS 为 136×136(128 个端口加上 8 个用于链路测试和修复的备用端口),因此 48 个 OCS 连接来自 64 个 4×3 块(每个 64 个芯片)的 48 对电缆,总共并联 4096 个 TPU v4 芯片。

根据这样的排布,TPU v4(中间的 ASIC 加上 4 个 HBM 堆栈)和带有 4 个液冷封装的印刷电路板 (PCB)。该板的前面板有 4 个顶部 PCIe 连接器和 16 个底部 OSFP 连接器,用于托盘间 ICI 链接。 随后,八个 64 芯片机架构成一台 4096 芯片超算。

与超级计算机一样,工作负载由不同规模的算力承担,称为切片:64 芯片、128 芯片、256 芯片等。下图显示了当主机可用性从 99.0% 到 99.9% 不等有,及没有 OCS 时切片大小的「有效输出」。如果没有 OCS,主机可用性必须达到 99.9% 才能提供合理的切片吞吐量。对于大多数切片大小,OCS 也有 99.0% 和 99.5% 的良好输出。

与 Infiniband 相比,OCS 的成本更低、功耗更低、速度更快,成本不到系统成本的 5%,功率不到系统功率的 3%。每个 TPU v4 都包含 SparseCores 数据流处理器,可将依赖嵌入的模型加速 5 至 7 倍,但仅使用 5% 的裸片面积和功耗。

「这种切换机制使得绕过故障组件变得容易,」谷歌研究员 Norm Jouppi 和谷歌杰出工程师大卫・帕特森在一篇关于该系统的博客文章中写道。「这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。」

在新论文上,谷歌着重介绍了稀疏核(SparseCore,SC)的设计。在大模型的训练阶段,embedding 可以放在 TensorCore 或超级计算机的主机 CPU 上处理。TensorCore 具有宽 VPU 和矩阵单元,并针对密集操作进行了优化。由于小的聚集 / 分散内存访问和可变长度数据交换,在 TensorCore 上放置嵌入其实并不是最佳选择。在超级计算机的主机 CPU 上放置嵌入会在 CPU DRAM 接口上引发阿姆达尔定律瓶颈,并通过 4:1 TPU v4 与 CPU 主机比率放大。数据中心网络的尾部延迟和带宽限制将进一步限制训练系统。

对此,谷歌认为可以使用 TPU 超算的总 HBM 容量优化性能,加入专用 ICI 网络,并提供快速收集 / 分散内存访问支持。这导致了 SparseCore 的协同设计。

SC 是一种用于嵌入训练的特定领域架构,从 TPU v2 开始,后来在 TPU v3 和 TPU v4 中得到改进。SC 相对划算,只有芯片面积的约 5% 和功率的 5% 左右。SC 结合超算规模的 HBM 和 ICI 来创建一个平坦的、全局可寻址的内存空间(TPU v4 中为 128 TiB)。与密集训练中大参数张量的全部归约相比,较小嵌入向量的全部传输使用 HBM 和 ICI 以及更细粒度的分散 / 聚集访问模式。

作为独立的核心,SC 允许跨密集计算、SC 和 ICI 通信进行并行化。下图显示了 SC 框图,谷歌将其视为「数据流」架构(dataflow),因为数据从内存流向各种直接连接的专用计算单元。

最通用的 SC 单元是 16 个计算块(深蓝色框)。每个 tile 都有一个关联的 HBM 通道,并支持多个未完成的内存访问。每个 tile 都有一个 Fetch Unit、一个可编程的 8-wide SIMD Vector Processing Unit 和一个 Flush Unit。获取单元将 HBM 中的激活和参数读取到 2.5 MiB 稀疏向量内存 (Spmem) 的图块切片中。scVPU 使用与 TC 的 VPU 相同的 ALU。Flush Unit 在向后传递期间将更新的参数写入 HBM。此外,五个跨通道单元(金色框)执行特定的嵌入操作,正如它们的名称所解释的那样。

与 TPU v1 一样,这些单元执行类似 CISC 的指令并对可变长度输入进行操作,其中每条指令的运行时间都取决于数据。

在特定芯片数量下,TPU v3/v4 对分带宽比高 2-4 倍,嵌入速度可以提高 1.1-2.0 倍。

下图展示了谷歌自用的推荐模型(DLRM0)在不同芯片上的效率。TPU v3 比 CPU 快 9.8 倍。TPU v4 比 TPU v3 高 3.1 倍,比 CPU 高 30.1 倍。谷歌探索了 TPU v4 超算用于 GPT-3 大语言模型时的性能,展示了预训练阶段专家设计的 1.2 倍改进。

虽然谷歌直到现在才公布有关其超级计算机的详细信息,但自 2020 年以来,基于 TPU 的 AI 超算一直在位于俄克拉荷马州的数据中心发挥作用。谷歌表示,Midjourney 一直在使用该系统训练其模型,最近一段时间,后者已经成为 AI 画图领域最热门的平台。

谷歌在论文中表示,对于同等大小的系统,其芯片比基于英伟达 A100 芯片的系统快 1.7 倍,能效高 1.9 倍,后者与第四代 TPU 同时上市,并被用于 GPT-4 的训练。

对此,英伟达发言人拒绝置评。

当前英伟达的 AI 芯片已经进入 Hopper 架构的时代。谷歌表示,未对第四代 TPU 与英伟达目前的旗舰 H100 芯片进行比较,因为 H100 在谷歌芯片之后上市,并且采用了更先进的制程。

但同样在此,谷歌暗示了下一代 TPU 的计划,其没有提供更多细节。Jouppi 告诉路透社,谷歌拥有开发「未来芯片的健康管道」。

TPU v4 比当代 DSA 芯片速度更快、功耗更低,如果考虑到互连技术,功率边缘可能会更大。通过使用具有 3D 环面拓扑的 3K TPU v4 切片,与 TPU v3 相比,谷歌的超算也能让 LLM 的训练时间大大减少。

性能、可扩展性和可用性使 TPU v4 超级计算机成为 LaMDA、MUM 和 PaLM 等大型语言模型 (LLM) 的主要算力。这些功能使 5400 亿参数的 PaLM 模型在 TPU v4 超算上进行训练时,能够在 50 天内维持 57.8% 的峰值硬件浮点性能。

谷歌表示,其已经部署了数十台 TPU v4 超级计算机,供内部使用和外部通过谷歌云使用。 本文作者:泽南,来源:机器之心,原文标题:《谷歌TPU超算,大模型性能超英伟达,已部署数十台:图灵奖得主新作》

2023股市面临巨大风险,关注“一级市场”投资机会


我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员


加入方式: 1, 微信: Vandave 2, WhatsApp: 604-7227628 3, 视频号: 时空“资升堂”联系在线客服


风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。


 
 

免责声明

文章内容不代表本网站立场。 如有争议,请随时联系我们!

 

扫码关注我们吧

微信公众号|温渡传媒

资深媒体人|华美嘉

社群运营 · 融媒制作

公关策划 · 活动推广

商务合作:1-778-707-5568

Email:vandomediacorp@gm

ail.com

YouTuBe:https://www.youtube.com/vandomedia

Instagram:VandoMedia

Facebook:https://www.facebook.com/reneezhao716VOA




文章来源: 华人生活网

最近,谷歌母公司Alphabet找到了改善该领域最大问题之一——准确性的方法。尽管量子计算和普通大众相去甚远,远远不如AI智能机器人那样能够吸引大家的目光。但科技界普遍认为,量子计算取得突破的意义将是能和人类登月相提并论的壮举。


当市场都在围着ChatGPT转、纷纷议论谷歌正在输给微软之际,谷歌在科技界的“圣杯”量子计算领域取得了重要的进展。

最近,谷歌母公司Alphabet找到了改善该领域最大问题之一——准确性的方法。

和普通计算机的二进制相比,量子计算可以在短时间内处理更多的计算,但是,量子计算很容易就会受到干扰,并且也更容易出错,这是量子计算数十年来面临的大问题。

在多数情况下,量子计算机很容易犯错。这是因为量子比特(量子位)依赖的量子态只能维持不到一秒钟。这意味着,计算机还没来得及完成计算,量子系统中编码的信息就很可能已经丢失了。

因此,纠正由此引起的错误,是业界面临的最艰巨的技术挑战。

在谷歌之前,一些研究人员用一种叫“纠错码”的方法来对机器进行纠错,但这带来的改进十分有限。因为纠错方面迟迟未出现有意义的进展,越来越多人对量子计算机的未来感到悲观。

谷歌的研究人员表示,他们可以将量子计算机处理的信息通过多个量子比特传播,这意味着,即使单个量子比特脱离了它们的量子态,整个系统依然可以保留足够的信息来完成计算。

克服这一纠错障碍,标志着量子计算机进入到新的发展阶段。

谷歌量子研究负责人Hartmut Neven表示,该研究结果标志着“我们构建实用量子计算机之旅的一个里程碑”。他认为纠错是“任何量子计算技术都必须经历的过程”。

不过,根据《自然》杂志文章,采用谷歌新纠正方法的量子计算机,出错率仅下降了4%。研究人员解释称,这是第一次增加系统规模没有导致错误率上升,表明谷歌已经找到了一个“平衡点”。

谷歌研究人员Julian Kelly表示,在纠错方面取得突破,是因为谷歌对其量子计算机的所有部件进行了改进,从量子比特的质量到控制软件,再到用于将计算机冷却到接近绝对零度的低温设备。

Kelly补充说,这已经将错误减少到足够低的水平,因此系统规模增加而出错率没有呈指数级上升。

谷歌认为,这一突破只是构建实用量子计算机六个步骤中的第二步。下一步涉及完善工程学,这样它只需要1000个量子位就可以创建一个逻辑量子位(一个建立在不完美的物理量子位之上的抽象概念),使系统可以正常工作。

谷歌表示,一旦它找到了如何构建并将1000个逻辑量子位连接到一个单一系统的方法,它就会造出一台实用的量子计算机。

更重要的是,它为更广泛的科学界提供了一个飞速提升的基础包括材料科学、数学和电气工程的进一步拓展都可能需要建立在量子计算机取得实际应用的基础上。

但就像ChatGPT等AI工具一样,证明它们有效只是解决这些难题的一部分。量子计算的高精度和低错误率仍然难以捉摸。在这方面的改进是量子计算和人工智能的共同主要目标,OpenAI本周表示,其新的GPT-4在准确性方面已经比前身高40%。

尽管量子计算和普通大众相去甚远,远远不如AI智能机器人那样能够吸引大家的目光。但科技界普遍认为,量子计算取得突破的意义将是能和人类登月相提并论的壮举。

2023股市面临巨大风险,关注“一级市场”投资机会


我们特别邀请了中国第一个私人银行(北京商业银行)的发起人 - John Wang为我们一对一解析一级市场投资机会和风险 “一级市场”投资研讨,不对公众开放,仅限“实名”认证的注册会员


加入方式: 1, 微信: Vandave 2, WhatsApp: 604-7227628 3, 视频号: 时空“资升堂”联系在线客服

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。


 
 

免责声明

文章内容不代表本网站立场。 如有争议,请随时联系我们!

 

扫码关注我们吧

微信公众号|温渡传媒

资深媒体人|华美嘉

社群运营 · 融媒制作

公关策划 · 活动推广

商务合作:1-778-707-5568

Email:vandomediacorp@gm

ail.com

YouTuBe:https://www.youtube.com/vandomedia

Instagram:VandoMedia

Facebook:https://www.facebook.com/reneezhao716VOA




All Videos

All Videos

All Videos
Search video...
麦当劳的房地产神话

麦当劳的房地产神话

04:58
Play Video
连续三天反弹,又转势了?还是死猫跳?2022/09/09

连续三天反弹,又转势了?还是死猫跳?2022/09/09

01:34:25
Play Video
美股9月“开门黑” 美元创二十年新高 - 2022下半年投资展望, 2022/09/02

美股9月“开门黑” 美元创二十年新高 - 2022下半年投资展望, 2022/09/02

01:36:24
Play Video
Banner1
bottom of page