生成式AI技术栈:让AI未来更快到来

现在人工智能领域正在发生着很多事情!过去需要数年开发的应用现在可以在周末黑客马拉松活动中建立。这完全说明了基础模型的强大(我们尚未找到其极限),以及基础设施层快速创新的力量,使更多开发人员能够使用这种能力。虽然这种进展打开了令人兴奋的可能性,但对于开发人员来说,也带来了挑战,他们可能会因为可用选项的纷繁复杂而感到不知所措。幸运的是,随着生态系统的成熟,我们正在看到新的生成式人工智能堆栈组件的出现。

应用框架

应用框架已经出现,可以快速吸收新创新的风暴,并将它们合理化为一个连贯的编程模型。它们简化了开发过程,使开发人员能够快速迭代。

出现了几种框架,每种都建立了自己的可互换和互补的工具生态系统。LangChain已成为开发者社区使用基础模型构建的开源焦点。Fixie正在构建用于创建、部署和管理AI代理的企业级平台。云服务提供商也在构建应用框架,例如微软的语义内核和Google Cloud的Vertex AI平台。

开发人员正在使用这些框架创建生成新内容的应用程序,创建允许用户使用自然语言搜索内容的语义系统,以及执行任务的代理。这些应用程序已经从根本上改变了我们创造、综合信息和工作的方式。

工具生态系统使应用程序开发者更容易利用其客户的领域专业知识和理解,而无需在基础设施层面上具备所需的技术深度,从而更容易实现其愿景。今天的生态系统可以分为四个部分:模型、数据、评估平台和部署


模型

让我们从基础模型(Foundational Model, FM)本身开始。FM能够进行类似于人类的推理。它们是所有这些背后的“大脑”。开发人员可以选择多个FM,其输出质量、模态、上下文窗口大小、成本和延迟不同。最优设计通常要求开发人员在其应用程序中使用多个FM的组合。

开发人员可以选择供应商Open AI、Anthropic或Cohere创建的专有FM,或者使用越来越多的开放源代码FM之一。开发人员还可以选择训练自己的模型。


  1. 基础模型:开发人员可以选择提供商构建的模型。

  1. 托管: 寻找使用开源模型(例如Stable Diffusion、GPT-J、FLAN T-5、Llama)的开发人员可以选择以下托管服务之一。公司如OctoML的新进展不仅允许开发人员在服务器上托管模型,还可以在边缘设备甚至浏览器上部署模型。这不仅提高了隐私和安全性,还降低了延迟和成本。

  1. 训练:开发人员可以使用各种新兴平台训练自己的语言模型。其中一些团队已经构建了开源模型,开发人员可以直接使用。

数据

LLM是一种强大的技术。但是,它们受限于它们所训练的事实推理。这对于希望根据自己关心的数据做出决策的开发人员来说是限制性的。幸运的是,开发人员可以使用机制来连接和操作他们的数据:


  1. 数据加载器:开发人员可以从各种来源获取数据。这包括来自结构化数据源(如数据库)和非结构化数据源的数据加载器。企业客户使用由 Unstructured.io 构建的复杂ETL管道将存储在PDF、文档、演示文稿等非结构化数据中的数据生成个性化内容生成和语义搜索应用程序。

  1. 向量数据库:构建LLM应用程序,特别是语义搜索系统和对话界面时,开发人员通常希望使用LLM嵌入将各种非结构化数据向量化并存储这些向量,以便可以有效地查询它们。向量存储在支持的模态、性能和开发人员体验方面有所不同。有几个独立的向量数据库提供和其他由现有数据库系统构建的向量数据库。

  1. 上下文窗口:检索增强生成(Retrieval-augmented Generation)是一种流行的技术,通过直接在提示中合并数据,可以个性化模型输出。开发人员可以通过微调实现个性化,而无需修改模型权重。项目如LangChain和LlamaIndex提供了将数据结构化到模型的上下文窗口中的数据结构。

评估平台

LLM开发者需要在模型性能、推理成本和延迟之间进行权衡。开发者可以通过在提示、微调模型或在不同的模型提供商之间切换来改善这三个方面的性能。然而,由于LLM的概率性和任务的不确定性,评估性能更加复杂。


幸运的是,有几个评估工具可以帮助开发者确定最佳提示,提供离线和在线实验跟踪,并监控生产中的模型性能:

  1. 提示工程:有各种无代码/低代码工具可帮助开发者迭代提示,并在不同模型之间看到各种输出。提示工程师可以利用这些平台精细调整他们的应用体验中的最佳提示。

  1. 实验:希望尝试提示、超参数、微调和模型本身的ML工程师可以使用多种工具跟踪他们的实验。实验模型可以在基准数据集、人工标注者或甚至LLMs中使用离线方法进行评估。然而,离线方法只能带你走到这一步。开发者可以使用像Statsig这样的工具来评估生产中的模型性能。数据驱动的实验和更快的迭代周期对于建立防御性是至关重要的。

  1. 可观察性:在生产中部署应用后,需要跟踪模型的性能、成本、延迟和行为。这些平台可用于指导未来的提示迭代和模型实验。WhyLabs最近推出了LangKit,使开发者能够了解模型输出的质量,保护免受恶意使用模式的影响,并进行负责任的AI检查。

部署

最终,开发人员希望将他们的应用程序部署到生产环境中。

开发人员可以自行托管LLM应用程序,并使用流行的框架(如Gradio)将其部署。此外,开发人员还可以使用第三方服务来部署应用程序。

Fixie可用于构建、共享和部署生产中的代理。

未来仍在建设中

上个月,我们在西雅图的OctoML总部举办了一次AI聚会,像其他城市的聚会一样,我们对参与者的数量和演示的质量感到不可思议。我们对科学和工具生态系统的发展速度感到惊讶,并为即将解锁的新可能性感到兴奋。


我们特别期待的领域包括将基础模型的功能带给更多构建者的无代码接口、LLM的最新安全性进展、更好的机制来控制和监控模型输出的质量,以及新的方法来蒸馏模型以使它们更便宜地在生产中运行。


对于正在构建或了解这个快速发展的生态系统的开发人员,请通过palak@madrona.com联系我们。

原文

https://www.madrona.com/the-generative-ai-tech-stack-market-map/

展开阅读全文

页面更新:2024-05-06

标签:向量   语义   开发者   应用程序   生态系统   模型   性能   提示   未来   工具   数据   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top