向量数据库与RAG技术:为突破大模型短板创造可能

在这一期的AI + a16z播客中,Pinecone创始人兼首席执行官Edo Liberty与a16z的Satish Talluri和Derrick Harris对谈,讨论向量数据库和检索增强生成(RAG)的前景、挑战和机遇。

Pinecone向量数据库是一个云原生的向量数据库,具有简单的API和无需基础架构的优势。 它可以快速处理数十亿条向量数据,并实时更新索引。 同时,它还可以与元数据过滤器相结合,以获得更相关、更快速的结果。 Pinecone是完全云托管的,容易上手、扩展轻松,用户可以放心使用。

人们常常把大语言模型比喻成大脑,但这是一个被切除了颞叶的大脑,缺乏记忆,并且常常出现幻觉。为了解决这些问题,我们常常需要借助向量数据库。针对幻觉问题,可以将所需领域的专业知识存入向量数据库,当要prompt时,系统自动的从向量数据库中根据相似度查找最相关的专业知识,把这些知识和你的提示词一同提交给大模型,这样就可以有效减少幻觉的出现。记忆的问题也类似,可以选择把部分你和大模型的聊天记录存入向量数据库。这是向量数据库近期出现热度的原因。

Edo Liberty是耶鲁大学计算机科学博士,曾担任雅虎的技术总监,并负责管理AI实验室。随后在AWS构建了包括SageMaker机器学习平台和服务。在亚马逊工作期间就负责向量嵌入,在离开亚马逊后开始研发Pinecone向量数据库。

在Edo Liberty看来,所有人工智能创业公司要么拥有模型,要么提供某种更好的搜索能力,而RAG技术像是对模型与搜索能力的综合。通过 RAG,我们有机会将100个完整的文档作为搜索结果,并且进一步使用语言模型或基础模型来提取一些信息、事实或输出。因此,这创造了一个全新的机遇浪潮,可以用 RAG 构建一系列全新的应用程序。

以下为本期内容目录:

01 RAG技术带来发展机遇

02 RAG技术的现状观察

/ 01 / RAG技术带来发展机遇

Satish Talluri: 2019年你创办了Pinecone,当时的想法是什么?是什么让你认为向量数据库或Pinecone是你想要创办的公司?

Edo Liberty: 两个方面。首先,趋势已经显现。嵌入式技术和向量在搜索、推荐引擎、语义搜索和商品排序中的应用已经开始流行。虽然我们在那之前已经使用了十年左右,但它在当时真正开始流行起来。

我认为第一个真正的开源预训练模型是BERT。虽然BERT很慢、笨拙、奇怪,在很多方面都是错误和无用的,但它已经打破了壁垒。它有时会做出令人惊讶的好输出,让人们意识到这里有潜力,需要弄清楚这项技术到底能做什么。这引发了一场军备竞赛,Facebook、亚马逊和谷歌都参与其中。人们即使不是人工智能爱好者,也会讨论嵌入式技术、向量搜索等等。

最初的几个月,我都觉得这太早了,没人知道我在说什么,这简直是疯了。但一会儿之后,我又觉得太晚了,每个人都知道这些,我们已经错过了时机,我应该三年前就开始了。如果这种情况一直在发生,这可能正是一个信号,表明现在正是最佳时机。

Satish Talluri: 这听起来是个很好的直觉。是的,我记得在早期见到你时,你主要的用例是语义搜索和推荐引擎。对吧?Netflix 是一个流行的例子,亚马逊在其网页上显示类似商品也是另一个例子。从语义搜索的使用案例出发,它是如何发展到现在的地步的?你可以分享一下你亲身见证的这段历程吗?

Edo Liberty: 当然。说实话,语义搜索仍然是我们一个非常重要的用例。我们正在取代 Elasticsearch (一种分布式搜索和分析引擎)和其他解决方案。人们转而使用语义表示数据。人们开始意识到在他们的应用中,规模、速度和成本是非常重要的因素。

所有人工智能创业公司要么拥有模型,要么提供某种更好的搜索能力,差不多95%的创业公司都属于这两种之一。我把 RAG (检索增强生成)也包括在内了。你可以把 RAG 看作是这两者的某种结合。这一过程实际上只是一种推演。虽然推荐引擎的发展没有像 RAG 那样快,但 RAG 确实极大地加速了语义搜索的发展。你仍然使用向量数据库来检索与上下文语义相似的文档、段落或事实等内容。但是,当人类在使用搜索结果时,你可以阅读十个蓝色链接或者十段内容,或者类似一页的内容之类的,你的认知带宽是有限的。而通过 RAG,我们有机会将100个完整的文档作为搜索结果,并且进一步使用语言模型或基础模型来提取一些信息、事实或输出。因此,这创造了一个全新的机遇浪潮,可以用 RAG 构建一系列全新的应用程序,而传统的语义搜索明显无法做到这一点。

幕后的情况也是如此。仍然使用向量搜索来实现大规模、低成本、高速的搜索能力,只是第二阶段不再由人类来消费,而是由大型语言模型来处理,这就催生了诸如问答等全新的应用形式。

Derrick Harris: 我今天早上读到一些内容,不知您能否就此给我些启示。主要是关于在提高模型性能方面,使用更大的上下文窗口和RAG这两种方法之间的辩论。这两种是否是一种非此即彼的关系?您对上下文窗口和RAG的看法如何?

Edo Liberty: 我并不认为使用更大的上下文窗口和RAG是一种非此即彼的关系。如果能在保持经济高效的情况下分析更多上下文,并且结果还很令人满意,那就太好了。这意味着搜索引擎可以为您返回更多相关数据,如果这些数据确实相关,那体验会更好。但这并不意味着您不需要从某处检索最相关的信息。

如果我需要从一个文档中回答问题,我可以将该文档作为上下文发送。如果有10个文档,也许我可以全部发送。但如果有100万份文档,那就疯了。如果有100亿份文档,那就根本无法实现了。你不可能在每次进行谷歌搜索的时候都把整个互联网作为上下文发送过去。这是不可能的。

Satish Talluri: 我认为上下文至关重要,而且必须尽可能地保持相关性。大型语言模型在总结方面有独特的超能力。因此,只需为它们提供最相关的上下文就是一种更好的策略,可以保证性能和准确性。这是您的观点吗?

Edo Liberty: 正确。首先,您必须保证结果准确。模型提供商按token收费,他们当然乐于告诉您更多token会带来更好的效果,但事实并非如此。如果您添加了无关的信息作为上下文,那是无益的,因为无关信息无法提供帮助,相反它会引起混乱和分散注意力,这种做法浪费资源,而且实际上会伤害结果。所以能够为模型提供正确的上下文对于准确性和成本都很重要。而且,规模效应也会逐渐显现,对于大客户来说,在某些大型应用程序上花费10万美元是无所谓的,100万美元尚可接受,但1000万美元就无法做到了。

/ 02 / RAG技术的现状观察

Satish Talluri: 您提到了基本的RAG方法,它正在不断发展,已经不再是简单地将文档分块、向量化,在向量数据库中查询前5个最相关文档,然后将其发送给大型语言模型进行总结。随着这些应用进入生产环境,人们正在采用更复杂的分块策略,甚至在向量数据库查询之后使用重新排序器等。您在客户群中看到了哪些趋势和发展,从最基本的RAG解决方案到现在生产环境中的这些复杂高级系统?

Edo Liberty: 我想说,现在的RAG就如同2017年的transformer模型一样,使用起来笨拙、奇怪且难以正确设置,有很多棘手的问题,但它有时也能产生惊人的效果。大多数早期采用者和非常先进的用户已经开始使用并努力应对所有这些问题。RAG是一个非常广泛的范式,您自己也提到了分块、模型编码、向量数据库选择和配置、结果处理、重新排序、剪枝、重新排序、上下文处理、提示工程、模型选择等,有许多不同的选择和子系统需要构建。所以,在RAG上取得进展的人都是那些深入理解技术发展不会一蹴而就的人。

回到您关于进入生产环境的问题,人们使用Pinecone、模型提供商、评估等工具,真正努力找到最可靠的合作伙伴和基础设施进入生产环境。他们内部建立了评估何种解决方案更好、如何构建这些系统的专业知识。当然,我们作为公司也与他们密切合作,因为他们的成功也是我们的成功。

Derrick Harris: 从您所描述的这个领域来看,实际上对客户来说,向量数据库和RAG技术它们还处于初期阶段,比较粗糙,您是如何向他们推销的呢?

Edo Liberty: 人们无法回避这一点。就拿我小孩子来说吧,他们碰见任何屏幕都点,对着任何智能音箱都说话。好像东西不是触摸屏的话,他们就一脸茫然,对吧?软件正在改变,人们期望能用自然语言直接和软件互动,这是必然的趋势。

尤其是对于知识、文档、图片等信息来说,以前那种需要编程或者经历复杂的操作流程,比如选择内容、添加标签等等,都太麻烦了。人们觉得,软件应该足够智能,能听懂我直接说想要什么。现在的人们都这样认为,他们对软件有这样的期待。

对于软件公司来说,情况是这样的:初创公司可能会率先找出一种方法,将这种技术应用到软件的某个细分领域,然后将这种能力卖给更大的公司。而大公司则时刻面临着颠覆的风险,因为那些名不见经传的小公司说他们能做到这一点,尽管你认为他们做不到,但你的客户却认为他们能做到。所以这会让大公司很头疼,迫使他们去寻找不被颠覆的办法。还有一些巨头公司会开始积极地宣示自己的主导地位,说他们需要真正带头做这件事,而不仅仅是购买现成的软件等等。

所以,我认为这是一件势在必行的的趋势。就像掌握云计算、安全等等技术一样,人们也需要擅长人工智能。这不是可选项,你不能不投资。

你刚才的问题可能还涉及到这样一个方面:如今,做这件事的门槛还比较高。为什么不等到它变得容易些了再去用更成熟的方案呢?但问题是,这种想法永远都会存在,对吧?过六个月,我可能会说出类似的话。没错,工具会变得更好,但我们的期望也会更高,事情从来不会轻而易举。对你的组织来说,培养这种能力就像练肌肉一样,你必须尽早开始,尽管现在的人工智能人才非常昂贵而且很难找到,但你确实别无选择。

500

站务

  • 观网评论4月爆款文章↓

    4月初,美国财长耶伦访华,一时间“中国产能过剩论”被炒作起来,观察者网专栏作者陈经从“三个美国女人”的独特角度,阐释了中国产能包括新能源产能对世界经济的贡献,还对美国政......

全部专栏