公司新闻

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容 机器学习博客

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容 机器学习博客

使用 Amazon Q Web Crawler 连接器为 Amazon Q Business 索引网站内容

关键要点

Amazon Q Business 是一种支持基于企业数据构建互动聊天应用程序的完全托管服务。本文展示如何使用 Amazon Q Web Crawler 连接器 索引两个数据源的内容,一个是员工入职指南,另一个是 Amazon Q Business 的官方文档。文章重点介绍了 Web Crawler 的配置和使用,包括基本和高级设置。

重要信息在首段: 本文将向您展示如何使用 Amazon Q Web Crawler 连接器索引网站内容,以便构建基于企业数据的互动聊天应用程序 Amazon Q Business。该服务支持多种身份验证方式,可自动同步数据。

概述 Amazon Q Web Crawler 连接器

Amazon Q Web Crawler 连接器使您能够爬取使用 HTTPS 的网站并索引其内容,从而基于索引数据为用户构建生成式人工智能 (AI) 体验。该连接器依赖于 Selenium Web Crawler 包和 Chromium 驱动。连接器是完全托管的,组件更新将自动应用。

此连接器爬取并索引网页和附件的内容。Amazon Q Business 支持多个连接器,各自具有自己的属性和实体,这被视为文档。在 Web Crawler 连接器的上下文中,文档 指的是单个页面或附件的内容。索引 通常被称为文档的语料库,可以把它看作是添加和同步文档以供 Amazon Q Business 生成用户请求答案的地方。

轻蜂加速器pc

每个文档都有其自身的属性,也称为 元数据,元数据可以映射到您的 Amazon Q Business 索引中的字段。通过创建索引字段,您可以根据文档属性增强结果的相关性。例如,可能会有用例希望将来自特定类别、部门或创建日期的结果给予更多的相关性。

下表列出了通过 Amazon Q Web Crawler 连接器索引的网页和附件的元数据:

字段数据源字段Amazon Q Business 索引字段 (保留)字段类型类别categorycategory字符串URLsourceUrlsourceuri字符串标题titledocumenttitle字符串元标记metaTagswcmetatags字符串列表文件大小htmlSizewchtmlsize长整型 (数字)

解决方案概述

该解决方案由一个 Amazon Q Business 应用程序组成,利用两个数据源:一个是涉及员工入职指南的网站,另一个是 Amazon Q Business 的官方文档网站。该解决方案演示如何将两个网站配置为 Amazon Q Business 应用程序的数据源。您将执行以下步骤:

部署一个包含基本身份验证的静态网站的 AWS CloudFormation 模板。创建 Amazon Q Business 应用程序。为 Amazon Q Business 文档创建 Web Crawler 数据源。为员工入职指南创建 Web Crawler 数据源。向 Amazon Q Business 应用程序添加组和用户。运行示例查询以测试解决方案。

先决条件

跟随本文演示,您需要具备以下先决条件:

一个具有创建 Amazon Q Business 应用程序和 AWS 身份与访问管理 (IAM) 角色及策略权限的 AWS 账户。一个 IAM 身份中心实例,与至少一个用户可选多个组关联。如果您决定使用公共网站,请确保您拥有爬取该网站的权限。可选,如果您打算使用 CloudFormation 模板,需具备部署权限。

部署基本身份验证保护的 CloudFormation 模板

部署该 CloudFormation 模板虽然是可选的,但建议使用它以深入了解 Web Crawler 连接器如何与需要身份验证的网站协同工作。

在 AWS CloudFormation 控制台中,选择 创建栈,然后选择 带新资源 (标准)。选择 选择现有模板。在 指定模板 中,选择 Amazon S3 URL。对于 Amazon S3 URL,输入 URL https//awsblogsartifactspublics3amazonawscom/artifacts/ML16532/templatewebsiteyml。选择 下一步。在 栈名称 中,输入一个名称,例如 onboardingwebsiteforqbusinesssample。选择 下一步。在 配置栈选项 中,保持所有选项为默认值,然后选择 下一步。在 审查和创建 页,选择 我承认 AWS CloudFormation 可能会创建 IAM 资源,然后选择 提交。

该部署过程将需要几分钟时间。您可以在此期间进入文中下一个部分。请保持此选项卡打开,稍后需要查看 输出 选项卡。

创建 Amazon Q Business 应用程序

在开始创建 Amazon Q Business 应用程序之前,您需启用并配置一个 IAM 身份中心实例。该步骤是强制性的,因为 Amazon Q Business 将与 IAM 身份中心集成,以管理用户访问您的 Amazon Q Business 应用程序。如果您在尝试创建第一个应用程序时没有设置 IAM 身份中心实例,系统将提示您创建一个。

如果您已经设置了 IAM 身份中心实例,您可以根据以下步骤开始创建第一个应用程序:

在浏览器的新选项卡中,打开 Amazon Q Business 控制台。选择 开始使用 或 创建应用程序选项将根据您是否第一次尝试该服务而有所不同。对于 应用程序名称,输入应用程序名称,例如 myqbusinessapp。对于 服务访问,选择 创建并使用新的服务链接角色 (SLR)。选择 创建。对于 检索器,选择 使用本地检索器。对于 索引配置,输入 1 作为 单元数量。一个单元可以索引 20000 个文档此上下文中的文档可以是单个页面内容或单个附件。选择 下一步。

为 Amazon Q Business 文档创建 Web Crawler 数据源

完成前一部分的步骤后,您应该看到 连接数据源 页面。

在 连接数据源 页面,选择 Web crawler。对于 数据源名称,输入一个名称,例如 qbusinessdocumentation。对于 描述,输入描述。

对于 源,您可以提供 URL 或网址地图。此示例中选择 源 URL,并输入 Amazon Q 官方文档的 URL:https//docsawsamazoncom/amazonq/。

在 身份验证 部分选择 无身份验证,因为这是一个公共网站。

Web 代理 部分为可选,保持为空。在 配置 VPC 和安全组 中,选择 无 VPC。在 IAM 角色 部分,选择 创建新的服务角色。在 同步范围 部分,选择 仅同步域名及其子域。对于 最大文件大小,您可以保留默认值 50 MB。在 其他配置 中,展开 范围设置。保持 爬取深度 设置为 2, 每页最大链接数 设置为 999,以及 最大限制 设置为 300。

为了专注于爬取与 Amazon Q Business 相关的页面和链接,我们需要使用正则表达式来定义爬虫应爬取的 URL。

在 爬取 URL 模式 下,逐项输入以下表达式并选择 添加:

https//docsawsamazoncom/amazonq/https//docsawsamazoncom/amazonq/latest/qbusinessug/html

https//docsawsamazoncom/amazonq/latest/businessusedg/html

在 同步模式 部分,选择 完全同步。此选项允许同步所有内容,而不考虑其先前状态。

在 同步运行计划 部分,定义 Amazon Q Business 应该多频繁同步此数据源。选择 按需运行 以手动运行同步操作。

标签 部分为可选,保持为空。

选择 添加数据源,并等待几秒应用更改。

数据源创建后,您将看到与本节开头相同的界面,显示已添加一个 Web Crawler 数据源。保持此选项卡打开,因为接下来您将为员工入职指南创建第二个数据源。

为员工入职指南创建 Web Crawler 数据源

完成以下步骤以创建第二个数据源:

在 连接数据源 页面,选择 Web crawler。确保当前选项卡保持打开,返回 AWS CloudFormation 控制台选项卡,确认栈状态为 CREATECOMPLETE。如果栈的状态为 CREATECOMPLETE,请选择栈的 输出 选项卡。

记录下网站 URL、用户名和密码。

选择 WebsiteURL 的链接。

使用您的用户名和密码登录。

返回您创建新数据源的浏览器选项卡。

对于 数据源名称,输入名称,例如 onboardingguide。对于 源,选择 源 URL 并输入之前保存的网站 URL。对于 身份验证,选择 基本身份验证。

在 身份验证凭据 下,选择 创建并添加新秘密。

为 秘密名称,输入您偏好的秘密名称。

对于 用户名 和 密码,使用您之前保存的值,确保没有额外空格。

选择 保存。

Web 代理 部分保持为空。

在 配置 VPC 和安全组 中,选择 无 VPC。对于 IAM 角色,选择 创建新的服务角色。在 同步范围 中选择 仅同步域名及其子域。在 同步模式 中选择 完全同步。

在 同步运行计划 中选择 按需运行。

将 标签 和 字段映射 部分保持为默认值。

选择 添加数据源,等待几秒应用更改。

数据源更改应用后,连接数据源 页面显示已添加两个 Web Crawler 数据源。

向 Amazon Q Business 应用程序添加组和用户

完成以下步骤以添加组和用户:

在 添加组和用户 页面,选择 添加组和用户。选择 分配现有用户和组,然后选择 下一步。

如果您完成了设置 IAM 身份中心的先决条件,您可能已经添加了至少一个用户。尽管不是强制性的,我们建议创建多个用户和组,以便您全面探索和理解 Amazon Q Business 的所有功能。

在搜索框中输入您要添加到应用程序的显示名称或组名称。选择用户或组后,选择 分配。

接下来的步骤是为您的组或用户选择一个订阅。

选择刚添加的用户或组,在 当前订阅 下拉菜单中,选择您的订阅等级。对于本示例,我们选择 Q Business Pro。

在 Web 体验服务访问 部分,选择 创建并使用新的服务角色。

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容 机器学习博客

选择 创建应用程序。

应用程序成功创建后,您将被重定向到 Amazon Q Business 控制台,可以看到新应用程序。您的应用程序已准备好,但数据源尚未同步任何数据,我们将在接下来的步骤中完成。

选择您的新应用程序名称以打开 应用程序详细信息。

在 数据源 部分,选择每个数据源并选择 立即同步。

您将看到两个数据源的 当前同步状态 为 正在同步。此过程可能需要几分钟。

运行示例查询以测试解决方案

此时,您已创建了一个 Amazon Q Business 应用程序,添加了两个数据源,并将其与 Amazon Q Web Crawler 连接器同步、添加了用户到应用程序,并同步了所有数据源。

接下来,您将经历完整的用户体验,登录到应用程序并运行一些测试查询。

在 应用程序详细信息 页,导航到 Web 体验设置。选择 已部署 URL 下的链接。

您将被重定向到由 IAM 身份中心设置的 AWS 访问门户 URL。

输入之前添加到 Amazon Q Business 应用程序的用户的用户名,并选择 下一步。

在 输入提示 文本框中输入您的问题提示,然后按 回车。

Amazon Q Business 会使用您之前创建的入职指南数据源。选择 源,可查看格式为编号列表的文本源引用。

故障排除

在此部分,我们讨论几个常见问题及其故障排除方法:

Amazon Q Business 未回答您的问题 如果 Amazon Q Business 没有回答您的问题,可能是由于您的数据未正确索引。检查数据源是否已正确同步。Web Crawler 无法同步 如果您使用的起始 URL 与本文中不同且 Web Crawler 无法同步,可能是因为权限问题。检查您的网站是否要求身份验证,并参考前文创建数据源的部分。Amazon Q Business 使用旧数据回答问题 确保数据源同步设置的频率符合您的需求,具体信息请参见 同步运行日程。Amazon Q Business 提供不准确的答案 检查数据的格式,确保您输入的是结构化或非结构化的纯文本数据。

清理

测试完解决方案后,请清理您创建的资源,以避免额外费用。

在 Amazon Q Business 控制台,选择您的应用程序并在 操作 菜单中选择 删除。确认删除,输入 Delete,然后选择 删除。

接下来删除负责部署员工入职网站的 CloudFormation 堆栈。

在 CloudFormation 控制台,选择您创建的堆栈并选择 删除。选择 删除 以确认。

结论

Amazon Q Business Web Crawler 允许您将网站连接到 Amazon Q Business 应用程序。此连接器支持多种身份验证形式如果您的网站需要并可以在定义的时间表上运行同步作业。

想了解有关 Amazon Q Business 及其功能的更多信息,请参考 Amazon Q Business 开发人员指南。要获得有关该连接器可以执行的操作的全面列表,请参见 将 Web Crawler 连接到 Amazon Q Business。

关于作者

Guillermo Mansilla 是一名位于佛罗里达州奥兰多的高级解决方案架构师。他有机会与美国和加拿大的初创公司及企业客户合作,协助他们在 AWS 上构建和架构应用程序。Guillermo 对无服务器架构和生成式 AI 应用程序产生了浓厚兴趣。在担任当前职务之前,他在软件开发方面积累了超过十年的经验。闲暇时,Guillermo 喜欢参加当地棋会的棋赛,这使他能够在不同的环境中锻炼他的分析能力。