公司新闻

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容机器学习博客

2026-01-27 12:43:43 点击: 22

使用 Amazon Q Web Crawler 连接器为 Amazon Q Business 索引网站内容

关键要点

Amazon Q Business 是一种支持基于企业数据构建互动聊天应用程序的完全托管服务。本文展示如何使用 Amazon Q Web Crawler 连接器索引两个数据源的内容，一个是员工入职指南，另一个是 Amazon Q Business 的官方文档。文章重点介绍了 Web Crawler 的配置和使用，包括基本和高级设置。

重要信息在首段：本文将向您展示如何使用 Amazon Q Web Crawler 连接器索引网站内容，以便构建基于企业数据的互动聊天应用程序 Amazon Q Business。该服务支持多种身份验证方式，可自动同步数据。

概述 Amazon Q Web Crawler 连接器

Amazon Q Web Crawler 连接器使您能够爬取使用 HTTPS 的网站并索引其内容，从而基于索引数据为用户构建生成式人工智能 (AI) 体验。该连接器依赖于 Selenium Web Crawler 包和 Chromium 驱动。连接器是完全托管的，组件更新将自动应用。

此连接器爬取并索引网页和附件的内容。Amazon Q Business 支持多个连接器，各自具有自己的属性和实体，这被视为文档。在 Web Crawler 连接器的上下文中，文档指的是单个页面或附件的内容。索引通常被称为文档的语料库，可以把它看作是添加和同步文档以供 Amazon Q Business 生成用户请求答案的地方。

轻蜂加速器pc

每个文档都有其自身的属性，也称为元数据，元数据可以映射到您的 Amazon Q Business 索引中的字段。通过创建索引字段，您可以根据文档属性增强结果的相关性。例如，可能会有用例希望将来自特定类别、部门或创建日期的结果给予更多的相关性。

下表列出了通过 Amazon Q Web Crawler 连接器索引的网页和附件的元数据：

字段数据源字段Amazon Q Business 索引字段 (保留)字段类型类别categorycategory字符串URLsourceUrlsourceuri字符串标题titledocumenttitle字符串元标记metaTagswcmetatags字符串列表文件大小htmlSizewchtmlsize长整型 (数字)

解决方案概述

该解决方案由一个 Amazon Q Business 应用程序组成，利用两个数据源：一个是涉及员工入职指南的网站，另一个是 Amazon Q Business 的官方文档网站。该解决方案演示如何将两个网站配置为 Amazon Q Business 应用程序的数据源。您将执行以下步骤：

部署一个包含基本身份验证的静态网站的 AWS CloudFormation 模板。创建 Amazon Q Business 应用程序。为 Amazon Q Business 文档创建 Web Crawler 数据源。为员工入职指南创建 Web Crawler 数据源。向 Amazon Q Business 应用程序添加组和用户。运行示例查询以测试解决方案。

先决条件

跟随本文演示，您需要具备以下先决条件：

一个具有创建 Amazon Q Business 应用程序和 AWS 身份与访问管理 (IAM) 角色及策略权限的 AWS 账户。一个 IAM 身份中心实例，与至少一个用户可选多个组关联。如果您决定使用公共网站，请确保您拥有爬取该网站的权限。可选，如果您打算使用 CloudFormation 模板，需具备部署权限。

部署基本身份验证保护的 CloudFormation 模板

部署该 CloudFormation 模板虽然是可选的，但建议使用它以深入了解 Web Crawler 连接器如何与需要身份验证的网站协同工作。

在 AWS CloudFormation 控制台中，选择创建栈，然后选择带新资源 (标准)。选择选择现有模板。在指定模板中，选择 Amazon S3 URL。对于 Amazon S3 URL，输入 URL https//awsblogsartifactspublics3amazonawscom/artifacts/ML16532/templatewebsiteyml。选择下一步。在栈名称中，输入一个名称，例如 onboardingwebsiteforqbusinesssample。选择下一步。在配置栈选项中，保持所有选项为默认值，然后选择下一步。在审查和创建页，选择我承认 AWS CloudFormation 可能会创建 IAM 资源，然后选择提交。

该部署过程将需要几分钟时间。您可以在此期间进入文中下一个部分。请保持此选项卡打开，稍后需要查看输出选项卡。

创建 Amazon Q Business 应用程序

在开始创建 Amazon Q Business 应用程序之前，您需启用并配置一个 IAM 身份中心实例。该步骤是强制性的，因为 Amazon Q Business 将与 IAM 身份中心集成，以管理用户访问您的 Amazon Q Business 应用程序。如果您在尝试创建第一个应用程序时没有设置 IAM 身份中心实例，系统将提示您创建一个。

如果您已经设置了 IAM 身份中心实例，您可以根据以下步骤开始创建第一个应用程序：

在浏览器的新选项卡中，打开 Amazon Q Business 控制台。选择开始使用或创建应用程序选项将根据您是否第一次尝试该服务而有所不同。对于应用程序名称，输入应用程序名称，例如 myqbusinessapp。对于服务访问，选择创建并使用新的服务链接角色 (SLR)。选择创建。对于检索器，选择使用本地检索器。对于索引配置，输入 1 作为单元数量。一个单元可以索引 20000 个文档此上下文中的文档可以是单个页面内容或单个附件。选择下一步。

为 Amazon Q Business 文档创建 Web Crawler 数据源

完成前一部分的步骤后，您应该看到连接数据源页面。

在连接数据源页面，选择 Web crawler。对于数据源名称，输入一个名称，例如 qbusinessdocumentation。对于描述，输入描述。

对于源，您可以提供 URL 或网址地图。此示例中选择源 URL，并输入 Amazon Q 官方文档的 URL：https//docsawsamazoncom/amazonq/。

在身份验证部分选择无身份验证，因为这是一个公共网站。

Web 代理部分为可选，保持为空。在配置 VPC 和安全组中，选择无 VPC。在 IAM 角色部分，选择创建新的服务角色。在同步范围部分，选择仅同步域名及其子域。对于最大文件大小，您可以保留默认值 50 MB。在其他配置中，展开范围设置。保持爬取深度设置为 2，每页最大链接数设置为 999，以及最大限制设置为 300。

为了专注于爬取与 Amazon Q Business 相关的页面和链接，我们需要使用正则表达式来定义爬虫应爬取的 URL。

在爬取 URL 模式下，逐项输入以下表达式并选择添加：

https//docsawsamazoncom/amazonq/https//docsawsamazoncom/amazonq/latest/qbusinessug/html

https//docsawsamazoncom/amazonq/latest/businessusedg/html

在同步模式部分，选择完全同步。此选项允许同步所有内容，而不考虑其先前状态。

在同步运行计划部分，定义 Amazon Q Business 应该多频繁同步此数据源。选择按需运行以手动运行同步操作。

标签部分为可选，保持为空。

选择添加数据源，并等待几秒应用更改。

数据源创建后，您将看到与本节开头相同的界面，显示已添加一个 Web Crawler 数据源。保持此选项卡打开，因为接下来您将为员工入职指南创建第二个数据源。

为员工入职指南创建 Web Crawler 数据源

完成以下步骤以创建第二个数据源：

在连接数据源页面，选择 Web crawler。确保当前选项卡保持打开，返回 AWS CloudFormation 控制台选项卡，确认栈状态为 CREATECOMPLETE。如果栈的状态为 CREATECOMPLETE，请选择栈的输出选项卡。

记录下网站 URL、用户名和密码。

选择 WebsiteURL 的链接。

使用您的用户名和密码登录。

返回您创建新数据源的浏览器选项卡。

对于数据源名称，输入名称，例如 onboardingguide。对于源，选择源 URL 并输入之前保存的网站 URL。对于身份验证，选择基本身份验证。

在身份验证凭据下，选择创建并添加新秘密。

为秘密名称，输入您偏好的秘密名称。

对于用户名和密码，使用您之前保存的值，确保没有额外空格。

选择保存。

Web 代理部分保持为空。

在配置 VPC 和安全组中，选择无 VPC。对于 IAM 角色，选择创建新的服务角色。在同步范围中选择仅同步域名及其子域。在同步模式中选择完全同步。

在同步运行计划中选择按需运行。

将标签和字段映射部分保持为默认值。

选择添加数据源，等待几秒应用更改。

数据源更改应用后，连接数据源页面显示已添加两个 Web Crawler 数据源。

向 Amazon Q Business 应用程序添加组和用户

完成以下步骤以添加组和用户：

在添加组和用户页面，选择添加组和用户。选择分配现有用户和组，然后选择下一步。

如果您完成了设置 IAM 身份中心的先决条件，您可能已经添加了至少一个用户。尽管不是强制性的，我们建议创建多个用户和组，以便您全面探索和理解 Amazon Q Business 的所有功能。

在搜索框中输入您要添加到应用程序的显示名称或组名称。选择用户或组后，选择分配。

接下来的步骤是为您的组或用户选择一个订阅。

选择刚添加的用户或组，在当前订阅下拉菜单中，选择您的订阅等级。对于本示例，我们选择 Q Business Pro。

在 Web 体验服务访问部分，选择创建并使用新的服务角色。

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容机器学习博客

选择创建应用程序。

应用程序成功创建后，您将被重定向到 Amazon Q Business 控制台，可以看到新应用程序。您的应用程序已准备好，但数据源尚未同步任何数据，我们将在接下来的步骤中完成。

选择您的新应用程序名称以打开应用程序详细信息。

在数据源部分，选择每个数据源并选择立即同步。

您将看到两个数据源的当前同步状态为正在同步。此过程可能需要几分钟。

运行示例查询以测试解决方案

此时，您已创建了一个 Amazon Q Business 应用程序，添加了两个数据源，并将其与 Amazon Q Web Crawler 连接器同步、添加了用户到应用程序，并同步了所有数据源。

接下来，您将经历完整的用户体验，登录到应用程序并运行一些测试查询。

在应用程序详细信息页，导航到 Web 体验设置。选择已部署 URL 下的链接。

您将被重定向到由 IAM 身份中心设置的 AWS 访问门户 URL。

输入之前添加到 Amazon Q Business 应用程序的用户的用户名，并选择下一步。

在输入提示文本框中输入您的问题提示，然后按回车。

Amazon Q Business 会使用您之前创建的入职指南数据源。选择源，可查看格式为编号列表的文本源引用。

故障排除

在此部分，我们讨论几个常见问题及其故障排除方法：

Amazon Q Business 未回答您的问题如果 Amazon Q Business 没有回答您的问题，可能是由于您的数据未正确索引。检查数据源是否已正确同步。Web Crawler 无法同步如果您使用的起始 URL 与本文中不同且 Web Crawler 无法同步，可能是因为权限问题。检查您的网站是否要求身份验证，并参考前文创建数据源的部分。Amazon Q Business 使用旧数据回答问题确保数据源同步设置的频率符合您的需求，具体信息请参见同步运行日程。Amazon Q Business 提供不准确的答案检查数据的格式，确保您输入的是结构化或非结构化的纯文本数据。

清理

测试完解决方案后，请清理您创建的资源，以避免额外费用。

在 Amazon Q Business 控制台，选择您的应用程序并在操作菜单中选择删除。确认删除，输入 Delete，然后选择删除。

接下来删除负责部署员工入职网站的 CloudFormation 堆栈。

在 CloudFormation 控制台，选择您创建的堆栈并选择删除。选择删除以确认。

结论

Amazon Q Business Web Crawler 允许您将网站连接到 Amazon Q Business 应用程序。此连接器支持多种身份验证形式如果您的网站需要并可以在定义的时间表上运行同步作业。

想了解有关 Amazon Q Business 及其功能的更多信息，请参考 Amazon Q Business 开发人员指南。要获得有关该连接器可以执行的操作的全面列表，请参见将 Web Crawler 连接到 Amazon Q Business。

关于作者

Guillermo Mansilla 是一名位于佛罗里达州奥兰多的高级解决方案架构师。他有机会与美国和加拿大的初创公司及企业客户合作，协助他们在 AWS 上构建和架构应用程序。Guillermo 对无服务器架构和生成式 AI 应用程序产生了浓厚兴趣。在担任当前职务之前，他在软件开发方面积累了超过十年的经验。闲暇时，Guillermo 喜欢参加当地棋会的棋赛，这使他能够在不同的环境中锻炼他的分析能力。

“Tailor”是解决“自建还是购买”这一IT困境的现代方案吗？云企业战略博客

使用 AWS 弹性灾难恢复的自动网络复制存储博客

轻蜂加速器官方网站提供流畅的全球连线体验，一键极速连接，无惧地域限制。享受无缝互联，提升上网速度，为你带来卓越的网络体验。

加入轻蜂加速器pc

地址

芜湖市闪欲峡谷14号
电话
- 13594780376
邮箱

feathery@att.net
工作时间

周一至周五：上午 10 点至晚上 8 点

公司新闻

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容 机器学习博客

使用 Amazon Q Web Crawler 连接器为 Amazon Q Business 索引网站内容

关键要点

概述 Amazon Q Web Crawler 连接器

解决方案概述

先决条件

部署基本身份验证保护的 CloudFormation 模板

创建 Amazon Q Business 应用程序

为 Amazon Q Business 文档创建 Web Crawler 数据源

为员工入职指南创建 Web Crawler 数据源

向 Amazon Q Business 应用程序添加组和用户

运行示例查询以测试解决方案

故障排除

清理

结论

关于作者

导航

最新咨询

加入轻蜂加速器pc

使用 Amazon Q 网页爬虫连接器为 Amazon Q 商业索引网站内容机器学习博客