了解 OpenStack 最新版本,2025.2 Flamingo!
 下载为 PDF

云边计算:超越数据中心

简介

十多年来,集中式云计算一直被认为是标准的 IT 服务交付平台。尽管云计算无处不在,但新兴的需求和工作负载开始暴露其局限性。由于其强大的数据中心为中心视角,计算和存储资源相对丰富且集中,很少或没有考虑过对支持的虚拟机管理程序和管理平台足迹进行优化。 很少有云开发人员认真考虑支持资源受限节点所需的要求,这些节点只能通过不可靠或带宽受限的网络连接访问,或者考虑对需要非常高的带宽、低延迟或跨多个站点的广泛计算能力的应用的需求。

新的应用程序、服务和工作负载越来越需要一种不同的架构,这种架构的构建是为了直接支持分布式基础设施。为了支持当今的需求(零售数据分析、网络服务)和明天的创新(智慧城市、AR/VR),远程站点对可用性和云能力的新需求应运而生。现在,云计算的成熟度、稳健性、灵活性和简单性需要在多个站点和网络中扩展,才能应对不断变化的需求。

最近,公司已经开始将云计算架构的简化管理和灵活性应用于跨多个站点和网络的分布式基础设施。组织们越来越需要通过广域网 (WAN) 将云能力扩展到网络边缘的日益小型化部署中。尽管这种方法还处于早期阶段,但越来越清楚的是,许多新兴用例和场景将受益于分布式架构。

在本文中,我们将探讨这种新兴的需求。它被称为许多名字:分布式云、雾计算、第四代数据中心,但为了本文的目的,我们将坚持使用一个常见且易于理解的术语——云边计算。

OSF 边缘计算小组认为云计算的这种演变非常令人兴奋,但我们认识到 OpenStack 支持云边计算的能力还处于早期阶段。基于在 OpenStack Summit Boston 上表达的初步社区兴趣,于 2017 年 9 月举行了一个为期两天的研讨会,汇集了 200 多名用户和开发人员,开始努力定义相关的用例并考虑支持它们所需的工具和架构。已经完成了概念验证,社区已经有几个早期部署。OSF 边缘计算小组现在已经承担了描述功能齐全的边缘计算云基础设施的基本要求的挑战

在本文档中,我们旨在完成几项重要任务

  1. 围绕云边计算培养对话,包括一些基本定义,激发开源社区的兴趣和参与。
  2. 指导更广泛的开源和 OpenStack 社区开发广泛采用所需的工具和标准。
  3. 探索当前工具、标准和架构可能需要如何改变以适应这种分布式云模型。

为了实现我们的目标,还有很多工作要做,我们欢迎并鼓励整个开源社区加入到创建或调整工具以满足云边计算新需求的努力和机遇中。

什么是云边计算?

值得强调的是,边缘计算存在许多重叠且有时相互冲突的定义——边缘计算对不同的人意味着不同的事情。但为了我们的目的,边缘计算最成熟的观点是,它为应用程序开发人员和服务提供商提供云计算能力,以及网络边缘的 IT 服务环境。

目标是将计算、存储和带宽尽可能地交付到数据输入和/或最终用户附近。边缘计算环境的特点是所有站点之间潜在的高延迟和低且不可靠的带宽——以及与远离数据中心的集中式云资源池无法满足的独特服务交付和应用程序功能可能性。通过将一些或全部处理功能移至最终用户或数据收集点附近,云边计算可以减轻广泛分布站点的影响,从而最大限度地减少延迟对应用程序的影响。

边缘计算首先通过在广域网 (WAN) 上虚拟化网络服务而出现,从而摆脱了数据中心。最初的用例是由希望利用平台所提供的灵活性和简单工具的愿望驱动的,而这些工具是云计算用户已经习惯的。

随着新的边缘计算能力出现,我们看到了一种计算范式正在发生变化——这种范式不再一定受构建集中式数据中心的需要约束。相反,对于某些应用程序,云边计算正在借鉴虚拟化和云计算的经验,并创建了将潜在的数千个大规模分布式节点应用于各种用例(例如工业物联网甚至用于跟踪实时水资源利用情况的遍布数千或数百万个地点的遥远监控网络)的能力。

许多专有和开源边缘计算能力已经存在,而无需依赖分布式云——一些供应商将其称为“设备边缘”。此方法的组件包括物联网网关或 NFV 设备等元素。但越来越多的应用程序需要在边缘获得云计算的通用性,尽管构建分布式边缘基础设施所需的工具和架构仍处于起步阶段。我们的观点是,市场将继续需要更好的云边计算能力。

边缘计算能力包括但不限于

  • 跨各种基础设施的一致运营范例。
  • 能够在大规模分布式(例如数千个全球位置)环境中执行的能力。
  • 需要向位于全球分布式远程位置的客户交付网络服务。
  • 应用程序集成、编排和服务交付要求。
  • 硬件限制和成本约束。
  • 有限或间歇性网络连接。
  • 解决具有严格低延迟要求的应用程序(AR/VR、语音等)的方法。
  • 地理围栏以及对保持敏感私有数据本地化的要求。

更深入地探讨边缘计算的考量因素

边缘计算中的“边缘”是指管理域的边界,尽可能靠近离散的数据源或最终用户。这个概念适用于电信网络、具有分布式存在点的大型企业,或在物联网的背景下,特别是其他应用程序。

Table 1

边缘计算的一个特征是应用程序与边缘位置紧密相关。对于电信运营商,“边缘”是指靠近最终用户但由提供商控制的点,可能具有在最终用户设备上运行的一些工作负载元素。对于大型企业,“边缘”是应用程序、服务或工作负载使用的点(例如零售店或工厂)。根据此定义,边缘不是容量极小,甚至无法支持最小云架构(例如物联网或传感器设备)的终端设备。这是一个重要的考虑因素,因为许多关于边缘计算的讨论没有做出这种区分。

边缘计算与数据中心计算类似,因为它

  • 包括计算、存储和网络资源。
  • 其资源可以由许多用户和许多应用程序共享。
  • 它受益于资源池的虚拟化和抽象。
  • 它受益于利用商品硬件的能力。
  • 它使用 API 来支持互操作性。

边缘计算与大型数据中心中的计算不同,因为它

  • 边缘站点尽可能靠近最终用户。它们通过高延迟和不可靠的连接改善体验。
  • 可能需要专用硬件,例如用于 AR/VR 功能的 GPU/FPGA 平台。
  • 边缘可以扩展到大量站点,分布在不同的位置。
  • 边缘站点的位置以及它终止的访问链路的身份非常重要。需要靠近其用户的应用程序需要在边缘的正确部分。在边缘计算中,应用程序位置通常很重要。
  • 整个站点池可以被认为是动态的。由于其物理分离,边缘站点在某些情况下将通过 WAN 连接彼此连接和连接到核心。边缘站点将随着时间的推移加入并离开基础设施池。
  • 边缘站点是远程的,可能没有人值守,因此必须远程管理。工具需要支持间歇性网络访问站点。
  • 边缘支持站点大小和规模的巨大差异,从数据中心规模到单个设备。
  • 边缘站点可能资源受限;由于空间或电力限制,向现有站点添加容量受到限制。
  • 对于某些用例,需要大规模的多租户。
  • 为了确保“外部云”域中的妥协不会影响服务,可能需要将边缘计算与数据中心云隔离。

边缘计算的概念必须涵盖边缘站点(例如,计算、网络和存储基础设施),还必须涵盖在其上运行的应用程序(工作负载)。值得注意的是,边缘计算环境中的任何应用程序都可能利用云提供的任何或所有功能——计算、块存储、对象存储、虚拟网络、裸机或容器。

定义和区分边缘计算与云计算的基本特征是

  • 能够支持多个潜在的大规模分布式站点的动态池,
  • 潜在的不可靠网络连接,以及
  • 网络上站点遇到的难以解决的资源约束的可能性。

探索特性

那么,我们对边缘计算的特性、用例和场景了解多少?

驱动云边计算的根本需求是服务交付需要靠近用户或端点数据源。边缘计算环境将与核心容量协同工作,但旨在提供改进的最终用户体验,而不会对核心的连接提出不合理的要求。改进源于

  1. 降低延迟:与计算远离时相比,最终用户处的延迟可能更低——使响应式远程桌面成为可能,或者成功的 AR 或更好的游戏成为可能。
  2. 缓解带宽限制:将工作负载移至最终用户或数据收集点附近的能力降低了站点有限带宽的影响。如果边缘节点上的服务减少了将大量数据传输到核心进行处理的需要,这尤其有用,就像物联网和 NFV 工作负载经常发生的那样。数据缩减和本地处理可以转化为更响应迅速的应用程序并降低通过长距离传输 TB 级数据的成本。

但存在权衡。为了交付边缘计算,有必要大大增加部署数量。这给广泛的边缘部署带来了重大挑战。如果管理单个云需要一个十人团队,组织如何应对数百甚至数千个小型云?一些要求包括

  1. 需要标准化和基础设施一致性。每个位置都必须相似;一个已知量。
  2. 需要自动化管理;部署、更换和任何可恢复的故障都应该简单明了。
  3. 需要为硬件故障制定简单且经济高效的计划。
  4. 在远程或无法到达的环境中,本地容错设计可能很重要——零接触基础设施是理想的。这是一个平衡购买和运行冗余硬件的成本与停机和紧急维修成本的问题。考虑因素包括
    1. 这些位置需要自给自足吗?
    2. 如果某个位置发生故障,没有人会在现场修复它,并且本地备件不太可能。
    3. 它需要容忍故障吗?如果是,在有人可以修复它之前会持续多久——两个小时、一周、一个月?
  5. 可维护性需要简单明了——未经培训的技术人员执行手动维修和更换,而熟练的远程管理员重新安装或维护软件。
  6. 物理设计可能需要重新思考。大多数边缘计算环境都不会是理想的——有限的电力、灰尘、湿度和振动都需要考虑。

用例

可能有很多种方法来描述用例,本文太短,无法提供详尽的清单。但这里有一些示例,可以帮助澄清思路并突出协作机会。

受益于分布式架构的四种主要工作负载需求类别是分析、合规性、安全性和 NFV。

数据收集和分析

物联网,其中数据通常从大型微站点网络收集,是受益于边缘计算模型的应用程序的一个示例。将大量数据通过通常有限的网络连接发送到位于集中式数据中心中的分析引擎适得其反;它可能不够响应迅速,可能会导致过多的延迟,并浪费宝贵的带宽。由于边缘设备还可以生成 TB 级的数据,因此在数据源附近进行分析可以更具成本效益,方法是在边缘分析数据并仅将少量压缩的信息发送回集中式系统。这里有一个权衡——平衡将数据传输到核心的成本与丢失一些信息。

安全

不幸的是,随着边缘设备的激增——包括移动手机和物联网传感器——新的攻击向量正在出现,利用端点的激增。边缘计算能够将安全元素移至攻击源附近,实现更高性能的安全应用程序,并增加帮助防御核心免受破坏和风险的层数。

合规性要求

合规性涵盖广泛的要求,包括地理围栏、数据主权和版权执行。根据地理位置和政治边界限制对数据的访问、根据版权限制限制数据流以及在具有特定法规的地方存储数据都可以通过边缘计算基础设施实现和强制执行。

网络功能虚拟化 (NFV)

网络功能虚拟化 (NFV) 本质上是边缘计算应用程序,因为它提供基础设施功能。电信运营商正在通过将虚拟网络功能作为边缘计算基础设施的一部分或在其之上运行来改变其服务交付模式。为了最大限度地提高效率并最大限度地降低成本/复杂性,在边缘计算基础设施上运行 NFV 是有意义的。

实时

实时应用,例如 AR/VR、互联汽车、远程医疗、触觉互联网、工业 4.0 和智慧城市,无法容忍超过几毫秒的延迟,并且对抖动(延迟变化)非常敏感。例如,互联汽车需要低延迟和高带宽,并且依赖于靠近用户的计算和内容缓存,这使得边缘容量成为必要。在许多场景中,尤其是在使用闭环自动化来维持高可用性时,需要几十毫秒的响应时间,如果没有边缘计算基础设施,就无法满足。

沉浸式体验

边缘计算扩展了带宽能力,释放了新型沉浸式应用的潜力。其中一些包括 AR/VR、4K 视频和 360° 图像,适用于医疗保健等行业。由于 TCP 等协议对无线网络流量的突然变化反应不佳,因此在边缘缓存和优化内容已经变得越来越重要。与无线/网络信息实时访问相结合的边缘计算基础设施,可以在观看高峰时段将视频的停顿和延迟减少高达 20%,并且还可以根据无线条件调整视频流的比特率。

网络效率

许多应用程序对延迟不敏感,不需要大量的附近计算或存储容量,因此理论上可以在集中式云端运行,但带宽和/或计算需求仍然可能使边缘计算成为更有效的方法。这些工作负载中的一些今天很常见,包括视频监控和物联网网关,而另一些,包括人脸识别和车牌识别,是新兴能力。对于这些应用中的许多应用,边缘计算基础设施不仅可以减少带宽需求,还可以为实现应用价值的功能提供平台——例如,视频监控运动检测和威胁识别。在这些应用程序中的许多情况下,90% 的数据是常规且不相关的,因此将其发送到集中式云端成本高昂且浪费了通常稀缺的网络带宽。在边缘对数据进行异常和变化排序,仅报告可操作的数据更有意义。

自包含和自主站点运营

即使在今天,许多环境也存在有限、不可靠或不可预测的连接。这些可能包括交通运输(飞机、公共汽车、船舶)、采矿作业(石油钻井平台、管道、矿山)、电力基础设施(风电场、太阳能发电厂),甚至通常应该具有良好连接的环境,例如商店。边缘计算通过允许站点在需要或网络连接不可用时保持半自主和功能性,从而很好地支持这些环境。这方面的最佳示例是零售地点需要在网络连接暂时中断时保持其销售点 (POS) 系统正常运行的需求。

隐私

企业可能需要边缘计算容量,具体取决于工作负载、连接限制和隐私。例如,需要在使用将其发送到云端之前匿名化个人健康信息 (PHI) 的医疗应用程序,可以使用边缘计算基础设施来完成此操作。

另一种看待将受益于云边缘计算的需求的方式是根据将部署它们的公司的类型。运营商应用程序是在边缘计算基础设施上运行的工作负载,该基础设施由运营商(例如电信公司)构建和管理。第三方应用程序是由组织构建的,在现有边缘基础设施上运行,以利用其他人的边缘计算基础设施。值得注意的是,任何应用程序都可以利用云提供的所有功能——计算、块存储、对象存储、虚拟网络、裸机或容器。

场景

边缘计算范式的基本特征是基础设施位于最终用户更近的位置,站点分布规模很大,并且边缘节点通过 WAN 网络连接连接在一起。检查一些更深入的场景有助于我们评估当前与用例匹配的功能,以及突出显示需要改进的薄弱环节和机会。

1. 零售/金融/偏远地点“盒子中的云”:边缘计算基础设施支持针对特定公司或行业垂直领域的定制应用程序套件。通常由企业使用,边缘计算基础设施最终连接在一起形成分布式基础设施,以减少硬件占用空间、标准化多个站点的部署、提供更大的灵活性来替换位于边缘的应用程序(并在所有节点上以统一的方式运行相同的应用程序,无论硬件如何)、提高弹性并解决间歇性 WAN 连接问题。在连接有限的环境中,缓存内容或提供计算、存储和网络是边缘计算的显而易见的应用。

2. 移动连接:移动/无线网络很可能是云边缘计算的常见环境元素,因为至少在 5G 广泛可用之前,移动网络仍将具有有限且不可预测的带宽的特点。远程维修的增强现实、远程医疗、用于捕获公用事业(水、燃气、电力、设施管理)数据的物联网设备、库存、供应链和运输解决方案、智慧城市、智慧道路和远程安全应用程序等应用程序将在更大或更小的程度上依赖于移动网络。它们都将受益于边缘计算将工作负载移动到最终用户附近的能力。

Table 2

3. 网络即服务 (NaaS):源于需要在截然不同的环境中提供相同的网络服务应用程序体验的需求,NaaS 用例需要在边缘的分布式平台具有较小的占用空间,并且具有强大的集中管理工具,这些工具可以跨越不可靠或有限的 WAN 网络连接来支持边缘的服务。此场景的主要特征是:硬件占用空间小、移动(更改网络连接)和不断变化的工作负载、数据和应用程序的混合位置。这是需要支持微节点——非传统封装(并非所有 19 英寸机架都在冷却数据中心内)的小剂量计算的基础设施的案例之一。NaaS 将需要支持数千个或数万个边缘节点,并且必须支持网状和/或分层架构以及根据需要启动并在完成时关闭的按需站点。API 和 GUI 必须更改以反映大量计算节点将位于不同的位置,而不是存在于同一数据中心中。

Table 3

4. 通用客户前提设备 (uCPE):这种场景已经开始部署,需要支持类似设备的硬件占用空间,并且其特点是具有高可用性要求的有限网络连接和通常稳定的工作负载。它还需要一种支持数据和应用程序混合位置的方法,跨数百或数千个节点,以及扩展现有的 uCPE 部署将成为一个新兴需求。

这对于 NFV 应用程序尤其适用,在这些应用程序中,不同的站点可能需要不同的服务链应用程序集,或者具有不同所需应用程序集的站点仍然需要协同工作。需要支持网状或分层架构以及由于间歇性网络连接而需要存储和转发数据处理。自我修复和自我管理与远程管理节点的能力是必须具备的。

5. 卫星通信 (SATCOM):这种场景的特点是众多功能强大的终端设备,通常分布在最偏远和最恶劣的条件下。同时,利用这些分布式平台托管服务也是有意义的,特别是考虑到极高的延迟、有限的带宽以及通过卫星通信的成本。此类用例的具体示例可能包括船只(从渔船到油轮)、飞机、石油钻井平台、采矿作业或军用基础设施。

挑战

虽然世界各地已经有很多边缘部署正在进行中,但广泛采用需要新的思维方式来解决新兴的和已经存在的挑战和限制。

我们已经确定,从设计上讲,边缘计算平台在硬件和支持应用程序生命周期的平台服务方面,都必须比传统的以数据中心为中心的云平台更具容错性和鲁棒性。我们不能假设此类边缘用例将拥有标准数据中心基础设施所拥有的维护和支持设施。零触地配置、自动化和所有基础设施和平台堆栈中的自主编排是这些场景中的关键要求。

但还有其他需要考虑的挑战。

首先,边缘资源管理系统应提供一组高级机制,这些机制的组合产生一个能够操作和使用依赖于 WAN 互连的地理分布式 IaaS 基础设施的系统。换句话说,挑战在于修改(并在需要时扩展)IaaS 核心服务,以便处理上述边缘特性——网络断开连接/带宽、计算和存储方面的有限容量、无人部署等。

一些可预见的需求包括

  • 负责管理机器/容器生命周期(配置、调度、部署、暂停/恢复和关闭)的虚拟机/容器/裸机管理器。
  • 负责模板文件(也称为虚拟机/容器镜像)的镜像管理器。
  • 负责提供基础设施连接:虚拟网络和用户外部访问的网络管理器。
  • 为边缘应用程序提供存储服务的存储管理器。
  • 管理工具,提供用户界面来操作和使用分散的基础设施。

这些需求相对明显,并且可能可以通过利用和调整现有项目来满足。但边缘计算的其他需求更具挑战性。这些包括但不限于

  • 解决 WAN 连接上的存储延迟。
  • 加强边缘安全性——监控每个站点的物理和应用程序完整性,并能够在必要时自主启用纠正措施。
  • 同时监控所有节点上的资源利用率。
  • 编排工具,管理和协调许多边缘站点和工作负载,可能导致对等控制平面或“自组织边缘”。
  • 必须探索和引入边缘平台(或云中云)的联合编排到 IaaS 核心服务中。
    • 自动边缘调试/停用操作,包括初始软件部署和资源管理系统组件的升级。
    • 自动数据和工作负载重新定位——跨地理分布的硬件进行负载均衡。
  • 应需要在基础设施的“核心”处采用某种抽象状态传播同步形式,以应对不连续的网络链路。
  • 处理由于有限的连接而导致的网络分区问题的新方法——应对短时间断开连接和长时间断开连接。
  • 用于管理边缘应用程序生命周期的工具,包括
    • 定义高级放置约束,以应对应用程序组件的延迟要求。
    • 配置/调度应用程序以满足放置要求(初始放置)。
    • 根据内部/外部事件进行数据和工作负载重新定位(移动用例、故障、性能考虑因素等)。
  • 集成位置感知:并非所有边缘部署都需要在同一时刻使用相同的应用程序。位置和需求感知可能是一种需求。
  • 在设计宏观层面的整体架构和管理工具时,需要考虑远程站点上有限的资源和有限的扩展能力。能够从其他站点(通过网状网络中的邻居或分层网络中的核心元素)按需获取远程资源的概念意味着可以在不降低硬件部署效率的情况下满足本地需求的波动。

结论与行动号召

查找先前活动视频、文章和有关边缘计算的更多内容的中心位置。
一个讨论边缘和边缘计算(不完全是 OpenStack)的论坛,以及接收有关正在进行中的活动和行动号召的信息。
针对 IT 业务领导者、云运营商和开发人员的四天会议,涵盖开放基础设施格局。在即将到来的峰会上寻找与边缘相关的轨道和会议。

IRC

Fog/Edge/Massively Distributed Clouds (FEMDC) SIG IRC 会议(在线)每两周举行一次(奇数周),周三 UTC 1500 点在 IRC 频道 #openstack-meeting 上举行。
全球活动时间表,包括受欢迎的 OpenStack 峰会和区域 OpenStack 日。
获取分布、驱动程序、培训、服务等方面的熟练全球生态系统的一站式资源。
索引到所有文档,适用于规划和操作 OpenStack 云的每个角色和步骤。
加入邮件列表和 IRC 频道,查找工作和活动,访问源代码等。
找到您附近的 OpenStack 用户组,参加聚会和黑客马拉松——或者组织一个!

作者

贡献者

  • Beth Cohen,Verizon 技术人员,Verizon
  • Gnanavelkandan Kathirvel,AT&T 云战略与架构总监,OpenStack 基金会 (OSF) 董事会成员
  • Gregory Katsaros,Inmarsat 高级系统架构师
  • Adrien Lebre,法国 IMT Atlantique/Inria/LS2N 副教授
  • Andrew Mitry,Walmart Labs 资深杰出工程师
  • Christopher Price,Ericsson 软件技术总裁
  • Paul-André Raymond,B.Yond 技术高级副总裁
  • Alex Reznik,HPE 企业架构师,ETSI ISG MEC 主席
  • Pasi Vaananen,Red Hat NFV 系统架构师
  • Ildiko Vansca,OpenStack 基金会 (OSF) 生态系统技术负责人
  • Ian Wells,Cisco 杰出工程师

技术作者

  • Brian E. Whitaker,Zettabyte Content 创始人