- Отказоустойчивая кластеризация Windows Server с SQL Server Windows Server Failover Clustering with SQL Server
- Термины и определения Terms and Definitions
- Обзор отказоустойчивого кластера Windows Server Overview of Windows Server Failover Clustering
- Технологии SQL Server AlwaysOn и WSFC SQL Server Always On Technologies and WSFC
- Высокий уровень доступности на уровне экземпляра с помощью экземпляров отказоустойчивого кластера AlwaysOn Instance-level High Availability with Always On Failover Cluster Instances
- Высокий уровень доступности на уровне баз данных с Группы доступности AlwaysOn Always On availability groups Database-level High Availability with Группы доступности AlwaysOn Always On availability groups
- Мониторинг исправности WSFC и отработка отказа WSFC Health Monitoring and Failover
- Политики отработки отказа для узлов, экземпляров отказоустойчивого кластера и групп доступности Failover Policies for Nodes, Failover Cluster Instances, and Availability Groups
- Определение исправности ресурсов WSFC WSFC Resource Health Detection
- Определение исправности между узлами WSFC и определение голосов в кворуме WSFC Inter-node Health Detection and Quorum Voting
- Аварийное восстановление через принудительный кворум Disaster Recovery Through Forcing Quorum
- Связь компонентов SQL Server AlwaysOn с WSFC Relationship of SQL Server AlwaysOn Components to WSFC
Отказоустойчивая кластеризация Windows Server с SQL Server Windows Server Failover Clustering with SQL Server
Отказоустойчивый кластер Windows Server (WSFC) представляет собой группу независимых серверов, совместная работа которых позволяет повысить доступность приложений и служб. A Windows Server Failover Cluster (WSFC) is a group of independent servers that work together to increase the availability of applications and services. SQL Server SQL Server поддержка экземпляров отказоустойчивого кластера Группы доступности AlwaysOn Always On availability groups и SQL Server SQL Server осуществляется с использованием служб и возможностей WSFC. takes advantage of WSFC services and capabilities to support Группы доступности AlwaysOn Always On availability groups and SQL Server SQL Server Failover Cluster Instances.
Термины и определения Terms and Definitions
Отказоустойчивый кластер Windows Server (WSFC) — это группа независимых серверов, совместная работа которых позволяет повысить доступность приложений и служб. Windows Server Failover Cluster (WSFC) A WSFC is a group of independent servers that work together to increase the availability of applications and services.
Узел Node
Сервер, который является членом WSFC. A server that is participating in a WSFC.
Ресурс кластера Cluster resource
Физическая или логическая сущность, которая может принадлежать узлу, которую можно переводить в режимы «в сети» и «вне сети», перемещать между узлами и которой можно управлять как объектом кластера. A physical or logical entity that can be owned by a node, brought online and taken offline, moved between nodes, and managed as a cluster object. Ресурс кластера может принадлежать одновременно только одному узлу. A cluster resource can be owned by only a single node at any point in time.
Роль Role
Коллекция ресурсов кластера, управляемая как единый объект кластера и предоставляющая определенные функциональные возможности. A collection of cluster resources managed as a single cluster object to provide specific functionality. Для SQL Server ролью будет группа доступности AlwaysOn или экземпляр отказоустойчивого кластера AlwaysOn. For SQL Server, a role will be either an Always On Availability Group (AG) or Always On Failover Cluster Instance (FCI). Роль содержит все ресурсы кластера, необходимые для роли группы доступности или экземпляра отказоустойчивого кластера. A role contains all of the cluster resources that are required for an AG or FCI. Отработка отказа и восстановление размещения всегда выполняются в контексте ролей. Failover and failback always act in context of roles. Роль экземпляра отказоустойчивого кластера содержит ресурс IP-адреса, ресурс сетевого имени и ресурсы SQL Server. For an FCI, the role will contain an IP address resource, a network name resource, and the SQL Server resources. Роль группы доступности содержит ресурс группы доступности, а также, если настроен прослушиватель, ресурсы сетевого имени и IP-адреса. An AG role will contain the AG resource, and if a listener is configured, a network name and an IP resource.
Ресурс сетевого имени Network name resource
Имя логического сервера, которое управляется как ресурс кластера. A logical server name that is managed as a cluster resource. Ресурс сетевого имени должен использоваться с ресурсом IP-адреса. A network name resource must be used with an IP address resource. Для этих элементов могут требоваться объекты в доменных службах Active Directory или в службе доменных имен (DNS). These entries may require objects in Active Directory Domain Services and/or DNS.
Зависимость ресурсов Resource dependency
Ресурс, от которого зависит другой ресурс. A resource on which another resource depends. Если ресурс А зависит от ресурса Б, то Б является зависимостью А. Ресурс A невозможно будет запустить, если отсутствует ресурс Б. If resource A depends on resource B, then B is a dependency of A. Resource A will not be able to start without resource B.
Предпочитаемый владелец Preferred owner
Предпочтительный узел для запуска группы ресурсов. A node on which a resource group prefers to run. Каждая группа ресурсов связана со списком предпочитаемых владельцев, отсортированных в порядке предпочтения. Each resource group is associated with a list of preferred owners sorted in order of preference. Во время автоматического перехода на другой ресурс группа ресурсов перемещается на следующий предпочтительный узел в списке. During automatic failover, the resource group is moved to the next preferred node in the preferred owner list.
Возможный владелец Possible owner
Дополнительный узел, на котором может запускаться ресурс. A secondary node on which a resource can run. Каждая группа ресурсов связана со списком возможных владельцев. Each resource group is associated with a list of possible owners. Отработка отказа ролей может выполняться только на узлы из списка возможных владельцев. Roles can fail over only to nodes that are listed as possible owners.
Режим кворума Quorum mode
Конфигурация кворума в отказоустойчивом кластере, определяющая количество сбоев узлов, которое может выдержать кластер. The quorum configuration in a failover cluster that determines the number of node failures that the cluster can sustain.
Обязательный кворум Force quorum
Процесс запуска кластера несмотря на то, что на связи недостаточное количество элементов для кворума. The process to start the cluster even though only a minority of the elements that are required for quorum are in communication.
Обзор отказоустойчивого кластера Windows Server Overview of Windows Server Failover Clustering
Отказоустойчивая кластеризация Windows Server предусматривает инфраструктурные компоненты, поддерживающие сценарии высокого уровня доступности и аварийного восстановления для таких размещенных серверных приложений, как Microsoft SQL Server SQL Server и Microsoft Exchange. Windows Server Failover Clustering provides infrastructure features that support the high-availability and disaster recovery scenarios of hosted server applications such as Microsoft SQL Server SQL Server and Microsoft Exchange. При отказе узла кластера или службы все службы, которые размещались на этом узле, могут автоматически или вручную переноситься на другой доступный узел в рамках процесса под названием отработка отказа. If a cluster node or service fails, the services that were hosted on that node can be automatically or manually transferred to another available node in a process known as failover.
Узлы в кластере WSFC за счет совместной работы обеспечивают следующие типы возможностей: The nodes in a WSFC work together to collectively provide these types of capabilities:
Распределенные метаданные и уведомления. Distributed metadata and notifications. Метаданные служб и размещенных приложений WSFC хранятся на каждом узле кластера. WSFC service and hosted application metadata is maintained on each node in the cluster. Среди этих метаданных не только параметры размещенных приложений, но также конфигурация и состояние WSFC. This metadata includes WSFC configuration and status in addition to hosted application settings. Изменения в метаданных или состоянии узла автоматически распространяются на другие узлы кластера WSFC. Changes to a node’s metadata or status are automatically propagated to the other nodes in the WSFC.
Управление ресурсами. Resource management. Отдельные узлы в кластере WSFC могут предоставлять физические ресурсы, например подключаемое напрямую хранилище, сетевые интерфейсы и доступ к общему дисковому хранилищу. Individual nodes in the WSFC may provide physical resources such as direct-attached storage, network interfaces, and access to shared disk storage. Размещенные приложения регистрируют себя как ресурсы кластера и могут настраивать запуск и зависимости от исправности других ресурсов. Hosted applications register themselves as a cluster resource, and may configure startup and health dependencies upon other resources.
Мониторинг работоспособности. Health monitoring. Определение исправности основного узла и исправности между узлами осуществляется за счет сочетания сетевых соединений по типу тактовых импульсов и мониторинга ресурсов. Inter-node and primary node health detection is accomplished through a combination of heartbeat-style network communications and resource monitoring. Общее состояние работоспособности кластера WSFC определяется голосами кворума узлов в кластере. The overall health of the WSFC is determined by the votes of a quorum of nodes in the WSFC.
Координация отработки отказа. Failover coordination. Каждый ресурс настроен для размещения на основном узле, и каждый можно автоматически или вручную переносить на один или несколько второстепенных узлов. Each resource is configured to be hosted on a primary node, and each can be automatically or manually transferred to one or more secondary nodes. Политика отработки отказа в зависимости от исправности управляет автоматическим переносом владения ресурсами между узлами. A health-based failover policy controls automatic transfer of resource ownership between nodes. Узлы и размещенные приложения получают уведомления об отработке отказа, что позволяет им выполнить соответствующие действия. Nodes and hosted applications are notified when failover occurs so that they may react appropriately.
Технологии SQL Server AlwaysOn и WSFC SQL Server Always On Technologies and WSFC
SQL Server SQL Server AlwaysOn — это решение высокого уровня доступности и аварийного восстановления с использованием WSFC. Always On is a high availability and disaster recovery solution that takes advantage of WSFC. Компоненты AlwaysOn представляют собой интегрированные, гибкие решения, повышающие доступность приложений, окупаемость вложений в оборудование и упрощающее развертывание систем высокого уровня доступности и управление ими. The Always On features provide integrated, flexible solutions that increase application availability, provide better returns on hardware investments, and simplify high availability deployment and management.
Экземпляры Группы доступности AlwaysOn Always On availability groups и экземпляры отказоустойчивого кластера AlwaysOn используют технологию платформы WSFC и регистрируют компоненты в качестве ресурсов кластера WSFC. Both Группы доступности AlwaysOn Always On availability groups and Always On Failover Cluster Instances use WSFC as a platform technology, registering components as WSFC cluster resources. Связанные ресурсы объединяются в роль, которую можно сделать зависимой от других ресурсов кластера WSFC. Related resources are combined into a role, which can be made dependent upon other WSFC cluster resources. Затем кластер WSFC сможет выявлять необходимость в перезапуске экземпляра SQL Server SQL Server (и сигнализировать об этой необходимости), а также автоматически выполнять отработку отказа с переходом на другой серверный узел в кластере WSFC. The WSFC can then sense and signal the need to restart the SQL Server SQL Server instance or automatically fail it over to a different server node in the WSFC.
ВАЖНО! IMPORTANT!! Чтобы воспользоваться всеми возможностями технологий SQL Server SQL Server AlwaysOn, вам следует выполнить несколько связанных с WSFC предварительных требований. To take full advantage of SQL Server SQL Server Always On technologies, you should apply several WSFC-related prerequisites.
Высокий уровень доступности на уровне экземпляра с помощью экземпляров отказоустойчивого кластера AlwaysOn Instance-level High Availability with Always On Failover Cluster Instances
В случае отработки отказа служба WSFC переносит владение ресурсов экземпляра на указанный узел отработки отказа. In the event of a failover, the WSFC service transfers ownership of instance’s resources to a designated failover node. Затем экземпляр SQL Server SQL Server перезапускается на узле отработки отказа и выполняется обычное восстановление баз данных. The SQL Server SQL Server instance is then re-started on the failover node, and databases are recovered as usual. В любой момент времени FCI и базовые ресурсы могут размещаться только на одном узле в кластере. At any given moment, only a single node in the cluster can host the FCI and underlying resources.
ПРИМЕЧАНИЕ. Экземпляру отказоустойчивого кластера AlwaysOn требуется симметричное общее дисковое хранилище, например сеть хранения данных (SAN) или общая папка SMB. NOTE: An Always On Failover Cluster Instance requires symmetrical shared disk storage such as a storage area network (SAN) or SMB file share. Тома общего дискового хранилища должны быть доступны всем потенциальным узлам отработки отказа в кластере WSFC. The shared disk storage volumes must be available to all potential failover nodes in the WSFC cluster.
Высокий уровень доступности на уровне баз данных с Группы доступности AlwaysOn Always On availability groups Database-level High Availability with Группы доступности AlwaysOn Always On availability groups
Группа доступности AlwaysOn — это одна или несколько пользовательских баз данных, для которых отработка отказа выполняется одновременно. An Always On Availability Group (AG) is a one or more user databases that fail over together. Группа доступности состоит из первичной реплики доступности и от одной до четырех вторичных реплик, которые поддерживаются за счет перемещения данных на основании журнала SQL Server для обеспечения защиты данных, не требующей общего хранилища. An availability group consists of a primary availability replica and one to four secondary replicas that are maintained through SQL Server log-based data movement for data protection without the need for shared storage. Каждая реплика размещается в экземпляре SQL Server SQL Server в отдельном узле кластера WSFC. Each replica is hosted by an instance of SQL Server SQL Server on a different node of the WSFC. Группа доступности и соответствующее имя виртуальной сети регистрируются как ресурсы в кластере WSFC. The availability group and a corresponding virtual network name are registered as resources in the WSFC cluster.
При отработке отказа вместо переноса владения общих физических ресурсов на другой узел WSFC используется для перенастройки вторичной реплики на другом экземпляре SQL Server SQL Server в первичную реплику группы доступности. In the event of a failover, instead of transferring ownership of shared physical resources to another node, WSFC is leveraged to reconfigure a secondary replica on another SQL Server SQL Server instance to become the availability group’s primary replica. Затем ресурс виртуального сетевого имени группы доступности переводится на этот экземпляр. The availability group’s virtual network name resource is then transferred to that instance.
ПРИМЕЧАНИЕ. Группы доступности AlwaysOn Always On availability groups не требует развертывать экземпляр отказоустойчивого кластера или использовать симметричное общее хранилище (SAN или SMB). NOTE: Группы доступности AlwaysOn Always On availability groups do not require deployment of a Failover Cluster Instance or use of symmetric shared storage (SAN or SMB).
Экземпляр отказоустойчивого кластера (FCI) может использоваться совместно с группой доступности для повышения доступности реплики доступности. A Failover Cluster Instance (FCI) may be used together with an availability group to enhance the availability of an availability replica. Однако во избежание соперничества в кластере WSFC автоматический переход на другой ресурс группы доступности не поддерживается для реплики доступности, размещенной в FCI. However, to prevent potential race conditions in the WSFC cluster, automatic failover of the availability group is not supported to or from an availability replica that is hosted on a FCI.
Мониторинг исправности WSFC и отработка отказа WSFC Health Monitoring and Failover
Высокий уровень доступности для решения AlwaysOn достигается за счет упреждающего мониторинга работоспособности физических и логических ресурсов кластера WSFC, а также за счет автоматического перехода на другой ресурс с переходом на дублирующее оборудование и его перенастройкой. High availability for an Always On solution is accomplished though proactive health monitoring of physical and logical WSFC cluster resources, together with automatic failover onto and re-configuration of redundant hardware. Системный администратор также может запустить переход на другой ресурс вручную для группы доступности или экземпляра SQL Server SQL Server для перехода с одного узла на другой. A system administrator can also initiate a manual failover of an availability group or SQL Server SQL Server instance from one node to another.
Политики отработки отказа для узлов, экземпляров отказоустойчивого кластера и групп доступности Failover Policies for Nodes, Failover Cluster Instances, and Availability Groups
Политика отработки отказа настраивается на уровне узла кластера WSFC, экземпляра отказоустойчивого кластера SQL Server SQL Server и группы доступности. A failover policy is configured at the WSFC node, the SQL Server SQL Server Failover Cluster Instance (FCI), and the availability group levels. Эта политика на основе серьезности, продолжительности и частоты неисправного состояния ресурса кластера и времени отклика узла может включать перезапуск службы или автоматический переход на другой ресурс с переходом с одного узла на другой либо включать перевод первичной реплики группы доступности с одного экземпляра SQL Server SQL Server на другой. These policies, based on the severity, duration, and frequency of unhealthy cluster resource status and node responsiveness, can trigger a service restart or an automatic failover of cluster resources from one node to another, or can trigger the move of an availability group primary replica from one SQL Server SQL Server instance to another.
Определение исправности ресурсов WSFC WSFC Resource Health Detection
Все ресурсы в кластере WSFC могут сообщать о своем состоянии и работоспособности периодически или по запросу. Each resource in a WSFC can report its status and health, periodically or on-demand. Об отказе ресурса могут говорить различные обстоятельства, например неисправность электропитания, ошибки дисков или памяти, ошибки в сети, неотвечающие службы. A variety of circumstances may indicate resource failure; e.g. power failure, disk or memory errors, network communication errors, or non-responsive services.
Ресурсы кластера WSFC, например сети, хранилища и службы, можно делать зависимыми друг от друга. WSFC resources such as networks, storage, or services can be made dependent upon one another. Совокупная исправность ресурса определяется путем последовательного суммирования его работоспособности с исправностью каждого из зависимых ресурсов. The cumulative health of a resource is determined by successively rolling up its health with the health of each of its resource dependencies.
Определение исправности между узлами WSFC и определение голосов в кворуме WSFC Inter-node Health Detection and Quorum Voting
Все узлы в кластере WSFC участвуют в периодической передаче пульса, сообщающего состояние работоспособности узла другим узлам. Each node in a WSFC participates in periodic heartbeat communication to share the node’s health status with the other nodes. Неотвечающие узлы считаются неисправными. Unresponsive nodes are considered to be in a failed state.
Кворум — это механизм, позволяющий обеспечивать работоспособность кластера WSFC путем проверки наличия достаточного количества ресурсов в нем. Quorum is a mechanism that helps ensure that the WSFC is up and running through ensuring enough resources are online in the WSFC. Если кластер WSFC имеет достаточно голосов, он работоспособен и может обеспечивать отказоустойчивость на уровне узлов. If the WSFC has enough votes, it is healthy and able to provide node-level fault tolerance.
Режим кворума настраивается в кластере WSFC, который определяет методику голосования кворума, а также момент выполнения автоматического перехода на другой ресурс или перевода кластера в режим «вне сети». A quorum mode is configured in the WSFC that dictates the methodology used for quorum voting and when to perform an automatic failover or take the cluster offline.
СОВЕТ. TIP!! Рекомендуется, чтобы число голосов кворума в кластере WSFC всегда было нечетным. It is best practice to always have an odd number of quorum votes in a WSFC. По соображениям голосования кворума нет необходимости устанавливать SQL Server SQL Server на всех узлах в кластере. For the purposes of quorum voting, SQL Server SQL Server does not have to be installed on all nodes in the cluster. Дополнительный сервер может выступать в качестве члена кворума, либо модель кворума WSFC можно настроить для использования удаленной общей папки в качестве решающего голоса. An additional server can act as a quorum member, or the WSFC quorum model can be configured to use a remote file share as a tie-breaker.
Аварийное восстановление через принудительный кворум Disaster Recovery Through Forcing Quorum
В зависимости от принятых методов работы и конфигурации кластера WSFC можно использовать как автоматический, так и ручной переход на другой ресурс. При этом решение SQL Server SQL Server AlwaysOn остается всегда надежным и отказоустойчивым. Depending upon operational practices and WSFC configuration, you can incur both automatic and manual failovers, and still maintain a robust, fault-tolerant SQL Server SQL Server Always On solution. Однако если кворуму узлов с правом голоса в кластере WSFC не удается связаться друг с другом либо если кластеру WSFC по другим причинам не удается проверить работоспособность, то кластер WSFC может перейти в автономный режим. However, if a quorum of the eligible voting nodes in the WSFC cannot communicate with one another, or if the WSFC cluster otherwise fails health validation, then the WSFC may go offline.
При переходе кластера WSFC в автономный режим из-за неожиданной аварии или по причине постоянно возникающего сбоя в работе оборудования или ошибки связи требуется вмешательство администратора для принудительного создания кворума и переключения работоспособных кластеров обратно в режим «в сети» в неотказоустойчивой конфигурации. If the WSFC goes offline because of an unplanned disaster, or due to a persistent hardware or communications failure, then manual administrative intervention is required to force quorum and bring the surviving cluster nodes back online in a non-fault-tolerant configuration.
После этого будет необходимо также предпринять ряд действий по перенастройке кластера WSFC, восстановлению затронутых реплик баз данных и повторному созданию кворума. Afterwards, a series of steps must also be taken to reconfigure the WSFC, recover the affected database replicas, and to re-establish a new quorum.
Связь компонентов SQL Server AlwaysOn с WSFC Relationship of SQL Server AlwaysOn Components to WSFC
Между функциями и компонентами SQL Server SQL Server AlwaysOn и WSFC существуют связи нескольких уровней. Several layers of relationships exist between SQL Server SQL Server Always On and WSFC features and components.
Узлы являются членами кластера WSFC. Nodes are members of a WSFC cluster.
Метаданные и состояние конфигурации WSFC для всех узлов сохраняются на каждом узле. WSFC configuration metadata and status for all nodes is stored on each node. Каждый сервер может предоставлять тома асимметричного хранения или общего хранения (SAN) для пользовательских и системных баз данных. Each server may provide asymmetric storage or shared storage (SAN) volumes for user or system databases. Каждый сервер имеет по крайней мере один физический сетевой интерфейс в одной или нескольких IP-подсетях. Each server has at least one physical network interface on one or more IP subnets.
Кластер WSFC контролирует работоспособность группы серверов и управляет их конфигурацией. The WSFC monitors health and manages configuration for a group of servers.
Механизмы WSFC распространяют изменения в метаданных и состоянии конфигурации WSFC во всех узлах кластера WSFC. The WSFC mechanisms propagate changes to WSFC configuration metadata and status to all nodes in the WSFC. Если используется диск-свидетель, метаданные также хранятся на нем. If a disk witness is used, the metadata is also stored there. По умолчанию каждый узел кластера WSFC имеет голос в кворуме, а ресурс-свидетель используется, если он необходим и настроен. By default, each node of the WSFC gets a vote towards quorum and a witness will be used if necessary and is configured.
Группы доступности AlwaysOn Always On availability groups — это подразделы кластера WSFC. registry keys are subkeys of the WSFC cluster.
При удалении и повторном создании кластера WSFC необходимо отключить и повторно включить функцию Группы доступности AlwaysOn Always On availability groups на каждом экземпляре сервера, на котором была включена функция Группы доступности AlwaysOn Always On availability groups в исходном кластере WSFC. If you delete and re-create a WSFC, you must disable and re-enable the Группы доступности AlwaysOn Always On availability groups feature on each server instance that was enabled for Группы доступности AlwaysOn Always On availability groups on the original WSFC. Дополнительные сведения см. в разделе Включение и отключение групп доступности AlwaysOn (SQL Server). For more information, see Enable and Disable Always On Availability Groups (SQL Server).