一、Nacos简介

1、Nacos是什么?

Nacos是阿里巴巴开源的一个为微服务提供服务发现、服务配置和服务管理的微服务基础设施,简单说就是Nacos为微服务架构提供了分布式配置和服务注册中心的工作。

2、Nacos有什么功能?

Nacos主要有两大功能:注册中心和配置中心

2.1、注册中心

a.服务发布:服务提供者发布服务到nacos,nacos存储服务和提供者关系;

b.服务订阅:服务消费者从nacos订阅服务,拉去服务提供者信息列表;

c.变更推送:当服务提供者信息变更时,实时通知服务消费者;

d.路由策略:根据不同路由规则,推送不同服务提供者信息给消费者;

e.健康检测:和服务提供者和服务消费者保持心跳,检测服务的健康状态;

2.2、配置中心

a.管理配置:配置的增删改查管理;

b.监听配置:客户端实时监听配置的更新情况;

c.灰度更新:允许针对部分客户端进行配置更新;

d.配置快照:客户端需要缓存配置快照,当nacos服务器不可用时可以使用本地配置,提高整体容灾能力。

3、Nacos有哪些概念?

3.1、命名空间(namespace)

命名空间是用于配置和服务的空间隔离,不同命名空间下的数据相互独立,不同命名空间下可以存在相同配置和相同服务,通常命名空间可用于不同环境。如开发环境、测试环境和生产环境可以通过命名空间来进行区分隔离。

nacos默认有一个保留的命名空间为public,每一个命名空间都有一个唯一的ID,如果没有手动配置则会自动生产一个。服务管理和配置管理都是在命名空间区域内进行管理,每一个服务和配置都会绑定一个命名空间。

3.2、配置分组(Group)

同一个命名空间下可以有多个应用的配置,每个应用都可能有相同的配置,所以需要有一个分组来将属于同一个应用的配置进行区分。配置分组不需要单独管理,在管理配置集时添加配置分组即可。

3.3、配置集(Data)

配置集是一组配置的集合,通常一个配置文件就是一个配置集,每一个配置集都有一个配置集ID叫做Data ID,如和缓存相关配置都可以放在配置集cache.properties中,数据库配置放在db.properties中。

配置集ID可以重复,但是同一个命名空间下同一个配置分组下的配置集ID不可重复,也就是说命名空间+配置分组+配置集ID可以唯一定位一个配置文件。

3.4、服务

通过预定义接口网络访问的提供给客户端的软件功能。每个服务都有一个服务名是服务提供的标识,通过该标识可以唯一确定其指代的服务。

3.5、服务注册

服务提供者将自己提供的服务注册到nacos,nacos存储服务和服务提供者关系。

3.6、服务订阅

服务消费者从nacos上获取对应服务的服务提供者信息列表

3.7、元数据

Nacos数据(如配置和服务)描述信息,如服务版本、权重、容灾策略、负载均衡策略、鉴权配置、各种自定义标签 (label),从作用范围来看,分为服务级别的元信息、集群的元信息及实例的元信息。

3.8、权重

实例级别的配置。权重为浮点数。权重越大,分配给该实例的流量越大。

3.9、健康检查

以指定方式检查服务下挂载的实例 (Instance) 的健康度,从而确认该实例 (Instance) 是否能提供服务。根据检查结果,实例 (Instance) 会被判断为健康或不健康。对服务发起解析请求时,不健康的实例 (Instance) 不会返回给客户端。

3.10、健康保护阈值

为了防止因过多实例 (Instance) 不健康导致流量全部流向健康实例 (Instance) ,继而造成流量压力把健康实例 (Instance) 压垮并形成雪崩效应,应将健康保护阈值定义为一个 0 到 1 之间的浮点数。当域名健康实例数 (Instance) 占总服务实例数 (Instance) 的比例小于

该值时,无论实例 (Instance) 是否健康,都会将这个实例 (Instance) 返回给客户端。这样做虽然损失了一部分流量,但是保证了集群中剩余健康实例 (Instance) 能正常工作。

二、Nacos使用

2.1、Nacos的Open API

Nacos提供了大量的HTTP API,其中包括配置管理、服务管理和命名空间管理等,核心API如下

配置管理 获取配置 GET /nacos/v1/cs/configs
  监听配置 POST /nacos/v1/cs/configs/listener
  发布配置 POST /nacos/v1/cs/configs
  删除配置 DELETE /nacos/v1/cs/configs
  查询历史版本配置 GET /nacos/v1/cs/history?search=accurate
  查询上一个版本配置 GET /nacos/v1/cs/history/previous
服务发现 注册实例 POST /nacos/v1/ns/instance
  注销实例 DELETE /nacos/v1/ns/instance
  修改实例 PUT /nacos/v1/ns/instance
  查询实例列表   GET /nacos/v1/ns/instance/list
  查询实例详情 GET /nacos/v1/ns/instance
  发送实例心跳 PUT /nacos/v1/ns/instance/beat
  创建服务 POST /nacos/v1/ns/service
  删除服务 DELETE /nacos/v1/ns/service
  修改服务 PUT /nacos/v1/ns/service
  查询服务详情 GET /nacos/v1/ns/service
  查询服务列表 GET /nacos/v1/ns/service/list
  查询系统数据指标 GET /nacos/v1/ns/operator/metrics
  查询集群服务器列表 GET /nacos/v1/ns/operator/servers
  查询集群当前Leader GET /nacos/v1/ns/raft/leader
  更新实例健康状态 PUT /nacos/v1/ns/health/instance
  批量更新实例元数据 PUT /nacos/v1/ns/instance/metadata/batch
命名空间 查询命名空间列表 GET /nacos/v1/console/namespaces
  创建命名空间 POST /nacos/v1/console/namespaces
  修改命名空间 PUT /nacos/v1/console/namespaces
  删除命名空间 DELETE /nacos/v1/console/namespaces

2.2、JAVA集成Nacos的SDK

Maven依赖

<dependency>
    <groupId>com.alibaba.nacos</groupId>
    <artifactId>nacos-client</artifactId>
    <version>${version}</version>
</dependency>

2.2.1、配置管理

和配置相关功能都定义在ConfigService接口中,根据NacosFactory可以创建ConfigService对象,调用ConfigService相关方法就可对配置文件进行增删改查或监听配置更新,ConfigService相关方法定义如下:

public interface ConfigService {

        /**
         * 获取配置
         */
        String getConfig(String dataId, String group, long timeoutMs) throws NacosException;

        /**
         * 获取配置并添加监听器监听配置变更
         */
        String getConfigAndSignListener(String dataId, String group, long timeoutMs, Listener listener)
                throws NacosException;

        /**
         * 添加监听器监听配置变更
         */
        void addListener(String dataId, String group, Listener listener) throws NacosException;

        /**
         * 发布配置
         */
        boolean publishConfig(String dataId, String group, String content) throws NacosException;

        /**
         * 发布指定类型的配置,如yml、xml、properties、json等
         */
        boolean publishConfig(String dataId, String group, String content, String type) throws NacosException;

        /**
         * 删除配置
         */
        boolean removeConfig(String dataId, String group) throws NacosException;

        /**
         * 删除监听器
         */
        void removeListener(String dataId, String group, Listener listener);

        /**
         * 获取服务器状态
         */
        String getServerStatus();

        /**
         * 关闭服务
         */
        void shutDown() throws NacosException;
    }

ConfigService测试案例代码如下:

public static void main(String[] args) throws NacosException {
        /** 配置管理服务*/
        String nacosServer = "localhost:8848";
        ConfigService configService = NacosFactory.createConfigService(nacosServer);

        String dataId = "db.config";
        String group = "lucky";
        /** 1.发布配置*/
        String configContent = "";
        configService.publishConfig(dataId, group, configContent);
        /** 2.获取配置*/
        String config = configService.getConfig(dataId, group, 5000);
        /** 3.添加配置更新监听器*/
        configService.addListener(dataId, group, new Listener() {
            @Override
            public Executor getExecutor() {
                return null;
            }

            @Override
            public void receiveConfigInfo(String configInfo) {
                System.out.println("监听配置更新:" + configInfo);
                //TODO 处理配置更新
            }
        });
        while (true){

        }
    }

2.2.2、服务管理

服务管理相关功能都由NamingService接口定义,根据NacosFactory可以获取NamingService实例,NamingService包含服务注册、订阅等相关方法,定义如下:

public interface NamingService {

        /**
         *  注册服务实例
         */
        void registerInstance(String serviceName, String ip, int port) throws NacosException;

        void registerInstance(String serviceName, String groupName, String ip, int port) throws NacosException;

        void registerInstance(String serviceName, String ip, int port, String clusterName) throws NacosException;

        void registerInstance(String serviceName, String groupName, String ip, int port, String clusterName) throws NacosException;

        void registerInstance(String serviceName, Instance instance) throws NacosException;

        void registerInstance(String serviceName, String groupName, Instance instance) throws NacosException;

        /**
         * 注销服务实例
         */
        void deregisterInstance(String serviceName, String ip, int port) throws NacosException;

        void deregisterInstance(String serviceName, String groupName, String ip, int port) throws NacosException;

        void deregisterInstance(String serviceName, String ip, int port, String clusterName) throws NacosException;

        void deregisterInstance(String serviceName, String groupName, String ip, int port, String clusterName) throws NacosException;

        void deregisterInstance(String serviceName, Instance instance) throws NacosException;

        void deregisterInstance(String serviceName, String groupName, Instance instance) throws NacosException;

        /**
         * 根据条件获取服务实例列表
         */
        List<Instance> getAllInstances(String serviceName) throws NacosException;

        List<Instance> getAllInstances(String serviceName, String groupName) throws NacosException;

        List<Instance> getAllInstances(String serviceName, boolean subscribe) throws NacosException;

        List<Instance> getAllInstances(String serviceName, String groupName, boolean subscribe) throws NacosException;

        List<Instance> getAllInstances(String serviceName, List<String> clusters) throws NacosException;

        List<Instance> getAllInstances(String serviceName, String groupName, List<String> clusters) throws NacosException;

        List<Instance> getAllInstances(String serviceName, List<String> clusters, boolean subscribe) throws NacosException;

        List<Instance> getAllInstances(String serviceName, String groupName, List<String> clusters, boolean subscribe) throws NacosException;

        /**
         * 根据条件选择服务实例列表
         */
        List<Instance> selectInstances(String serviceName, boolean healthy) throws NacosException;

        List<Instance> selectInstances(String serviceName, String groupName, boolean healthy) throws NacosException;

        List<Instance> selectInstances(String serviceName, boolean healthy, boolean subscribe) throws NacosException;

        List<Instance> selectInstances(String serviceName, String groupName, boolean healthy, boolean subscribe) throws NacosException;

        List<Instance> selectInstances(String serviceName, List<String> clusters, boolean healthy) throws NacosException;

        List<Instance> selectInstances(String serviceName, String groupName, List<String> clusters, boolean healthy) throws NacosException;

        List<Instance> selectInstances(String serviceName, List<String> clusters, boolean healthy, boolean subscribe) throws NacosException;

        List<Instance> selectInstances(String serviceName, String groupName, List<String> clusters, boolean healthy, boolean subscribe) throws NacosException;

        /**
         * 根据条件以及负载均衡策略选择一个健康的服务实例
         */
        Instance selectOneHealthyInstance(String serviceName) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, String groupName) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, boolean subscribe) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, String groupName, boolean subscribe) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, List<String> clusters) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, String groupName, List<String> clusters) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, List<String> clusters, boolean subscribe) throws NacosException;

        Instance selectOneHealthyInstance(String serviceName, String groupName, List<String> clusters, boolean subscribe) throws NacosException;

        /**
         * 订阅服务,并开启Listener监听服务变更事件
         */
        void subscribe(String serviceName, EventListener listener) throws NacosException;

        void subscribe(String serviceName, String groupName, EventListener listener) throws NacosException;

        void subscribe(String serviceName, List<String> clusters, EventListener listener) throws NacosException;

        void subscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
                throws NacosException;

        /**
         * 取消订阅服务,并关闭Listener监听服务变更事件
         */
        void unsubscribe(String serviceName, EventListener listener) throws NacosException;

        void unsubscribe(String serviceName, String groupName, EventListener listener) throws NacosException;

        void unsubscribe(String serviceName, List<String> clusters, EventListener listener) throws NacosException;

        void unsubscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
                throws NacosException;

        /**
         * 根据条件获取所有服务名称列表
         */
        ListView<String> getServicesOfServer(int pageNo, int pageSize) throws NacosException;

        ListView<String> getServicesOfServer(int pageNo, int pageSize, String groupName) throws NacosException;

        ListView<String> getServicesOfServer(int pageNo, int pageSize, AbstractSelector selector) throws NacosException;

        ListView<String> getServicesOfServer(int pageNo, int pageSize, String groupName, AbstractSelector selector) throws NacosException;

        /**
         * 获取当前客户端订阅的服务列表
         */
        List<ServiceInfo> getSubscribeServices() throws NacosException;

        /**
         * 获取服务器状态
         */
        String getServerStatus();

        /**
         * 关闭服务器
         */
        void shutDown() throws NacosException;
    }

 NamingService测试案例代码如下:

public static void main(String[] args) throws NacosException {
        String serverAddr = "42.192.94.208:8858";
        /** 1.创建NamingService实例 */
        NamingService namingService = NacosFactory.createNamingService(serverAddr);
        /** 2.注册实例*/
        namingService.registerInstance("testService", "localhost", 8080);
        /** 3.注销实例*/
        namingService.deregisterInstance("testService", "localhost", 8080);
        /** 4.获取所有健康实例*/
        List<Instance> instances = namingService.selectInstances("testService", true);
        /** 5.监听服务变化*/
        namingService.subscribe("testService", new EventListener() {
            @Override
            public void onEvent(Event event) {
                System.out.println("处理服务变更事件");
                if(event instanceof NamingEvent){
                    //TODO
                }
            }
        });
        while (true){

        }
    }

2.3、dubbo集成Nacos注册中心

dubbo采用Nacos作为注册中心,只需要在配置注册中心时将地址改成nacos地址即可,如下:

XML配置

<!-- nacos地址 -->
<dubbo:registry address="nacos://127.0.0.1:8848" />

 外部配置

## dubbo注册中心地址
dubbo.registry.address = zookeeper://10.20.153.10:2181

 2.4、SpringBoot集成Nacos配置中心

添加nacos依赖

<dependency>
         <groupId>com.alibaba.boot</groupId>
         <artifactId>nacos-config-spring-boot-starter</artifactId>
         <version>0.2.1</version>
</dependency>

版本号0.2.x.RELEASE对应的是 Spring Boot 2.x 版本,版本0.1.x.RELEASE对应的是 Spring Boot 1.x 版本

在application.properties配置文件中添加nacos地址配置

nacos.config.server-addr=127.0.0.1:8848

 在SpringBoot启动类添加@NacosProperySource注解添加Nacos配置来源,autoRefreshed表示是否自动更新

@NacosPropertySource(dataId = "db.config", autoRefreshed = true)

 通过nacos的@NacosValue注解给变量赋值配置的值,autoRefreshed表示是否自动更新,如:

    @NacosValue(value = "${db.username:tempUser}", autoRefreshed = true)
    private String dbUser;

    @NacosValue(value = "${db.password:tempPassword}")
    private String dbPassword;

三、Nacos实现原理

3.1、配置中心实现原理

Nacos提供了大量的配置管理相关API供客户端调用,客户端可以很方便的调用API来进行配置管理。所以Nacos Client启动的时候只需要调用Nacos server的接口就可以获取到所有的配置。

所以客户端获取配置的重点是如何进行热更新,也就是当服务端配置更新后,客户端是如何根据监听器进行实时更新的,监听器又是如何实现的呢?首先就需要从ConfigService的addListener方法入手。

ConfigService接口的实现类是NacosConfigService,addListener方法源码如下:

 1 private final ClientWorker worker;
 2 
 3     /** NacosConfigService类 添加配置更新监听器方法
 4      * @param dataId : 配置集
 5      * @param group : 配置分组
 6      * @param listener : 配置更新监听器
 7      *  */
 8     public void addListener(String dataId, String group, Listener listener) throws NacosException {
 9         //调用ClientWorker对象方法
10         worker.addTenantListeners(dataId, group, Arrays.asList(listener));
11     }
12 
13     //Http客户端
14     private final HttpAgent agent;
15 
16     /** ClientWorker类 添加监听器方法 */
17     public void addTenantListeners(String dataId, String group, List<? extends Listener> listeners) throws NacosException {
18         group = null2defaultGroup(group);
19         String tenant = agent.getTenant();
20         CacheData cache = addCacheDataIfAbsent(dataId, group, tenant);
21         for (Listener listener : listeners) {
22             /** 调用CacheData对象的addListener方法*/
23             cache.addListener(listener);
24         }
25     }
/** CacheData类 监听器列表*/
    private final CopyOnWriteArrayList<ManagerListenerWrap> listeners;

    /**
     * CacheData类 添加监听器
     * */
    public void addListener(Listener listener) {
        if (null == listener) {
            throw new IllegalArgumentException("listener is null");
        }
        /** 包装Listener*/
        ManagerListenerWrap wrap = (listener instanceof AbstractConfigChangeListener) ? new ManagerListenerWrap(listener, md5, content)
                        : new ManagerListenerWrap(listener, md5);

        /** 将监听器添加到列表中*/
        if (listeners.addIfAbsent(wrap)) {
            LOGGER.info("[{}] [add-listener] ok, tenant={}, dataId={}, group={}, cnt={}", name, tenant, dataId, group,
                    listeners.size());
        }
    }

 逻辑并不复杂,最终是将Listener对象进行封装并添加到了CacheData对象的listeners列表中存储起来。既然有地方存了,那么就需要有地方去读,而开启监听是通过ClientWorker实例来实现。

NacosConfigService初始化时,会初始化ClientWorker对象,ClientWorker构造函数如下:

/** ClientWorker构造函数 */
    public ClientWorker(final HttpAgent agent, final ConfigFilterChainManager configFilterChainManager,
                        final Properties properties) {
        this.agent = agent;
        this.configFilterChainManager = configFilterChainManager;

        /** 1.初始化配置*/
        init(properties);

        /** 2.创建定时任务线程池*/
        this.executor = Executors.newScheduledThreadPool(1, new ThreadFactory() {
            @Override
            public Thread newThread(Runnable r) {
                Thread t = new Thread(r);
                t.setName("com.alibaba.nacos.client.Worker." + agent.getName());
                t.setDaemon(true);
                return t;
            }
        });

        /** 3.创建定时任务线程池*/
        this.executorService = Executors
                .newScheduledThreadPool(Runtime.getRuntime().availableProcessors(), new ThreadFactory() {
                    @Override
                    public Thread newThread(Runnable r) {
                        Thread t = new Thread(r);
                        t.setName("com.alibaba.nacos.client.Worker.longPolling." + agent.getName());
                        t.setDaemon(true);
                        return t;
                    }
                });

        /** 4.开启定时任务,10毫秒执行一次*/
        this.executor.scheduleWithFixedDelay(new Runnable() {
            @Override
            public void run() {
                try {
                    /** 5.检测配置信息*/
                    checkConfigInfo();
                } catch (Throwable e) {
                    LOGGER.error("[" + agent.getName() + "] [sub-check] rotate check error", e);
                }
            }
        }, 1L, 10L, TimeUnit.MILLISECONDS);
    }

ClientWorker初始化时会创建两个定时任务线程池,一个只有一个线程每10毫秒执行一次checkConfigInfo方法,而另一个线程池就是专门用来处理checkConfigInfo方法内部的检查配置的逻辑,源码如下:

/** ClientWorker检查配置信息方法*/
    public void checkConfigInfo() {
        /** 1.获取CacheData对象,key是dataId*/
        int listenerSize = cacheMap.size();
        int longingTaskCount = (int) Math.ceil(listenerSize / ParamUtil.getPerTaskConfigSize());
        if (longingTaskCount > currentLongingTaskCount) {
            for (int i = (int) currentLongingTaskCount; i < longingTaskCount; i++) {
                /** 2.线程池执行LongPollingRunnable任务*/
                executorService.execute(new LongPollingRunnable(i));
            }
            currentLongingTaskCount = longingTaskCount;
        }
    }

checkConfigInfo方法实际就是向定时任务线程池中提交一个长轮训任务LongPollingRunnable,该任务执行逻辑如下:

/** LongPollingRunnable线程执行逻辑 */
    public void run() {
        List<CacheData> cacheDatas = new ArrayList<CacheData>();
        List<String> inInitializingCacheList = new ArrayList<String>();
        try {
            //遍历所有CacheData
            for (CacheData cacheData : cacheMap.values()) {
                if (cacheData.getTaskId() == taskId) {
                    cacheDatas.add(cacheData);
                    try {
                        /** 检查CacheData的本地配置*/
                        checkLocalConfig(cacheData);
                        if (cacheData.isUseLocalConfigInfo()) {
                            cacheData.checkListenerMd5();
                        }
                    } catch (Exception e) {
                        LOGGER.error("get local config info error", e);
                    }
                }
            }

            // 校验服务器配置,检查需要更新的DataId
            List<String> changedGroupKeys = checkUpdateDataIds(cacheDatas, inInitializingCacheList);
            if (!CollectionUtils.isEmpty(changedGroupKeys)) {
                LOGGER.info("get changedGroupKeys:" + changedGroupKeys);
            }

            /** 遍历所有更新的配置分组key*/
            for (String groupKey : changedGroupKeys) {
                String[] key = GroupKey.parseKey(groupKey);
                String dataId = key[0];
                String group = key[1];
                String tenant = null;
                if (key.length == 3) {
                    tenant = key[2];
                }
                try {
                    /** 获取服务器配置 */
                    String[] ct = getServerConfig(dataId, group, tenant, 3000L);
                    CacheData cache = cacheMap.get(GroupKey.getKeyTenant(dataId, group, tenant));
                    /** 更新服务器配置*/
                    cache.setContent(ct[0]);
                    if (null != ct[1]) {
                        cache.setType(ct[1]);
                    }
                    LOGGER.info("[{}] [data-received] dataId={}, group={}, tenant={}, md5={}, content={}, type={}", agent.getName(), dataId, group, tenant, cache.getMd5(), ContentUtils.truncateContent(ct[0]), ct[1]);
                } catch (NacosException ioe) {
                    String message = String.format("[%s] [get-update] get changed config exception. dataId=%s, group=%s, tenant=%s",
                                    agent.getName(), dataId, group, tenant);
                    LOGGER.error(message, ioe);
                }
            }
            for (CacheData cacheData : cacheDatas) {
                if (!cacheData.isInitializing() || inInitializingCacheList
                        .contains(GroupKey.getKeyTenant(cacheData.dataId, cacheData.group, cacheData.tenant))) {
                    /** 校验配置的MD5*/
                    cacheData.checkListenerMd5();
                    cacheData.setInitializing(false);
                }
            }
            inInitializingCacheList.clear();
            executorService.execute(this);

        } catch (Throwable e) {
            LOGGER.error("longPolling error : ", e);
            executorService.schedule(this, taskPenaltyTime, TimeUnit.MILLISECONDS);
        }
    }
}

首先是检查本地配置,所以及时服务器崩溃了,nacos客户端也可以保证可以使用本地配置,本地配置存储在~nacos/config/目录下,检查完本地配置之后,再查询服务器配置,然后和本地配置进行比较的到需要更新的配置,将最新的配置写入本地。

最后执行CacheData的checkListenerMd5()方法,该方法作用是比较配置文件的MD5加密数据是否一致,如果不一致则表示更新过,那么就需要触发监听器的回调,源码如下:

 1 /** CacheData类*/
 2     void checkListenerMd5() {
 3         for (ManagerListenerWrap wrap : listeners) {
 4             //比较MD5加密数据是否一致
 5             if (!md5.equals(wrap.lastCallMd5)) {
 6                 /** 回调Listener*/
 7                 safeNotifyListener(dataId, group, content, type, md5, wrap);
 8             }
 9         }
10     }
11 
12     private void safeNotifyListener(final String dataId, final String group, final String content, final String type,
13                                     final String md5, final ManagerListenerWrap listenerWrap) {
14         final Listener listener = listenerWrap.listener;
15 
16         Runnable job = new Runnable() {
17             @Override
18             public void run() {
19                 ClassLoader myClassLoader = Thread.currentThread().getContextClassLoader();
20                 ClassLoader appClassLoader = listener.getClass().getClassLoader();
21                 try {
22                     if (listener instanceof AbstractSharedListener) {
23                         AbstractSharedListener adapter = (AbstractSharedListener) listener;
24                         adapter.fillContext(dataId, group);
25                         LOGGER.info("[{}] [notify-context] dataId={}, group={}, md5={}", name, dataId, group, md5);
26                     }
27                     // 执行回调之前先将线程classloader设置为具体webapp的classloader,以免回调方法中调用spi接口是出现异常或错用(多应用部署才会有该问题)。
28                     Thread.currentThread().setContextClassLoader(appClassLoader);
29 
30                     ConfigResponse cr = new ConfigResponse();
31                     cr.setDataId(dataId);
32                     cr.setGroup(group);
33                     cr.setContent(content);
34                     configFilterChainManager.doFilter(null, cr);
35                     String contentTmp = cr.getContent();
36                     /** 回调执行Listener的receiveConfigInfo方法 */
37                     listener.receiveConfigInfo(contentTmp);
38 
39                     // compare lastContent and content
40                     if (listener instanceof AbstractConfigChangeListener) {
41                         Map data = ConfigChangeHandler.getInstance()
42                                 .parseChangeData(listenerWrap.lastContent, content, type);
43                         ConfigChangeEvent event = new ConfigChangeEvent(data);
44                         ((AbstractConfigChangeListener) listener).receiveConfigChange(event);
45                         listenerWrap.lastContent = content;
46                     }
47 
48                     listenerWrap.lastCallMd5 = md5;
49                     LOGGER.info("[{}] [notify-ok] dataId={}, group={}, md5={}, listener={} ", name, dataId, group, md5,
50                             listener);
51                 } catch (NacosException ex) {
52                     LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} errCode={} errMsg={}",
53                             name, dataId, group, md5, listener, ex.getErrCode(), ex.getErrMsg());
54                 } catch (Throwable t) {
55                     LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} tx={}", name, dataId,
56                             group, md5, listener, t.getCause());
57                 } finally {
58                     Thread.currentThread().setContextClassLoader(myClassLoader);
59                 }
60             }
61         };
62 
63         final long startNotify = System.currentTimeMillis();
64         try {
65             if (null != listener.getExecutor()) {
66                 listener.getExecutor().execute(job);
67             } else {
68                 job.run();
69             }
70         } catch (Throwable t) {
71             LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} throwable={}", name, dataId,
72                     group, md5, listener, t.getCause());
73         }
74         final long finishNotify = System.currentTimeMillis();
75         LOGGER.info("[{}] [notify-listener] time cost={}ms in ClientWorker, dataId={}, group={}, md5={}, listener={} ",
76                 name, (finishNotify - startNotify), dataId, group, md5, listener);
77     }

当比较更新完的配置和之前的配置不一样时,就会触发监听器Listener的回调,执行Listener的receiveConfigInfo方法

总结:

Nacos配置中心采用的是客户端pull的方式从nacos服务器获取配置数据,并且没有和nacos服务器保持长连接,而是以定时任务执行HTTP请求的方式从Nacos服务器获取最新配置,然后再刷新到本地存储,最后再触发监听器Listener的回调方法。

所以Nacos客户端的监听器的通知并不是nacos服务器主动推送过来的,而是nacos客户端本地轮训查询发现了配置变更之后才触发的回调。另外nacos客户端本地采用了线程池方式拉取配置,所以不会影响核心业务线程。

3.2、服务管理实现原理

nacos提供了大量关于服务发布和订阅的API,作为Nacos客户端,无论是服务提供者还是服务消费者,只需要在启动时调用nacos的API即可完成服务发布和服务订阅功能。但是作为注册中心,还需要有服务实例健康检查功能,服务消费者实时监听服务提供者变化的

通知功能。而服务订阅的监听逻辑和nacos配置的变更监听流程基本上相同,订阅功能主要由subscribe方法实现,NamingService实现类是NacosNamingService,初始化时会执行init方法,初始化服务器代理serverProxy,心跳处理器beatReactor,host处理器

hostReactor等对象,服务订阅方法subscribe方法逻辑如下:

    private HostReactor hostReactor;

    private BeatReactor beatReactor;

    private NamingProxy serverProxy;

    /** NacosNamingService初始化方法 */
    private void init(Properties properties) throws NacosException {
        ValidatorUtils.checkInitParam(properties);
        this.namespace = InitUtils.initNamespaceForNaming(properties);
        InitUtils.initSerialization();
        initServerAddr(properties);
        InitUtils.initWebRootContext(properties);
        initCacheDir();
        initLogName(properties);

        this.serverProxy = new NamingProxy(this.namespace, this.endpoint, this.serverList, properties);
        this.beatReactor = new BeatReactor(this.serverProxy, initClientBeatThreadCount(properties));
        this.hostReactor = new HostReactor(this.serverProxy, beatReactor, this.cacheDir, isLoadCacheAtStart(properties),
                isPushEmptyProtect(properties), initPollingThreadCount(properties));
    }

    /** NacosNamingService服务订阅方法 */
    public void subscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
            throws NacosException {
        hostReactor.subscribe(NamingUtils.getGroupedName(serviceName, groupName), StringUtils.join(clusters, ","),
                listener);
    }

    /** HostReactor的服务订阅方法,并开启监听器*/
    public void subscribe(String serviceName, String clusters, EventListener eventListener) {
        /** 1.注册监听器,存入InstanceChangeNotifier对象的Map中,key是服务名称和集群,value是监听器集合 */
        notifier.registerListener(serviceName, clusters, eventListener);
        /** 2.根据服务名称获取服务器信息 */
        getServiceInfo(serviceName, clusters);
    }

 方法执行到HostReactor对象的subscribe方法,首先是将监听器存入InstanceChangeNotifier对象的Map中,根据服务名称和集群名称作为key存储,value是监听器的集合,存储起来之后调用getServiceInfo方法从nacos服务器获取服务实例信息,逻辑如下:

 1 /** HostReactor类 获取服务实例信息方法 */
 2     public ServiceInfo getServiceInfo(final String serviceName, final String clusters) {
 3         String key = ServiceInfo.getKey(serviceName, clusters);
 4         if (failoverReactor.isFailoverSwitch()) {
 5             return failoverReactor.getService(key);
 6         }
 7         /** 从本地缓存中获取ServiceInfo对象 */
 8         ServiceInfo serviceObj = getServiceInfo0(serviceName, clusters);
 9 
10         if (null == serviceObj) {// 如果本地缓存中没有服务实例
11             serviceObj = new ServiceInfo(serviceName, clusters);
12             serviceInfoMap.put(serviceObj.getKey(), serviceObj);
13             updatingMap.put(serviceName, new Object());
14             /** 立即更新服务实例*/
15             updateServiceNow(serviceName, clusters);
16             updatingMap.remove(serviceName);
17 
18         } else if (updatingMap.containsKey(serviceName)) {//判断当前服务实例是否正在更新
19             if (UPDATE_HOLD_INTERVAL > 0) {
20                 synchronized (serviceObj) {
21                     try {
22                         serviceObj.wait(UPDATE_HOLD_INTERVAL);
23                     } catch (InterruptedException e) {
24                         NAMING_LOGGER
25                                 .error("[getServiceInfo] serviceName:" + serviceName + ", clusters:" + clusters, e);
26                     }
27                 }
28             }
29         }
30 
31         /** 定时更新服务实例信息 */
32         scheduleUpdateIfAbsent(serviceName, clusters);
33         return serviceInfoMap.get(serviceObj.getKey());
34     }

 核心逻辑是先从本地获取服务实例信息,如果不存在那么立即执行updateServiceNow方法进行更新;如果已经存在那么先执行scheuleUpdateIfAbsent方法定时更新。updateServiceNow方法也就是当前线程立即更新服务实例,执行了updateService方法,

而定时更新逻辑是先构建一个UpdateTask,然后提交给线程池来执行,定时每1秒执行一次,逻辑如下:

/** HostReactor类 */
    public void scheduleUpdateIfAbsent(String serviceName, String clusters) {
        if (futureMap.get(ServiceInfo.getKey(serviceName, clusters)) != null) {
            return;
        }

        synchronized (futureMap) {
            if (futureMap.get(ServiceInfo.getKey(serviceName, clusters)) != null) {
                return;
            }

            /** 创建UpdateTask,并添加定时任务 */
            ScheduledFuture<?> future = addTask(new UpdateTask(serviceName, clusters));
            futureMap.put(ServiceInfo.getKey(serviceName, clusters), future);
        }
    }

    /** HostReactor类添加任务*/
    public synchronized ScheduledFuture<?> addTask(UpdateTask task) {
        /** 线程池执行,每1秒执行一次*/
        return executor.schedule(task, DEFAULT_DELAY, TimeUnit.MILLISECONDS);
    }

所以更新的逻辑主要在UpdateTask执行体类,且逻辑肯定包含了updateService方法的逻辑,源码核心逻辑如下:

/** HostReactor 更新服务实例方法 */
    public void updateService(String serviceName, String clusters) throws NacosException {
        /** 1.从本地获取旧的服务实例 */
        ServiceInfo oldService = getServiceInfo0(serviceName, clusters);
        try {
            /** 2.从服务器查询最新服务实例列表 */
            String result = serverProxy.queryList(serviceName, clusters, pushReceiver.getUdpPort(), false);

            if (StringUtils.isNotEmpty(result)) {
                /** 3.刷新本地缓存 */
                processServiceJson(result);
            }
        } finally {
            if (oldService != null) {
                synchronized (oldService) {
                    oldService.notifyAll();
                }
            }
        }
    }

    /** UpdateTask 执行体*/
    public void run() {
        long delayTime = DEFAULT_DELAY;
        try {
            /** 1.从缓存中获取服务实例*/
            ServiceInfo serviceObj = serviceInfoMap.get(ServiceInfo.getKey(serviceName, clusters));
            if (serviceObj == null) {
                /** 2.如果缓存中没有,则执行updateService方法查询*/
                updateService(serviceName, clusters);
                return;
            }
            /** 2.如果本地服务实例更新时间延迟,那么就执行updateService方法刷新*/
            if (serviceObj.getLastRefTime() <= lastRefTime) {
                updateService(serviceName, clusters);
                serviceObj = serviceInfoMap.get(ServiceInfo.getKey(serviceName, clusters));
            } else {
                refreshOnly(serviceName, clusters);
            }

            lastRefTime = serviceObj.getLastRefTime();

            if (!notifier.isSubscribed(serviceName, clusters) && !futureMap
                    .containsKey(ServiceInfo.getKey(serviceName, clusters))) {
                // abort the update task
                NAMING_LOGGER.info("update task is stopped, service:" + serviceName + ", clusters:" + clusters);
                return;
            }
            if (CollectionUtils.isEmpty(serviceObj.getHosts())) {
                /** 3.如果查询失败,那么失败次数自增*/
                incFailCount();
                return;
            }
            delayTime = serviceObj.getCacheMillis();
            /** 4.如果查询成功,那么重置失败次数*/
            resetFailCount();
        } catch (Throwable e) {
            incFailCount();
            NAMING_LOGGER.warn("[NA] failed to update serviceName: " + serviceName, e);
        } finally {
            /** 5.提交下一次延迟任务*/
            executor.schedule(this, Math.min(delayTime << failCount, DEFAULT_DELAY * 60), TimeUnit.MILLISECONDS);
        }
    }

 可以发现更新逻辑就是执行updateService方法,首先从服务器查询最新的服务实例列表,然后将查询结果刷新到本地缓存中,然后开启下一次定时任务继续执行。默认是1秒钟执行一次,如果查询不到任何记录(服务器异常或无可用实例),那么就增加失败次数,每

增加一次失败次数延迟执行时间就翻倍,最长会1分钟执行一次。

另外当执行updateService方法刷新服务实例时,如果触发了服务更新,就需要更新本地缓存并且写入磁盘的持久化文件中保持,并且还会调用NotifyCenter的publishEvent方法发布服务实例变更事件,逻辑如下:

/** HostReactor 处理查询服务实例结果方法*/
    public ServiceInfo processServiceJson(String json) {
        //......
        boolean changed = false;
        if (oldService != null) {
            //......
        } else {
            changed = true;
            /** 刷新内存中缓存*/
            serviceInfoMap.put(serviceInfo.getKey(), serviceInfo);
            /** 发布服务实例变更事件*/
            NotifyCenter.publishEvent(new InstancesChangeEvent(serviceInfo.getName(), serviceInfo.getGroupName(), serviceInfo.getClusters(), serviceInfo.getHosts()));
            serviceInfo.setJsonFromServer(json);
            /** 写入磁盘本地数据*/
            DiskCache.write(serviceInfo, cacheDir);
        }
        //......
        return serviceInfo;
    }

    /** NotifyCenter 发布事件方法*/
    public static boolean publishEvent(Event event) {
        try {
            return publishEvent(event.getClass(), event);
        } catch (Throwable var2) {
            LOGGER.error("There was an exception to the message publishing : {}", var2);
            return false;
        }
    }
    private static boolean publishEvent(final Class<? extends Event> eventType, final Event event) {
        if (ClassUtils.isAssignableFrom(SlowEvent.class, eventType)) {
            return INSTANCE.sharePublisher.publish(event);
        }

        final String topic = ClassUtils.getCanonicalName(eventType);
        EventPublisher publisher = INSTANCE.publisherMap.get(topic);
        if (publisher != null) {
            /** 执行EventPublisher对象publish方法*/
            return publisher.publish(event);
        }
        LOGGER.warn("There are no [{}] publishers for this event, please register", topic);
        return false;
    }

实际是调用了EventPublisher对象的publish方法,默认实现是DefaultPublisher类,DefaultPublisher会先将通知事件存入本地队列,然后采用线程异步通知,逻辑如下:

 1  /** DefaultPublisher类 发布事件方法*/
 2     public boolean publish(Event event) {
 3         /** 1.检查并开启线程 */
 4         checkIsStart();
 5         /** 2.将事件存入队列*/
 6         boolean success = this.queue.offer(event);
 7         if (!success) {
 8             LOGGER.warn("Unable to plug in due to interruption, synchronize sending time, event : {}", event);
 9             /** 3.如果存入队列失败,那么立即通知*/
10             receiveEvent(event);
11             return true;
12         }
13         return true;
14     }
15 
16     public void run() {
17         openEventHandler();
18     }
19 
20     void openEventHandler() {
21         try {
22 
23             // This variable is defined to resolve the problem which message overstock in the queue.
24             int waitTimes = 60;
25             // To ensure that messages are not lost, enable EventHandler when
26             // waiting for the first Subscriber to register
27             for (; ; ) {
28                 if (shutdown || hasSubscriber() || waitTimes <= 0) {
29                     break;
30                 }
31                 ThreadUtils.sleep(1000L);
32                 waitTimes--;
33             }
34 
35             for (; ; ) {
36                 if (shutdown) {
37                     break;
38                 }
39                 final Event event = queue.take();
40                 receiveEvent(event);
41                 UPDATER.compareAndSet(this, lastEventSequence, Math.max(lastEventSequence, event.sequence()));
42             }
43         } catch (Throwable ex) {
44             LOGGER.error("Event listener exception : {}", ex);
45         }
46     }
47 
48     void receiveEvent(Event event) {
49         final long currentEventSequence = event.sequence();
50         /** 遍历所有订阅者,*/
51         for (Subscriber subscriber : subscribers) {
52             // Whether to ignore expiration events
53             if (subscriber.ignoreExpireEvent() && lastEventSequence > currentEventSequence) {
54                 LOGGER.debug("[NotifyCenter] the {} is unacceptable to this subscriber, because had expire",
55                         event.getClass());
56                 continue;
57             }
58             /** 通知订阅者,执行订阅者的onEvent方法 */
59             notifySubscriber(subscriber, event);
60         }
61     }

DefaultPublisher先将事件存入队列,然后通过异步线程从队列中取任务,遍历事件所有订阅者,依次遍历执行订阅者的onEvent方法实现事件回调通知。

总结:

服务管理的实现和配置管理实现原理基本一致,启动时首先会调用Nacos服务器的HTTP接口初始化一次,并且在本地内存中缓存一份,磁盘中持久化一份。然后开启定时任务轮训查询服务器最新数据,如果数据发生变化,那么就更新内存中缓存,重新写入磁盘,

然后再由线程池异步遍历所有订阅者,回调执行订阅者的回调函数实现变更通知的逻辑。

3.3、心跳检测

作为服务提供者,需要和nacos服务器保持心跳,服务提供者在注册实例时会创建心跳任务,逻辑如下:

 1 /** 服务提供者 注册实例*/
 2     public void registerInstance(String serviceName, String groupName, Instance instance) throws NacosException {
 3         NamingUtils.checkInstanceIsLegal(instance);
 4         String groupedServiceName = NamingUtils.getGroupedName(serviceName, groupName);
 5         /** 如果实例是临时节点*/
 6         if (instance.isEphemeral()) {
 7             /** 构建心跳任务交给BeatReactor处理 */
 8             BeatInfo beatInfo = beatReactor.buildBeatInfo(groupedServiceName, instance);
 9             beatReactor.addBeatInfo(groupedServiceName, beatInfo);
10         }
11         serverProxy.registerService(groupedServiceName, groupName, instance);
12     }

 调用BeatReactor的addBeatInfo方法提交心跳任务

public void addBeatInfo(String serviceName, BeatInfo beatInfo) {
        NAMING_LOGGER.info("[BEAT] adding beat: {} to beat map.", beatInfo);
        String key = buildKey(serviceName, beatInfo.getIp(), beatInfo.getPort());
        BeatInfo existBeat = null;
        //fix #1733
        if ((existBeat = dom2Beat.remove(key)) != null) {
            existBeat.setStopped(true);
        }
        dom2Beat.put(key, beatInfo);
        /** 创建并提交心跳定时任务,默认是5秒执行一次*/
        executorService.schedule(new BeatTask(beatInfo), beatInfo.getPeriod(), TimeUnit.MILLISECONDS);
        MetricsMonitor.getDom2BeatSizeMonitor().set(dom2Beat.size());
    }

    /** 心跳定时任务执行体 */
    class BeatTask implements Runnable {

        BeatInfo beatInfo;

        public BeatTask(BeatInfo beatInfo) {
            this.beatInfo = beatInfo;
        }

        @Override
        public void run() {
            if (beatInfo.isStopped()) {
                return;
            }
            long nextTime = beatInfo.getPeriod();
            try {
                /** 发送心跳给Nacos服务器
                 *  调用Nacos服务器的 /instance/beat 接口 */
                JsonNode result = serverProxy.sendBeat(beatInfo, BeatReactor.this.lightBeatEnabled);
                long interval = result.get("clientBeatInterval").asLong();
                boolean lightBeatEnabled = false;
                if (result.has(CommonParams.LIGHT_BEAT_ENABLED)) {
                    lightBeatEnabled = result.get(CommonParams.LIGHT_BEAT_ENABLED).asBoolean();
                }
                BeatReactor.this.lightBeatEnabled = lightBeatEnabled;
                if (interval > 0) {
                    nextTime = interval;
                }
                int code = NamingResponseCode.OK;
                if (result.has(CommonParams.CODE)) {
                    code = result.get(CommonParams.CODE).asInt();
                }
                if (code == NamingResponseCode.RESOURCE_NOT_FOUND) {
                    Instance instance = new Instance();
                    instance.setPort(beatInfo.getPort());
                    instance.setIp(beatInfo.getIp());
                    instance.setWeight(beatInfo.getWeight());
                    instance.setMetadata(beatInfo.getMetadata());
                    instance.setClusterName(beatInfo.getCluster());
                    instance.setServiceName(beatInfo.getServiceName());
                    instance.setInstanceId(instance.getInstanceId());
                    instance.setEphemeral(true);
                    try {
                        /** 如果返回404,那么就重新注册实例*/
                        serverProxy.registerService(beatInfo.getServiceName(),
                                NamingUtils.getGroupName(beatInfo.getServiceName()), instance);
                    } catch (Exception ignore) {
                    }
                }
            } catch (NacosException ex) {
                NAMING_LOGGER.error("[CLIENT-BEAT] failed to send beat: {}, code: {}, msg: {}",
                        JacksonUtils.toJson(beatInfo), ex.getErrCode(), ex.getErrMsg());
            }
            /** 开启下一次心跳定时任务*/
            executorService.schedule(new BeatTask(beatInfo), nextTime, TimeUnit.MILLISECONDS);
        }
    }

 核心逻辑就是构建心跳定时任务交给NacosNamingService的线程池,默认每5秒发送一次心跳,实际就是调用nacos服务器的 /instance/beat接口发送心跳,心跳发送完成再开启下一次的定时任务,整体逻辑比较简单。

总结:

虽然nacos实现了配置中心和服务发现、服务订阅、健康检测等功能,但是nacos客户端实际上并没有和nacos服务器保持长连接,而是采用HTTP请求的方式来实现。

配置中心就是调用查询配置HTTP接口查询并缓存在本地,然后开启定时任务轮训查询,如果发送变更就刷新本地缓存,并触发回调通知监听器;

服务发布就是调用注册服务HTTP接口实现注册,然后开启定时任务每5秒向nacos调用一次HTTP接口发送心跳数据,nacos根据心跳来管理服务提供者的健康状态;

服务订阅就是调用查询服务HTTP接口实现服务订阅并将服务实例信息缓存在本地,然后开启定时任务轮训查询并和本地数据进行比较,如果有更新那么就异步触发回调通知所有服务订阅者;