阿里云经典网络与Rancher VXLAN兼容性问题

近期国内不少用户曝出在阿里云的环境中没法使用Rancher的VXLAN网络,现象是跨主机的容器没法正常通讯,healthcheck服务一直没法更新正常状态。通过一系列走访排查,最终定位此现象只发生在阿里云的经典网络环境下。若是你也遭遇了一样的状况,请关注此文。安全

阿里云经典网络部署最新的stable(v1.6.7)版本并启用VXLAN网络,使用经典网络的内网IP加入两台主机,现象以下:网络

输入图片说明

Rancher的VXLAN网络除了VXLAN自己的机制外,还须要在IPtables中的RAW表中进行数据包标记,而后在Filter表中对标记数据包设置ACCEPT规则,进而实现容器跨主机通讯。可是在阿里云经典网络环境中,不管如何配置安全组功能,RAW表中始终没法匹配进入主机栈的数据包。工具

输入图片说明

依据“大胆假设,当心求证”的troubleshooting原则,首先咱们验证了使用经典网络的公网IP注册主机,VXLAN并无问题,这说明存在某种安全规则是做用在经典网络的内网IP的。测试

输入图片说明

其次,咱们知道Rancher VXLAN的实现是基于Linux kernel的VXLAN module,IPtables的数据包处理也基本是kernel处理,因此理论上讲确定系统中存在权限更高的组件截获了VXLAN的数据,由于咱们测试了在其余公有云环境并没有此问题,考虑阿里云会对经典网络的内网安全作诸多限制,因此怀疑阿里云镜像内作了一些特殊的定制。阿里云

以过往使用阿里云的经验,咱们对系统中内置的“安全加固”组件疑惑很大,尝试删除这个组件,能够使用这个脚本 http://update.aegis.aliyun.com/download/uninstall.sh ,但重启机器后发现VXLAN网络依然不通。没法肯定是否存在删除不完全的状况,因此重建环境并在建立VM时选择去掉“安全加固”选项。云计算

输入图片说明

从新添加主机,发现VXLAN一切恢复正常。图片

输入图片说明

咱们也正在尽力与阿里云官方取得联系,确认这种状况是否存在误杀。当前可选择的临时方案除了按照上面的说明删除“安全加固”组件外,还能够在建立VM的时候选择不使用安全加固镜像,这样Rancher VXLAN就能够正常工做。部署

在这里,很是感谢社区用户的热情发问,没有你们对技术专一的态度和刨根问底的精神,Rancher也没法真正发现问题的根源,Rancher会一如既往地接受用户的问题与需求,改进自身产品,真真正正可以提供一个有生产力的工具。get

9月27日,北京海航万豪酒店,容器技术大会Container Day 2017即将举行。产品

CloudStack之父、海航科技技术总监、华为PaaS部门部长、恒丰银行科技部总经理、阿里云PaaS工程总监、民生保险CIO······均已加入豪华讲师套餐!

11家已容器落地企业,15位真·云计算大咖,13场纯·技术演讲,结合实战场景,聚焦落地经验。免费参会+超高规格,详细议程及注册连接请戳 输入图片说明

相关文章
相关标签/搜索