SAX vs. DOM：流式处理与树状模型

一、核心区别：内存快照 vs. 事件流

先明确最本质的差异：DOM 解析器会为整个XML文档创建一个内存快照，构建一棵完整的节点树；而 SAX 解析器则像一个事件流处理器，逐行扫描文档并触发事件。这一区别决定了它们在内存占用、处理速度和编程模型上的根本不同，是XML处理技术中“空间换时间”与“时间换空间”的经典对决。

二、分场景深度解析

1. DOM：将整个文档“拍”进内存

DOM（Document Object Model）的核心思想是一次性加载整个XML文档，在内存中构建一个与文档层级结构完全对应的对象树。这就像给一座建筑拍下一张高清全景照片，所有细节（房间、门窗、楼层关系）都一览无余。

工作原理：解析器从XML文件的根元素开始，递归地读取每个节点，并在内存中创建相应的对象（如 Document, Element, Attr, Text）。这些对象通过父子、兄弟关系相互连接，形成一个完整的对象树。
实现特点：
- 随机访问：由于整个树都在内存中，你可以随时、随意地访问树中的任何一个节点，向前或向后遍历都极其方便。
- 易于编程：其API非常直观，符合人们对树形结构的认知，上手简单，代码编写逻辑清晰。
- 高内存消耗：这是DOM最大的“软肋”。内存占用与XML文件大小成正比，通常会是文件大小的5-10倍。
- 支持修改：可以直接在内存树中对节点进行增、删、改操作。
代码示例：

// DOM解析示例：打印所有书籍标题
import org.w3c.dom.*;
import javax.xml.parsers.*;
import java.io.File;

public class DomExample {
    public static void main(String[] args) throws Exception {
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        
        // 1. 解析文件，构建整个DOM树
        Document doc = builder.parse(new File("books.xml"));
        doc.normalize();

        // 2. 随机访问：获取所有"book"元素
        NodeList books = doc.getElementsByTagName("book");

        // 3. 遍历节点树
        for (int i = 0; i < books.getLength(); i++) {
            Element book = (Element) books.item(i);
            // 获取book下的title元素
            String title = book.getElementsByTagName("title").item(0).getTextContent();
            System.out.println("Book Title: " + title);
        }
    }
}

2. SAX：像听收音机一样逐行处理

SAX（Simple API for XML）采用了一种完全不同的事件驱动模型。它不会将整个文档读入内存，而是像听收音机广播一样，从头到尾逐行扫描XML文档。当它遇到文档开始、元素开始、文本、元素结束等特定部分时，就会触发一个“事件”，并通知你（通过你编写的处理器）去处理。

工作原理：应用程序需要注册一个处理器（Handler），该处理器实现了特定的接口（如 ContentHandler）。解析器在读取XML时，会回调Handler中的方法，如 startDocument(), startElement(), characters(), endElement()。
实现特点：
- 流式处理：数据像水流一样通过，解析器只保留当前处理状态，内存占用极低，且与文件大小无关。
- 处理速度快：因为省去了构建树结构的开销，解析速度非常快。
- 编程复杂度高：你需要在回调方法中自己维护解析状态（例如，用一个栈记录当前元素路径）。
- 只读模式：SAX是只读的，无法修改文档结构。
代码示例：

// SAX解析示例：打印所有书籍标题
import org.xml.sax.*;
import org.xml.sax.helpers.*;
import javax.xml.parsers.*;
import java.io.File;

// 1. 定义事件处理器
class BookTitleHandler extends DefaultHandler {
    private boolean isTitle = false;

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) {
        // 2. 遇到<title>开始标签时，设置标志
        if ("title".equals(qName)) {
            isTitle = true;
        }
    }

    @Override
    public void characters(char[] ch, int start, int length) {
        // 3. 如果标志为true，处理文本内容
        if (isTitle) {
            System.out.println("Book Title: " + new String(ch, start, length));
        }
    }

    @Override
    public void endElement(String uri, String localName, String qName) {
        // 4. 遇到</title>结束标签时，重置标志
        if ("title".equals(qName)) {
            isTitle = false;
        }
    }
}

public class SaxExample {
    public static void main(String[] args) throws Exception {
        SAXParserFactory factory = SAXParserFactory.newInstance();
        SAXParser saxParser = factory.newSAXParser();
        
        // 开始解析，并将事件交给Handler处理
        saxParser.parse(new File("books.xml"), new BookTitleHandler());
    }
}

三、应用场景选型指南：何时“拍照”，何时“听收音机”？

没有最好的技术，只有最合适的技术。根据你的具体需求，对号入座：

选择DOM的场景（适合“拍照”）

小型配置文件：应用的 web.xml、pom.xml 等，体积小，且需要随机访问多个配置项。
需要动态修改XML：例如，一个XML模板引擎，需要根据用户输入动态填充或修改节点内容。
开发效率优先：当XML文件不大，且项目周期紧张时，DOM的简单API能让你快速实现功能。

一句话总结：当内存不是问题，且你需要灵活性和易用性时，请选择DOM。

选择SAX的场景（适合“听收音机”）

处理海量数据：解析GB级别的数据库导出XML文件，只提取特定报表数据。
数据管道处理：作为数据ETL（抽取、转换、加载）流程中的一环，接收上游的XML数据流，进行过滤和转换。
移动端或嵌入式开发：在内存和CPU资源都极为有限的设备上处理XML数据。
只读特定信息：从一个复杂的XML文档中，只解析出订单号和金额，其他信息一概忽略。

一句话总结：当性能和内存是首要考虑因素，且你只需顺序读取或提取部分数据时，请选择SAX。

四、总结：SAX与DOM关键差异速查表

维度	DOM (树状模型)	SAX (事件模型)
核心原理	将整个文档加载到内存，构建一棵节点树	逐行扫描文档，触发回调事件
内存占用	高。与文件大小成正比（通常是5-10倍）	极低。恒定，与文件大小无关
处理速度	较慢。初始化开销大	极快。边读边处理，吞吐量高
编程复杂度	简单。API直观，符合面向对象思维	复杂。需手动维护解析状态
数据访问	随机访问。可任意遍历、修改树中任何节点	顺序访问。只能从头到尾单向处理，无法回溯
文档修改	支持。可直接在内存树中增、删、改节点	不支持。SAX是只读的
适用场景	小文件、配置管理、需修改文档	大文件、数据流、资源受限环境、只读提取