理解Stream API-Sink的本质

具体介绍Sink接口的设计与本质。

我们需要深入到 Sink 接口的实现细节和 Sink 链式处理数据的具体流程，并结合 JDK 源码中的关键类（如 AbstractPipeline 和 Sink）来解析 Stream 的底层机制。以下是更底层的实现分析：

一、Sink 接口：数据处理的“水槽”

Sink 接口是 Stream API 最底层的核心抽象，它直接负责对每个元素的处理。所有 Stream 操作（如 filter、map）最终都会转化为一个 Sink 的实现类。

1. Sink 接口定义

在 JDK 源码中，Sink 接口定义如下（简化）：

interface Sink<T> extends Consumer<T> {
    default void begin(long size) {}    // 开始处理前调用（可选）
    default void end() {}              // 处理完成后调用（可选）
    default boolean cancellationRequested() { return false; } // 是否提前终止
}

accept(T t)：处理单个元素（从 Consumer 继承）。
begin() 和 end()：用于批量处理的前置和后置操作（例如排序需要先收集所有元素）。
cancellationRequested()：是否提前终止处理（例如 findFirst 找到第一个元素后终止）。

二、Sink 链的构建与执行

Stream 的流水线（Pipeline）本质上是一个 由多个 Sink 组成的链式结构。每个中间操作会生成一个新的 Sink 节点，并将它们链接成一个链表。

1. Sink 链的构建过程

以 Stream.filter().map().collect() 为例：

创建初始 Sink：终端操作（如 collect()）会创建一个初始 Sink（称为终端 Sink）。
反向组装链：从终端操作向源头反向组装 Sink：
- map() 操作的 Sink 会包裹终端 Sink。
- filter() 操作的 Sink 会包裹 map() 的 Sink。
最终触发：源头的数据会从最外层的 filter Sink 开始处理，依次传递到 map Sink，最终到达终端 Sink。

伪代码示例：

// 假设终端操作是 collect(toList())
Sink<Terminal> terminalSink = new ToListSink<>();

// map() 的 Sink 包裹终端 Sink
Sink<MapInput> mapSink = new MapSink<>(terminalSink, mapper);

// filter() 的 Sink 包裹 map Sink
Sink<FilterInput> filterSink = new FilterSink<>(mapSink, predicate);

// 数据从源头流入 filterSink
source.forEach(filterSink);

2. Sink 链的执行流程

当数据从源头（如 List）开始流动时，会依次经过每个 Sink 的处理：

数据源 → FilterSink → MapSink → TerminalSink（如收集到 List）

以 filter 和 map 为例的详细处理逻辑：

FilterSink：

对每个元素调用 predicate.test(t)。
如果条件满足，将元素传递给下游 Sink（即 MapSink）。

class FilterSink<T> implements Sink<T> {
    Sink<T> downstream;
    Predicate<T> predicate;

    public void accept(T t) {
        if (predicate.test(t)) {
            downstream.accept(t); // 传递到下游
        }
    }
}

MapSink：

对元素进行转换，并将结果传递给下游。

class MapSink<T, R> implements Sink<T> {
    Sink<R> downstream;
    Function<T, R> mapper;

    public void accept(T t) {
        R r = mapper.apply(t);
        downstream.accept(r); // 传递转换后的结果
    }
}

TerminalSink（如 ToListSink）：

将元素添加到结果列表中。

class ToListSink<T> implements Sink<T> {
    List<T> list = new ArrayList<>();

    public void accept(T t) {
        list.add(t);
    }
}

三、源码级实现分析

JDK 中 Stream 的核心实现位于 java.util.stream 包，关键类如下：

1. AbstractPipeline

Stream 流水线的基类，维护以下关键字段：

sourceSpliterator：数据源的 Spliterator（负责分割数据）。
previousStage：前一个流水线阶段（用于反向构建 Sink 链）。
nextStage：下一个流水线阶段。

2. Sink 链的构建入口

在终端操作（如 collect()）触发时，会调用 wrapSink() 方法，从终端 Sink 反向组装整个链：

// AbstractPipeline.java
final <P_IN> Sink<P_IN> wrapSink(Sink<E_OUT> sink) {
    for (AbstractPipeline p = this; p.previousStage != null; p = p.previousStage) {
        sink = p.opWrapSink(p.previousStage.combinedFlags, sink);
    }
    return (Sink<P_IN>) sink;
}

opWrapSink()：每个中间操作（如 filter、map）实现此方法，返回包裹下游 Sink 的新 Sink。

3. 以 `filter()` 为例的 Sink 实现

filter() 操作的 Sink 实现位于 ReferencePipeline.filter() 中：

// ReferencePipeline.java
@Override
Sink<T> opWrapSink(int flags, Sink<R> sink) {
    return new Sink.ChainedReference<T, R>(sink) {
        @Override
        public void accept(T t) {
            if (predicate.test(t)) {
                downstream.accept(t); // 条件满足时传递到下游
            }
        }
    };
}

ChainedReference 是一个辅助类，封装了 downstream Sink。

4. 数据流动的触发

最终，数据通过 Spliterator 遍历并传递给 Sink 链：

// AbstractPipeline.java
final <P_IN> void copyInto(Sink<P_IN> wrappedSink, Spliterator<P_IN> spliterator) {
    if (!StreamOpFlag.SHORT_CIRCUIT.isKnown(getStreamAndOpFlags())) {
        spliterator.forEachRemaining(wrappedSink); // 遍历所有元素
    } else {
        // 处理可能提前终止的情况（如 findFirst）
    }
}

spliterator.forEachRemaining(wrappedSink)：将数据源的每个元素传递给 wrappedSink（即 Sink 链的头部）。

四、并行流与 Sink 链的交互

在并行流中，Sink 链的执行会通过 Fork/Join 框架 分配到多个线程：

1. 分割数据源

Spliterator 将数据源分割为多个子任务（Spliterator 的 trySplit() 方法）。
每个子任务独立处理自己的数据块。

2. 合并结果

终端操作的 Sink 需要支持合并（如 Collector 的 combiner() 方法）。
例如，toList() 的合并操作是将多个子列表合并为一个列表。

五、总结：Sink 链的本质

Java Stream API 的底层实现可以归结为以下关键设计：

Sink 链式结构：每个操作对应一个 Sink 节点，通过 downstream 字段链接。
反向构建链：从终端操作向源头反向组装 Sink，确保数据处理顺序正确。
惰性触发执行：只有在终端操作调用时，才会通过 Spliterator 遍历数据并触发 Sink 链的处理。
并行透明性：通过 Spliterator 分割数据，结合 ForkJoinPool 实现并行处理，对开发者透明。

Java > JDK

#JDK #源码解析 #Stream #Stream包 #Sink #链式结构

理解Stream API-Sink的本质

https://blog.cikaros.top/doc/8f3b1cd9.html

作者

Cikaros

发布于

2025年2月19日

许可协议

理解Stream API-Collector收集器上一篇

深度解析java.lang.util.stream 下一篇

理解Stream API-Sink的本质

一、Sink 接口：数据处理的“水槽”

1. Sink 接口定义

二、Sink 链的构建与执行

1. Sink 链的构建过程

2. Sink 链的执行流程

三、源码级实现分析

1. AbstractPipeline

2. Sink 链的构建入口

3. 以 filter() 为例的 Sink 实现

4. 数据流动的触发

四、并行流与 Sink 链的交互

1. 分割数据源

2. 合并结果

五、总结：Sink 链的本质

3. 以 `filter()` 为例的 Sink 实现