标签: 批处理

引言

在当今数据爆炸的时代，企业面临着前所未有的数据处理挑战——如何同时满足海量历史数据的批处理分析需求和实时数据的低延迟查询需求？2014年，Storm的作者Nathan Marz提出了一种革命性的架构模式——Lambda架构，为解决这一矛盾提供了优雅的解决方案。

Lambda架构通过巧妙地将数据处理分解为批处理层(Batch Layer)、加速层(Speed Layer)和服务层(Serving Layer)，实现了兼具高容错性、低延迟和可扩展性的大数据处理系统。本文将深入剖析Lambda架构的设计理念、核心组件、实现方式及应用场景，为大数据架构师提供一份全面的技术指南。

代码匠心2025/10/17大约 10 分钟

从零开始学Flink：流批一体的执行模式

在大数据处理领域，批处理和流处理曾经被视为两种截然不同的范式。然而，随着Apache Flink的出现，这种界限正在逐渐模糊。Flink的一个核心特性是其批流一体的架构设计，允许用户使用统一的API和执行引擎处理有界数据（批处理）和无界数据（流处理）。本文将深入探讨Flink的执行模式（Execution Mode），特别是在Flink 1.20.1版本中对批处理和流处理模式的支持和优化。

一、Flink执行模式概述

1. 执行模式的基本概念

Flink的执行模式决定了作业如何被调度和执行。在Flink 1.12及以后的版本中，引入了统一的流批处理执行模式，主要包括以下三种模式：

代码匠心2025/10/10大约 9 分钟