ETL工具-DataX

说明DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、Ma
2024年03月13日 53次浏览

Debezium实现数据实时变更订阅和同步

DebeziumDebezium是一个开源项目,为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处理平台。你可以安装并且配置Debezium去监控你的数据库,然后你的应用就可以消费对数据库的每一个行级别(row-level)的更改。只有已提交的更改才是可见的,所
2023年11月22日 288次浏览

Web在线ETL数据开发Taier+Flink+Chunjun

说明Taier:一个开源的分布式 DAG 调度系统,专注不同任务的提交和调度。旨在降低 ETL 开发成本,解决任务之间复杂的依赖关系和提交、调度、运维带来的上手成本。Chunjun:一个基于 Flink 的批流统一的数据同步工具,既可以采集静态的数据。 比如 MySQL,HDFS 等,也可以采集实时
Flink 2023年09月06日 146次浏览

Flink在线开发平台-Dinky

说明Dinky 是一个开箱即用、易扩展,以 Apache Flink 为基础,连接 OLAP 和数据湖等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。官网:http://www.dlink.top/
Flink 2023年08月31日 127次浏览

FlinkSQL实现MySQL到MySQL(CDC)-未实现

SQL Api方式依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xml
Flink 2023年08月30日 156次浏览

Flink CDC实现实时同步mysql数据

说明CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink CDC 是一个独立的开源项目,项目代码托管在 Gi
Flink 2023年08月24日 341次浏览

阿里云实时计算Flink-实现数据库实时入仓(mysql->hologres)

说明使用阿里云Flink,实时同步mysql到hologres。参考地址:https://help.aliyun.com/zh/flink/getting-started/ingest-data-into-data-warehouses-in-real-time操作过程1. 资源创建云数据库 RDS
Flink 2023年08月22日 331次浏览

Flink流处理示例项目从代码到部署

说明WordCount是大数据处理系统的“Hello World”。它计算文本集合中单词的频率。该算法分两步进行:首先,文本将文本分成单个单词。其次,对单词进行分组和计数。Flink支持两种计算模式:批处理和流处理,流处理又分为:有界流和无界流。批处理是指将一批数据集合在一起,一次性输入到计算系统中
Flink 2023年08月21日 103次浏览

数据同步工具chunjun(原Flinkx)

参考文章Flink CDC:https://ververica.github.io/flink-cdc-connectors/release-2.1/index.html
Flink 2023年08月18日 154次浏览

大数据平台Cloudera Manger+CDH集群安装(安装失败)

说明Cloudera Data Platform(CDP) ,CDP 包括各种组件,例如 Apache HDFS、Apache Hive 3、Apache HBase 和 Apache Impala,以及许多其他用于特殊工作负载的组件。软件下载cm7.1.4https://archive.cloud
2023年04月14日 677次浏览