基于LSM树的存储引擎

发表于 2024-03-10 | 分类于数据库

在了解 LSM 树存储引擎之前，我们先来说说磁盘的随机IO、顺序IO。通常数据库的数据最终都是持久化到磁盘上，而对磁盘的访问方式有两种，即：

随机IO
随机 IO 就需要花费时间做昂贵的磁盘寻道，一般来说，它的读写效率要比顺序 IO 小好几个数量级，所以我们想要提升写入的性能就要尽量减少随机 IO
顺序IO
以 MySQL 的 InnoDB 存储引擎来说，更新 binlog、redolog、undolog 都是在做顺序 IO，而更新 datafile 和索引文件则是在做随机 IO，而为了减少随机 IO 的发生，关系数据库已经做了很多的优化，比如说写入时先写入内存，然后批量刷新到磁盘上，但是随机 IO 还是会发生。
索引在 InnoDB 引擎
中是以 B+ 树（上一节课提到了 B+ 树，你可以回顾一下）方式来组织的，而 MySQL 主键是聚簇索引（一种索引类型，数据与索引数据放在一起），既然数据和索引数据放在一起，那么在数据插入或者更新的时候，我们需要找到要插入的位置，再把数据写到特定的位置上，这就产生了随机的 IO。而且一旦发生了页分裂，就不可避免会做数据的移动，也会极大地损耗写入性能。

目前很多 NoSQL 数据库都在使用基于 LSM 树的存储引擎，例如 RocksDB、LevelDB、HBase 以及 Prometheus 等，这也是为什么这些数据库的写入性能很高的原因。

clickhouse时序数据应用

发表于 2024-03-09 | 分类于数据库

发表于 2023-12-16 | 分类于 IoT

物模型（Thing Specification Language）是为产品定义的数据模型，用于描述产品的功能。物模型将设备在云端从属性、服务和事件三个维度，分别描述了该实体是什么、能做什么、可以对外提供哪些信息。定义了物模型的这三个维度，即完成了产品功能的定义。

发表于 2023-11-25

物联网系统的价值在于数据的价值，而数据的价值则来源于我们对数据的分析和应用。数据从“生产”到“消费”的过程需要经过一系列处理，如：

发表于 2023-10-09 | 分类于数据库

1.8 版本不支持副本机制，目前开源的高可用方案 influxdb-proxy 是使用多个一致性 hash 环，并将数据分别写入每个 hash 环中的一个实例（双写）。如果数据写入失败则会写入缓存文件以便后续进行重写。

2.2 版本及以上（2022年03月发布）默认采用 Flux 语言，并支持副本机制，副本机制为异步复制，所以一定程度上无法保证数据不丢失。

发表于 2022-04-15 | 分类于后端

笔者在日常工作中对高并发的要求越来越高，在针对 QPS 50k/s 的情况下需要对 json 数据进行序列化和反序列化，如果使用官方提供的 encoding/json 包的话性能会低很多。

下面基于常用的 json 序列化/反序列化进行性能对比：

发表于 2022-03-09 | 分类于后端

笔者在日常工作中经常会遇到将数据进行批处理，即接收多个数据源发送的数据后合并批量操作。在一次针对字符串拼接时出现处理耗时达到 1s（偶发情况），在排查问题时发现在高并发的情况下由于使用了 + 直接对字符串进行拼接导致系统处理时间很慢，因此进行优化。

下面基于常用的字符串拼接进行性能对比：

发表于 2021-12-10 | 分类于消息队列

Kafka是一个分布式流处理平台a distributed streaming platform。以发布订阅的模式来记录流数据，类似于消息队列或企业级消息系统。下面引用官方文档的描述：

A streaming platform has three key capabilities:

Publish and subscribe to streams of records, similar to a message queue or enterprise messaging system.
Store streams of records in a fault-tolerant durable way.
Process streams of records as they occur.