2024-01-01资讯

本文从部署、建模、导入、查询和监控五个模块给大家分享下 StarRocks 的最佳使用方法，希望能帮助到大家使用 StarRocks 更快、更稳、更好的实现业务需求。

部署

容量规划

StarRocks集群配置推荐

https://forum.mirrorship.cn/t/topic/567

2. 基础环境配置

参考环境配置，尤其关注swap关闭、overcommit设置为1、ulimit配置合理

检查环境配置

https://docs.starrocks.io/zh/docs/deployment/environment_configurations/

机器配置

FE节点

建议8C32GB

数据盘>=200GB SSD

BE节点

CPU:内存比，1:4，生产最小配置8C32GB

单节点磁盘容量建议10TB，数据盘建议最大单盘2TB，建议SSD或者NVME（如果是HDD，建议吞吐>150MB/s，IOPS>500）

集群中节点同构（机器规格一样，避免木桶效应）

部署方案

生产环境强制最小集群规模 3FE+3BE（FE和BE独立部署），如果混合部署， 强制配置be.conf 中的mem_limit 为减去其他服务后剩余内存量，例如机器内存40G，上面已经部署了FE，理论上限会用8G，那么配置下mem_limit=34G (40-8-2)，2g是给系统预留

生产强制 FE 高可用部署 ，1 Leader + 2 Follower，如果需要提高读并发，可以扩容Observer节点

生产强制使用负载均衡器连接集群进行读写，一般常用Nginx、Haproxy、F5等

建模

建表规范

仅支持UTF8编码

不支持修改表中的列名（即将支持）

VARCHAR最大长度1048576

KEY列不能使用FLOAT、DOUBLE类型

数据目录名、数据库名、表名、视图名、用户名、角色名 大小写敏感 ，列名和分区名 大小写不敏感

主键模型中，主键长度不超过128字节

模型选择

如果想要保留明细，建议使用明细模型

如果有明确主键，主键非空，写少读多，非主键列要利用索引，建议使用主键模型

如果有明确主键，主键可能为空，写多读少，建议使用更新模型

如果只想保留聚合数据，建议使用聚合模型

排序列和前缀索引选择

DUPLICATE KEY、AGGREGATE KEY、UNIQUE KEY中指定的列，3.0版本以前，主键模型中排序列通过PRIMARY KEY指定，3.0版本起，主键模型中排序列通过ORDER BY指定。

前缀索引是在排序列基础上引入的稀疏索引，进一步提升查询效率，全部加载在内存中

经常作为查询条件的列，建议选为排序列

排序列建议选择3-5列，过多会增大排序开销，降低导入效率

前缀索引不超过36字节，不能超过3列，遇到varchar会截断，前缀索引中不能包含 float 或 double 类型的列

因此可以结合实际业务查询场景，在确定 key 列以及字段顺序时，要充分考虑前缀索引带来的优势。尽可能将经常需要查询的key列字段，放置在前面，字段数据类型尽量选择 date 日期类型或者 int 等整数类型。

举例：

CREATETABLE site_access( site_id BIGINTDEFAULT'10', city_code INT, site_name VARCHAR(50), pv BIGINTDEFAULT'0')DUPLICATEKEY(site_id,city_code,site_name)DISTRIBUTEDBYHASH(site_id);

在 site_access 表中，前缀索引为 site_id( 8 Bytes ) + city_code( 4 Bytes ) + site_name(前 24 Bytes)

如果查询条件只包含 site_id 和 city_code 两列，如下所示，则可以大幅减少查询过程中需要扫描的数据行：

select sum(pv) from site_access where site_id = 123 and city_code = 2;

如果查询条件只包含 site_id 一列，如下所示，可以定位到只包含 site_id 的数据行：

select sum(pv) from site_access where site_id = 123;

如果查询条件只包含 city_code 一列，如下所示，则需要扫描所有数据行，排序效果大打折扣：

select sum(pv) from site_access where city_code = 2;

如果 site_id和city_code联合查询和单独city_code的查询占比不相上下，可以考虑创建同步物化视图调整列顺序来达到查询性能提升，物化视图中的city_code放到第一列

creatematerializedview site_access_city_code_mv asselect city_code, site_id, site_name, pvfrom site_access;Bad caseCREATETABLE site_access_bad( site_name VARCHAR(20), site_id BIGINTDEFAULT'10', city_code INT, pv BIGINTDEFAULT'0')PRIMARY KEY(site_id)DISTRIBUTEDBYHASH(site_id)ORDERBY(site_id,city_code);

在 site_access_bad 表中，前缀索引只有 site_name

分区选择

值不会变化的时间列经常用于where过滤，使用该列创建分区

有数据淘汰需求的场景可以选择动态分区

数据更新有明显的冷热特征的，强制创建分区，例如经常更新最近一周的数据，可以按天分区

单个分区数据量建议不要超过100GB

超过50G或者5KW的表建议创建分区

建议按需创建分区，避免元数据太多占用fe的内存

当前支持时间类型（Range分区、表达式分区）、字符串（List分区）、数字（Range分区、List分区）

默认最大支持1024个分区，可以通过参数调整，不过一般情况下不需要调整

分桶选择

生产强制使用 3 副本

分桶个数判断

当表或者分区数据量超过50GB的时候按照每个桶1GB预估

当表或者分区数据量小于50GB的时候按照每个桶500MB预估

当按照以上策略估算出来的分桶个数小于be个数的时候，最终分桶个数以be个数为准，例如6个be节点，按照500MB每个桶预估分桶个数为1，最终分桶个数取6

单个桶按照500MB～1GB预估，原始数据按照5GB～10GB（导入starrocks后，压缩比7:1～10:1）预估

非分区表不要使用动态分桶，按照实际数据量估算分桶个数

如果分区表的各个分区的数据差异很大，建议不要使用动态分桶策略

分桶裁剪和数据倾斜如何抉择？

如果分桶列是where中经常用到的列，且分桶列的重复度比较低（例如用户id、事物id等），则可以利用该列作为分桶列

如果查询条件中有city_id和site_id，city_id取值只有几十，如果仅仅使用city_id分桶，则可能出现某些桶的数据量会比较大，出现数据倾斜，这个时候可以考虑使用city_id和site_id联合作为分桶字段，不过这样做的缺点是如果查询条件中只有city_id的时候，没办法利用分桶裁剪

如果没有合适的字段作为分桶字段打散数据，可以利用random分桶，不过这样的话没办法利用分桶裁剪的属性

2个或多个超过KW行以上的表join，建议使用colocate，具体参考 colocolocate join

Colocate Join

https://docs.starrocks.io/zh/docs/using_starrocks/Colocate_join/

字段类型

建议不要使用null属性

时间类型和数字类型的列选择正确的类型，计算的开销会比较大，例如时间类型的数据「2024-01-01 00:00:00」不要使用VARCHAR存储，这样没办法利用到starrocks内部的zonemap索引，没办法加速过滤

索引选择

bitmap索引

适合基数在10000-100000左右的列

适合等值条件 (=) 查询或 [NOT] IN 范围查询的列

不支持为 FLOAT、DOUBLE、BOOLEAN 和 DECIMAL 类型的列创建 Bitmap 索引。

城市、性别这些基数在255以下的列不需要创建bitmap索引，因为starrocks内部有低基数字典，会针对这些case自动创建低基数字典用于加速

明细模型和主键模型，所有列可以创建bitmap索引，聚合模型和更新模型，只有Key列支持创建bitmap索引

blommfilter索引

适合基数在100000+的列，列的重复度很低

适合 in 和 = 过滤条件的查询

不支持为 TINYINT、FLOAT、DOUBLE 和 DECIMAL 类型的列创建 Bloom filter 索引

主键模型和明细模型中所有列都可以创建 Bloom filter 索引；聚合模型和更新模型中，只有维度列（即 Key 列）支持创建 Bloom filter 索引

导入

使用建议

生产禁止使用insert into values() 导数据

建议导入批次间隔5s+，也就是攒批写入，尤其是实时场景

主键模型更新场景，建议开启索引落盘，磁盘强制SSD、NVME或者更高性能的磁盘

比较多ETL（insert into select）的场景，建议开启spill落盘功能，避免内存超过限制

数据生命周期

建议使用truncate删除数据，不要使用delete

完整的update语法只能用于3.0版本以后的主键模型，禁止高并发 update，建议每次update操作需要间隔分钟以上

如果使用delete删除数据，需要带上where条件，并且禁止并发执行delete，例如要删除id=1，2，3，4，……1000，禁止delete xxx from tbl1 where id=1这样的语句执行1000条，建议delete xxx from tbl1 where id in (1,2,3...,1000)

drop操作默认会进入FE 回收站，默认保留86400（s），也就是1天（这个期间可以recover恢复，避免误操作），受参数catalog_trash_expire_second控制，超过1天后会进入BE的trash目录，默认保留259200（s），也就是3天（2.5.17，3.0.9，3.1.6之后默认值改为了86400，也就是1天），受参数trash_file_expire_time_sec控制，如果drop后需要尽快释放磁盘，可以调小fe和be的trash保留时间、

查询

高并发场景

尽可能利用分区分桶裁剪，具体参考上文的分区和分桶选择部分

调大客户的并发限制，可以设置为1000，默认100，SET PROPERTY FOR 'jack' 'max_user_connections' = '1000';

开启page cache、query cache

数据精度

如果需要精确结果的，强制使用decimal类型，不要使用float、double类型

SQL查询

避免select *，建议指定需要查询的列，例如select col0,col1 from tb1

避免全表扫描，建议增加过滤的谓词，例如select col0,col1 from tb1 where id=123，select col0,col1 from tb1 where dt>'2024-01-01'

避免大数据量的下载，如果要使用，强制使用分页，select col0,col1,col2,...,col50 from tb order by id limit 0,50000

分页操作需要加上order by，要不然是无序的

避免使用一些不必要的函数或者表达式

谓词中含cast, 可以移除

-- Q1select l_tax from lineitem wherecast(l_shipdate asvarchar) > substr('1990-01-02 12:30:31',1,10);-- Q2select l_tax from lineitem where l_shipdate > '1990-01-02';

过度使用函数处理表达式

-- Q1 bad caseselectcount(1) from lineitem where l_shipdate >= regexp_extract("TIME:1996-01-02 20:00:00", "(\\d{4}-\\d{2}-\\d{2})", 1);-- Q2 good caseselectcount(1) from lineitem where l_shipdate >= "1996-01-02"-- Q1 bad caseselectcount(1) from lineitem whereDATE_FORMAT(l_shipdate,'%Y-%m-%d') >= "1996-01-02"-- Q2 good caseselectcount(1) from lineitem where l_shipdate >= "1996-01-02"

JOIN

查询多个表需要指定连接条件

-- bad caseSELECT *FROM table1, table2;-- good caseSELECT *FROM table1, table2 ON table1.column1 = table2.column1;

正确关联子查询

在子查询中，确保外部查询和子查询之间的列有明确的关联

-- bad caseSELECT *FROM table1WHERE column1 IN (SELECT column2 FROM table2);-- good caseSELECT *FROM table1WHERE column1 IN (SELECT column2 FROM table2 WHERE table1.column3 = table2.column3);

使用AND条件而不是OR

-- bad caseSELECT *FROM table1JOIN table2WHERE (table1.column1 = table2.column1 OR table1.column2 = table2.column2);-- good caseSELECT *FROM table1JOIN table2 ON table1.column1 = table2.column1 AND table1.column2 = table2.column2;

关联的字段类型匹配，虽然starrocks已经在内部做了隐式转换来达到最优的性能，不过建议大家使用类型一致的字段join，避免使用float、double类型join，可能会导致结果不准确

关联字段建议不要使用函数或者表达式，例如 join on DATE_FORMAT(tb1.col1,'%Y-%m-%d')=DATE_FORMAT(tb2.col1,'%Y-%m-%d')

2个或多个KW行以上的表join，推荐colocate join

避免笛卡尔积

使用物化视图加速查询

精确去重

以下示例基于一张广告业务相关的明细表 advertiser_view_record ，其中记录了点击日期 click_time 、广告代码 advertiser 、点击渠道 channel 以及点击用户 ID user_id 。

CREATETABLE advertiser_view_record( click_time DATE, advertiser VARCHAR(10), channel VARCHAR(10), user_id INT) distributedBYhash(click_time);

该场景需要频繁使用如下语句查询点击广告的 UV。

SELECT advertiser, channel, count(distinct user_id)FROM advertiser_view_recordGROUPBY advertiser, channel;

如需实现精确去重查询加速，您可以基于该明细表创建一张物化视图，并使用 bitmap_union() 函数预先聚合数据。

CREATEMATERIALIZEDVIEW advertiser_uv ASSELECT advertiser, channel, bitmap_union(to_bitmap(user_id))FROM advertiser_view_recordGROUPBY advertiser, channel;

物化视图创建完成后，后续查询语句中的子查询 count(distinct user_id) 会被自动改写为 bitmap_union_count (to_bitmap(user_id)) 以便查询命中物化视图。

异步物化视图最多支持3层嵌套

利用cache 加速查询

Page cache，建议开启，可以加速数据扫描场景，如果内存有冗余，可以尽可能调大限制，默认是mem_limit*20%

Query cache，建议开启，可以加速单表或多表JOIN的聚合场景

查询中不能包含 rand 、 random 、 uuid 和 sleep 等不确定性 (Nondeterminstic) 函数

Data Cache，用于存算分离和湖分析场景，建议这两个场景下默认开启

监控

通过审计插件把fe.audit.log的数据导入一个表方便进行分析慢查询。

通过 Audit Loader 管理 StarRocks 中的审计日志 @ audit_loader

通过 Audit Loader 管理 StarRocks 中的审计日志

https://docs.starrocks.io/zh/docs/administration/audit_loader/

参考 https://docs.starrocks.io/zh/docs/2.5/administration/Monitor_and_Alert/ 部署prometheus+grafana
利用资源隔离大查询熔断，小查询保底

# shortquery_group 资源组用于核心业务重保CREATERESOURCEGROUP shortquery_groupTO (user='rg1_user1', role='rg1_role1', db='db1', query_type in ('select'), source_ip='192.168.x.x/24'),WITH ('type' = 'short_query','cpu_core_limit' = '10','mem_limit' = '20%');# bigquery_group 用于大查询熔断，避免大查询将集群资源打满CREATERESOURCEGROUP bigquery_groupTO (user='rg1_user2', role='rg1_role1', query_type in ('select')),WITH ("type" = 'normal','cpu_core_limit' = '10','mem_limit' = '20%','big_query_cpu_second_limit' = '100','big_query_scan_rows_limit' = '100000','big_query_mem_limit' = '1073741824');

大查询定位

查看当前FE上正在运行的查询

SQL命令：show proc '/current_queries'

返回结果包括以下几列：

QueryId

ConnectionId

Database：当前查询的DB

User：用户

ScanBytes：当前已扫描的数据量，单位Bytes

ProcessRow：当前已扫描的数据行数

CPUCostSeconds：当前查询已使用的CPU时间，单位秒。此为多个线程累加的CPU时间，举个例子，如果有两个线程分别占用1秒和2秒的CPU时间，那么累加起来的CPU时间为3秒。

MemoryUsageBytes：当前占用的内存。如果查询涉及到多个BE节点，此值即为该查询在所有BE节点上占用的内存之和。

ExecTime：查询从发起到现在的时长，单位为毫秒。

mysql> show proc '/current_queries';+--------------------------------------+--------------+------------+------+-----------+----------------+----------------+------------------+----------+| QueryId | ConnectionId | Database | User | ScanBytes | ProcessRows | CPUCostSeconds | MemoryUsageBytes | ExecTime |+--------------------------------------+--------------+------------+------+-----------+----------------+----------------+------------------+----------+| 7c56495f-ae8b-11ed-8ebf-00163e00accc |4| tpcds_100g | root | 37.88 MB |1075769 Rows | 11.13 Seconds |146.70 MB | 3804 || 7d543160-ae8b-11ed-8ebf-00163e00accc |6| tpcds_100g | root | 13.02 GB |487873176 Rows | 81.23 Seconds |6.37 GB | 2090 |+--------------------------------------+--------------+------------+------+-----------+----------------+----------------+------------------+----------+2 rows in set (0.01 sec)

查看某个查询在每个BE节点上的资源消耗

SQL命令：

show proc '/current_queries/${query_id}/hosts'

返回结果有多行，每行描述该查询在对应BE节点上的执行信息，包括以下几列：

Host：BE节点信息

ScanBytes：已经扫描的数据量，单位Bytes

ScanRows：已经扫描的数据行数

CPUCostSeconds：已使用的CPU时间。

MemUsageBytes：当前占用的内存。

mysql> show proc '/current_queries/7c56495f-ae8b-11ed-8ebf-00163e00accc/hosts';+--------------------+-----------+-------------+----------------+---------------+| Host | ScanBytes | ScanRows | CpuCostSeconds | MemUsageBytes |+--------------------+-----------+-------------+----------------+---------------+| 172.26.34.185:8060 |11.61 MB | 356252 Rows |52.93 Seconds | 51.14 MB || 172.26.34.186:8060 |14.66 MB | 362646 Rows |52.89 Seconds | 50.44 MB || 172.26.34.187:8060 |11.60 MB | 356871 Rows |52.91 Seconds | 48.95 MB |+--------------------+-----------+-------------+----------------+---------------+3 rows in set (0.00 sec)

StarRocks 最佳实践

部署

容量规划

机器配置

部署方案

建模

建表规范

模型选择

排序列和前缀索引选择

分区选择

分桶选择

字段类型

索引选择

导入

使用建议

数据生命周期

查询

高并发场景

数据精度

SQL查询

使用物化视图加速查询

利用cache 加速查询

监控