当前位置: 欣欣网 > 码农

微信工程师:常见性能优化方案与实用工具

2024-04-19码农

架构师(JiaGouX)

我们都是架构师!
架构未来,你来不来?



👉 目录

1 使用 class 代替 ProtoBuf 协议

2 使用 Cache Friendly 的数据结构

3 使用 jemalloc/tcmalloc 代替普通的 malloc 方式

4 使用无锁数据结构

5 对于特定的场景采用特定的处理方式

6 善用性能测试工具

7 总结

性能优化是降本增效路上必不可少的手段之一,在合适的时机采用合理的手段进行性能优化,一方面可以实现系统性能提升的目标,另一方面也可以借机对腐化的代码进行清理。在程序员的面试环节中,性能优化的问题也几乎是必考题。


然而性能优化并非一锤子买卖,需要一直监控,一直优化。过早的优化、过度的优化,以及优化 ROI 都是程序员们在工作中需要评估的关键点。本文作者总结了日常工作中常见的性能优化问题,围绕数据结构展开推荐了常见的几种性能优化方案——既有提升 3 倍性能的优化技巧,也有扛住26 亿/s API 调用量的健壮方案。文末还推荐了三款好用的性能测试工具,值得点赞收藏!



01



使用 class 代替 ProtoBuf 协议

在大量调用的 API 代码中尽量不要用 ProtoBuf 协议,最好使用 C++的 class 来代替。因为 ProtoBuf 采用的是 Arena 内存分配器 策略,有些场景会比 C++的 class 内存管理复杂,当有大量内存分配和释放的时候会比 class 的性能差很多。而且 Protobuf 会不断分配和回收 小内存对象 ,持续地分配和删除小内存对象导致产生 内存碎片 ,降低程序的内存使用率,尤其是当协议中包含 string 类型的时候,性能差距可能有几倍。对于包含了很多小对象的 Protobuf message, 析构过程 会导致堆上分配了许多对象,从而会变得复杂,导致析构函数执行速度变慢。

下面给出一个实际开发中使用 class 代替 Protobuf 的例子:

ProtoBuf 协议:

message Param {
optional string name = 1;
optional string value = 2;
}
message ParamHit {
enum Type {
Unknown = 0;
WhiteList = 1;
LaunchLayer = 2;
BaseAB = 3;
DefaultParam = 4;
}
optional Param param = 1;
optional uint64 group_id = 2;
optional uint64 expt_id = 3;
optional uint64 launch_layer_id = 4;
optional string hash_key_used = 5;
optional string hash_key_val_used = 6;
optional Type type = 7;
optional bool is_hit_mbox = 8;
}

改写的 class :

classParamHitInfo {
public:
classParam {
public:
Param() = default;
~Param() = default;
conststd::string & name()const{
return name_;
}
voidset_name(conststd::string &name){
name_ = name;
}
voidclear_name(){
name_.clear();
}
conststd::string & value()const{
return value_;
}
voidset_value(conststd::string &value){
value_ = value;
}
voidclear_value(){
value_.clear();
}
voidClear(){
clear_name();
clear_value();
}
private:
std::string name_, value_;
};
ParamHitInfo() {
expt_id_ = group_id_ = launch_layer_id_ = 0u;
is_hit_mbox_ = false;
type_ = ParamHit::Unknown;
}
~ParamHitInfo() = default;
voidClear(){
clear_group_id();
clear_expt_id();
clear_launch_layer_id();
clear_is_hit_mbox();
clear_hash_key_used();
clear_hash_key_val_used();
clear_type();
param_.Clear();
}
const ParamHit ToProtobuf()const{
ParamHit ans;
ans.set_expt_id(expt_id_);
ans.set_group_id(group_id_);
ans.set_launch_layer_id(launch_layer_id_);
ans.set_is_hit_mbox(is_hit_mbox_);
ans.set_hash_key_used(hash_key_used_);
ans.set_hash_key_val_used(hash_key_val_used_);
ans.set_type(type_);
ans.mutable_param()->set_name(param_.name());
ans.mutable_param()->set_value(param_.value());
return ans;
}
uint64_t group_id() const {
return group_id_;
}
voidset_group_id(constuint64_t group_id){
group_id_ = group_id;
}
voidclear_group_id(){
group_id_ = 0u;
}
uint64_t expt_id() const {
return expt_id_;
}
voidset_expt_id(constuint64_t expt_id){
expt_id_ = expt_id;
}
voidclear_expt_id(){
expt_id_ = 0u;
}
uint64_t launch_layer_id() const {
return launch_layer_id_;
}
voidset_launch_layer_id(constuint64_t launch_layer_id){
launch_layer_id_ = launch_layer_id;
}
voidclear_launch_layer_id(){
launch_layer_id_ = 0u;
}
boolis_hit_mbox()const{
return is_hit_mbox_;
}
voidset_is_hit_mbox(constbool is_hit_mbox){
is_hit_mbox_ = is_hit_mbox;
}
voidclear_is_hit_mbox(){
is_hit_mbox_ = false;
}
conststd::string & hash_key_used()const{
return hash_key_used_;
}
voidset_hash_key_used(conststd::string &hash_key_used){
hash_key_used_ = hash_key_used;
}
voidclear_hash_key_used(){
hash_key_used_.clear();
}
conststd::string & hash_key_val_used()const{
return hash_key_val_used_;
}
voidset_hash_key_val_used(conststd::string &hash_key_val_used){
hash_key_val_used_ = hash_key_val_used;
}
voidclear_hash_key_val_used(){
hash_key_val_used_.clear();
}
ParamHit_Type type()const{
return type_;
}
voidset_type(const ParamHit_Type type){
type_ = type;
}
voidclear_type(){
type_ = ParamHit::Unknown;
}
const Param & param()const{
return param_;
}
Param * mutable_param(){
return &param_;
}
std::stringShortDebugString()const{
std::string ans = "type: " + std::to_string(type_);
ans.append(", group_id: ").append(std::to_string(group_id_));
ans.append(", expt_id: ").append(std::to_string(expt_id_));
ans.append(", launch_layer_id: ").append(std::to_string(launch_layer_id_));
ans.append(", hash_key_used: ").append(hash_key_used_);
ans.append(", hash_key_val_used: ").append(hash_key_val_used_);
ans.append(", param_name: ").append(param_.name());
ans.append(", param_val: ").append(param_.value());
ans.append(", is_hit_mbox: ").append(std::to_string(is_hit_mbox_));
return ans;
}
intByteSize(){
int ans = 0;
ans += sizeof(uint64_t) * 3 + sizeof(bool) + sizeof(ParamHit_Type);
ans += hash_key_used_.size() + hash_key_val_used_.size() + param_.name().size() + param_.value().size();
return ans;
}
private:
ParamHit_Type type_;
uint64_t group_id_, expt_id_, launch_layer_id_;
std::string hash_key_used_, hash_key_val_used_;
bool is_hit_mbox_;
Param param_;
};








性能测试代码:

TEST(ParamHitDestructorPerf, test) {
vector<ParamHit> hits;
vector<ParamHitInfo> hit_infos;
constint hit_cnts = 1000;
vector<pair<string, string>> params;
for (int i=0; i<hit_cnts; ++i) {
string name = "name: " + to_string(i);
string val;
int n = 200;
val.resize(n);
for (int i=0; i<n; ++i) val[i] = (i%10 + 'a');
params.push_back(make_pair(name, val));
}
int uin_start = 12345645;
for (int i=0; i<hit_cnts; ++i) {
ParamHit hit;
hit.set_expt_id(i + uin_start);
hit.set_group_id(i + 1 + uin_start);
hit.set_type(ParamHit::BaseAB);
hit.set_is_hit_mbox(false);
hit.set_hash_key_used("uin_bytes");
hit.set_hash_key_val_used(BusinessUtil::UInt64ToLittleEndianBytes(i));
auto p = hit.mutable_param();
p->set_name(params[i].first);
p->set_value(params[i].second);
hits.emplace_back(std::move(hit));
}
for (int i=0; i<hit_cnts; ++i) {
ParamHitInfo hit;
hit.set_expt_id(i + uin_start);
hit.set_group_id(i + 1 + uin_start);
hit.set_type(ParamHit::BaseAB);
hit.set_is_hit_mbox(false);
hit.set_hash_key_used("uin_bytes");
hit.set_hash_key_val_used(BusinessUtil::UInt64ToLittleEndianBytes(i));
auto p = hit.mutable_param();
p->set_name(params[i].first);
p->set_value(params[i].second);
hit_infos.emplace_back(std::move(hit));
}
int kRuns = 1000;
chrono::high_resolution_clock::time_point t1 = chrono::high_resolution_clock::now();
{
for (int i=0; i<kRuns; ++i) {
for (auto &&hit: hits) {
auto tmp = hit;
}
}
}
chrono::high_resolution_clock::time_point t2 = chrono::high_resolution_clock::now();
auto time_span = chrono::duration_cast<chrono::milliseconds>(t2 - t1);
std::cerr << "ParamHit_PB Destructor kRuns: " << kRuns << " hit_cnts: " << hit_cnts << " cost: " << time_span.count() << "ms\n";
t1 = chrono::high_resolution_clock::now();
{
for (int i=0; i<kRuns; ++i) {
for (auto &&hit: hit_infos) {
auto tmp = hit;
}
}
}
t2 = chrono::high_resolution_clock::now();
time_span = chrono::duration_cast<chrono::milliseconds>(t2 - t1);
std::cerr << "ParamHitInfo_ class Destructor kRuns: " << kRuns << " hit_cnts: " << hit_cnts << " cost: " << time_span.count() << "ms\n";
}

性能对比结果:

可以看到使用 C++的 class 相比于 ProtoBuf 可以提升3倍的性能。



02



使用 Cache Friendly 的数据结构

这里想先抛出一个问题:使用哈希表的查找一定比使用数组的查找快吗?

Q:理论上来说哈希表的查找复杂度是 O(1),数组的查找复杂度是 O(n),那么是不是可以得到一个结论就是说哈希表的查找速度一定比数组快呢?

A:其实是不一定的,由于数组具有较高的缓存局部性,可提高 CPU 缓存的命中率,所以在有些场景下数组的查找效率要远远高于哈希表。

这里给出一个常见操作耗时的数据(2020年):

下面也给出一个项目中的使用 Cache Friendly 优化的例子:

优化前的数据结构:

classHitContext {
public:
inlinevoidupdate_hash_key(conststd::string &key, conststd::string &val){
hash_keys_[key] = val;
}
inlineconststd::string * search_hash_key(conststd::string &key)const{
auto it = hash_keys_.find(key);
return it != hash_keys_.end() ? &(it->second) : nullptr;
}
private:
Context context_;
std::unordered_map<std::string, std::string> hash_keys_;
};

优化后的数据结构:

classHitContext {
public:
inlinevoidupdate_hash_key(conststd::string &key, conststd::string &val){
if (Misc::IsSnsHashKey(key)) {
auto sns_id = Misc::FastAtoi(key.c_str()+Misc::SnsHashKeyPrefix().size());
sns_hash_keys_.emplace_back(sns_id, Misc::LittleEndianBytesToUInt32(val));
return;
}
hash_keys_[key] = val;
}
inlinevoidupdate_hash_key(conststd::string &key, constuint32_t val){
if (Misc::IsSnsHashKey(key)) {
auto sns_id = Misc::FastAtoi(key.c_str()+Misc::SnsHashKeyPrefix().size());
sns_hash_keys_.emplace_back(sns_id, val);
return;
}
hash_keys_[key] = Misc::UInt32ToLittleEndianBytes(val);
}
inlineconststd::stringsearch_hash_key(conststd::string &key, bool &find)const{
if (Misc::IsSnsHashKey(key)) {
auto sns_id = Misc::FastAtoi(key.c_str()+Misc::SnsHashKeyPrefix().size());
auto it = std::find_if(sns_hash_keys_.rbegin(), sns_hash_keys_.rend(), [sns_id](conststd::pair<uint32_t, uint32_t> &v) { return v.first == sns_id; });
find = it != sns_hash_keys_.rend();
return find ? Misc::UInt32ToLittleEndianBytes(it->second) : "";
}
auto it = hash_keys_.find(key);
find = it != hash_keys_.end();
return find ? it->second : "";
}
private:
Context context_;
std::unordered_map<std::string, std::string> hash_keys_;
std::vector<std::pair<uint32_t, uint32_t>> sns_hash_keys_;
};


性能测试代码:

TEST(HitContext, test) {
constint keycnt = 264;
std::vector<std::string> keys, vals;
for (int j = 0; j < keycnt; ++j) {
auto key = j+21324;
auto val = j+94512454;
keys.push_back("sns"+std::to_string(key));
vals.push_back(std::to_string(val));
}
constint kRuns = 1000;
std::unordered_map<uint32_t, uint64_t> hash_keys;
chrono::high_resolution_clock::time_point t1 = chrono::high_resolution_clock::now();
for (int i = 0; i < kRuns; ++i) {
HitContext1 ctx;
for (int j = 0; j < keycnt; ++j) {
ctx.update_hash_key(keys[j], vals[j]);
}
for (int j=0; j<keycnt; ++j) {
auto val = ctx.search_hash_key(keys[j]);
if (!val) assert(0);
}
}
chrono::high_resolution_clock::time_point t2 = chrono::high_resolution_clock::now();
auto time_span = chrono::duration_cast<chrono::microseconds>(t2 - t1);
std::cerr << "HashTable Hitcontext cost: " << time_span.count() << "us" << std::endl;
hash_keys.clear();
t1 = chrono::high_resolution_clock::now();
for (int i = 0; i < kRuns; ++i) {
HitContext2 ctx;
for (int j = 0; j < keycnt; ++j) {
ctx.update_hash_key(keys[j], vals[j]);
}
for (int j=0; j<keycnt; ++j) {
bool find = false;
auto val = ctx.search_hash_key(keys[j], find);
if (!find) assert(0);
}
}
t2 = chrono::high_resolution_clock::now();
time_span = chrono::duration_cast<chrono::microseconds>(t2 - t1);
std::cerr << "Vector HitContext cost: " << time_span.count() << "us" << std::endl;
}

性能对比结果:



03



使用 jemalloc/tcmalloc 代替普通的 malloc 方式

由于代码中大量使用了 C++的 STL,所以会出现以下几种缺点:

内存碎片: 频繁分配和释放不同大小的对象,可能导致内存碎片,降低内存的使用效率。

Cache 不友好: 而且 STL 的普通内存分配器分散了对象的内存地址,降低了数据的缓存命中率。

并发差: STL 的默认内存分配器可能使用全局锁,相当于给加了一把大锁,在多线程环境下性能表现很差。

目前在我们的代码中加 jemalloc 还是很方便的,就是在所编译的 target 中加下依赖就好了,比如:

cc_library(
name = "mmexpt_dye_api",
srcs = [
"mmexpt_dye_api.cc",
],
hdrs = [
"mmexpt_dye_api.h",
],
includes = ['.'],
deps = [
"//mm3rd/jemalloc:jemalloc",
],
copts = [
"-O3",
"-std=c++11",
],
linkopts = [
],
visibility = ["//visibility:public"],
)

使用 jemalloc 与不使用 jemalloc 前后性能对比 (这里的测试场景是在 loadbusiness 的时候,具体涉及到了一些业务代码)

可以发现使用 jemalloc 可以提升20%多的性能,还是优化了很大的,很小的开发成本 (只需要加一个编译依赖) 带来不错的收益。



04



使用无锁数据结构

在过去项目开发的时候使用过一种双 buffer 的无锁数据结构,之所以使用双 buffer 是因为 API 有大约 26亿/s 的调用量,这么高的调用量对性能的要求是很高的。数据结构的定义:

structexpt_api_new_shm {
void *p_shm_data;
// header
volatileint *p_mem_switch; // 0:uninit. 1:mem 1 on server. 2:mem 2 on server
uint32_t *p_crc_sum;
// data
expt_new_context* p_new_context;
parameter2business* p_param2business;
char* p_business_cache;
HashTableWithCache hash_table; //多级哈希表
};

常用的几个函数:

intInitExptNewShmData(expt_api_new_shm *pstShmData, void *pData){
int ptr_offset = EXPT_NEW_SHM_HEADER_SIZE;
pstShmData->p_shm_data = pData;
pstShmData->p_mem_switch = MAKE_PTR(volatileint *, pData, 0);
pstShmData->p_crc_sum = MAKE_PTR(uint32_t *, pData, 4);
pstShmData->p_new_context =
(expt_new_context *)((uint8_t *)pstShmData->p_shm_data + ptr_offset);
pstShmData->p_param2business =
(parameter2business *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_0);
pstShmData->p_business_cache =
(char *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_1);
size_t node_size = sizeof(APICacheItem), row_cnt = sizeof(auModsInCache)/sizeof(size_t);
size_t hash_tbl_size = CalHashTableWithCacheSize(node_size, row_cnt, auModsInCache);
pstShmData->hash_table.pTable = (void *)((uint8_t *)pstShmData->p_shm_data + EXPT_NEW_SHM_SIZE - hash_tbl_size);
int ret = HashTableWithCacheInit(&pstShmData->hash_table, hash_tbl_size, node_size, row_cnt, auModsInCache);
return ret;
}
intResetExptNewShmData(expt_api_new_shm *pstShmData){
int iOffset = 0;
if (*pstShmData->p_mem_switch <= 1) {
iOffset = 0;
} elseif (*pstShmData->p_mem_switch > 1) {
iOffset = EXPT_NEW_SHM_DATA_SIZE;
}
void *ptrData = MAKE_PTR(void *, pstShmData->p_shm_data,
EXPT_NEW_SHM_HEADER_SIZE + iOffset);
memset(ptrData, 0, EXPT_NEW_SHM_DATA_SIZE);
return0;
}
intResetExptNewShmHeader(expt_api_new_shm *pstShmData){
memset(pstShmData->p_shm_data, 0, EXPT_NEW_SHM_HEADER_SIZE);
return0;
}
voidSwitchNewShmMemToWrite(expt_api_new_shm *pstShmData){
int iSwitchOffset =
EXPT_NEW_SHM_DATA_SIZE * ((*pstShmData->p_mem_switch <= 1 ? 0 : 1));
int ptr_offset = EXPT_NEW_SHM_HEADER_SIZE + iSwitchOffset;
pstShmData->p_new_context =
(expt_new_context *)((uint8_t *)pstShmData->p_shm_data + ptr_offset);
pstShmData->p_param2business =
(parameter2business *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_0);
pstShmData->p_business_cache =
(char *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_1);
}
voidSwitchNewShmMemToWriteDone(expt_api_new_shm *pstShmData){
if (*pstShmData->p_mem_switch <= 1)
*pstShmData->p_mem_switch = 2;
else
*pstShmData->p_mem_switch = 1;
}
voidSwitchNewShmMemToRead(expt_api_new_shm *pstShmData){
int iSwitchOffset =
EXPT_NEW_SHM_DATA_SIZE * ((*pstShmData->p_mem_switch <= 1 ? 1 : 0));
int ptr_offset = EXPT_NEW_SHM_HEADER_SIZE + iSwitchOffset;
pstShmData->p_new_context =
(expt_new_context *)((uint8_t *)pstShmData->p_shm_data + ptr_offset);
pstShmData->p_param2business =
(parameter2business *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_0);
pstShmData->p_business_cache =
(char *)((uint8_t *)pstShmData->p_shm_data + ptr_offset +
EXPT_NEW_SHM_OFFSET_1);
}



双 buffer 的工作原理就是:设置两个 buffer,一个用于读,另一个用于写。

  • 初始化这两个 buffer 为空,调用 InitExptNewShmData 函数。

  • 对于写操作,先准备数据,即调用 SwitchNewShmMemToWrite 函数,等数据准备完 (即写完相应的数据) ,然后调用 SwitchNewShmMemToWriteDone 函数,完成指针的切换。

  • 对于读操作,线程从读 buffer 读取数据,调用 SwitchNewShmMemToRead 函数。

  • 我们平台的场景主要是读,而且由于拉取实验配置采用的都是增量的拉取方式,所以配置的改变也不是很频繁,也就很少有写操作的出现。采用双 buffer 无锁数据结构的优势在于可以提高并发性能,由于读写操作在不同的 buffer 上同时进行,所以不需要额外加锁,减少了数据竞争和锁冲突的可能性。当然这种数据结构也有相应的缺点,就是会多用了一倍的内存,用空间换时间。



    05



    对于特定的场景采用特定的处理方式

    这其实也很容易理解,有很多场景是需要定制化优化的,所以不能从主体代码的层面去优化了,那换个思路,是不是可以从返回的数据格式进行优化呢?举个我们过去遇到的一个例子:我们平台有一个染色场景,就是需要对当天登录的所有微信用户计算命中情况,旧的数据格式其实返回了一堆本身染色场景不需要的字段,所以这里其实是可以优化的。

    优化前的数据格式:

    structexpt_param_item {
    int experiment_id;
    int expt_group_id;
    int layer_id;
    int domain_id;
    uint32_t seq;
    uint32_t start_time;
    uint32_t end_time;
    uint8_t expt_type;
    uint16_t expt_client_expand;
    int parameter_id;
    uint8_t value[MAX_PARAMETER_VLEN];
    char param_name[MAX_PARAMETER_NLEN];
    int value_len;
    uint8_t is_pkg = 0;
    uint8_t is_white_list = 0;
    uint8_t is_launch = 0;
    uint64_t bucket_src = 0;
    uint8_t is_control = 0;
    };

    其实染色场景下不需要参数的信息,只保留实验 ID、组 ID 以及分桶的信息就好了。优化后的数据格式:

    structDyeHitInfo {
    int expt_id, group_id;
    uint64_t bucket_src;
    DyeHitInfo(){}
    DyeHitInfo(int expt_id_, int group_id_, uint64_t bucket_src_) :expt_id(expt_id_), group_id(group_id_), bucket_src(bucket_src_){}
    booloperator <(const DyeHitInfo &hit) const {
    if (expt_id == hit.expt_id) {
    if (group_id == hit.group_id) return bucket_src < hit.bucket_src;
    return group_id < hit.group_id;
    }
    return expt_id < hit.expt_id;
    }
    booloperator==(const DyeHitInfo &hit) {
    return hit.expt_id == expt_id && hit.group_id == group_id && hit.bucket_src == bucket_src;
    }
    std::stringToString()const{
    char buf[1024];
    sprintf(buf, "expt_id: %u, group_id: %u, bucket_src: %lu", expt_id, group_id, bucket_src);
    returnstd::string(buf);
    }
    };

    优化前后性能对比:

    所以其实针对某些特殊场景做一些定制化的开发成本也没有很高,但是带来的收益却是巨大的。



    06



    善用性能测试工具

    这里列举一些常见的性能测试工具:linux 提供的 perf、GNU 编译器提供的 gprof、Valgrind、strace 等等。

    这里推荐几个觉得好用的工具:

    perf linux 自带性能测试工具)

    https://godbolt.org/ (可以查看代码对应的汇编代码)

    微信运维提供的性能测试工具:

    https://github.com/brendangregg/FlameGraph (生成火焰图的工具)



    07



    总结

    其实还有一些性能优化的地方,比如使用合适的数据结构和算法,减少大对象的拷贝,减少无效的计算,IO 与计算分离,分支预测等等,后续如果有时间的话可以再更新一篇新的文章。性能优化不是一锤子买卖,所以需要一直监控,一直优化。需要注意的一点是不要过度优化,在提升程序性能的时候不要丢掉代码的可维护性,而且还要评估下性能提升带来的收益是否与花费的时间成正比。总之,性能优化,长路漫漫。 如果觉得本篇文章的内容对你有帮助, 欢迎转发分享。

    如喜欢本文,请点击右上角,把文章分享到朋友圈
    如有想了解学习的技术点,请留言给若飞安排分享

    因公众号更改推送规则,请点「在看」并加「星标」 第一时间获取精彩技术分享

    ·END·

    相关阅读:

    作者:张江涛

    来源:腾讯云开发者

    版权申明:内容来源网络,仅供学习研究,版权归原创者所有。如有侵权烦请告知,我们会立即删除并表示歉意。谢谢!

    架构师

    我们都是架构师!

    关注 架构师(JiaGouX),添加「星标」

    获取每天技术干货,一起成为牛逼架构师

    技术群请 加若飞: 1321113940 进架构师群

    投稿、合作、版权等邮箱: [email protected]