0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从内存分配的角度来分析下string的实现机制

工程师邓生 来源:高性能架构探索 作者:雨乐 2022-09-05 08:58 次阅读

大家好!对于C++开发人员来说,string大概是使用最多的标准库数据结构之一,一直以来也就仅限于使用,对于底层实现似懂非懂。所以,最近抽出点时间,大致研究了下string的底层实现。今天,就从内存分配的角度来分析下string的实现机制。

直接分配

大概在08年的时候,手动实现过string,没有考虑性能,所以单纯是从功能的角度进行实现,下面摘抄了部分代码,如下:

string::string(constchar*s){
size_=strlen(s);
buffer_=newchar[size_+1];
strcpy(buffer_,s);
}

string&string::string(conststring&str){
size_+=str.size_;
char*data=newchar[size_+1];
strcpy(data,buffer_);
strcat(data,str.buffer_);

delete[]buffer_;
buffer_=data;
return*this;
}

上述代码为string的部分成员函数,从上述实现可以看出,无论是构造还是拷贝,都是重新在堆上(使用new关键字)分配一块内存。这样做的优点是实现简单,而缺点呢,因为每次都在堆上进行分配,而堆上内存的分配效率非常差(当然是相对栈来说的),所以有没有更好的实现方式呢?下面我们看先STL中的基本实现。

SSO

记得之前在看Redis源码的时候,对整数集合(intset)有个优化:根据新元素的类型,扩展整数集合底层数组的空间大小,并未新元素分配空间,也就是说,假设在初始的时候,集合中最大的数为3,那么这个时候集合的类型为INT_16,如果此时新增一个元素为65536,那么就将集合的类型更改为INT_32,并重新为集合分配空间,将之前的数据进行类型扩展。

那么string有没有类似Redis整数集合的功能,进行类型升级呢?

带着这个疑问,研究了string源码,发现里面使用了一个名为SSO的优化策略~~~

SSO为Small String Optimization的简写,中文译为小字符串优化,基本原理是:当分配大小小于16个字节时候,从栈上进行分配,而如果大于等于16个字节,则在堆上进行内存分配。PS:需要注意的是,此优化自GCC5.1生效,也就是说对于GCC版本小于5的,无论长度为多少,都从堆上进行分配。

为了证实上述结论,测试代码如下:

#include
#include
#include

void*operatornew(std::size_tn){
std::cout<< "[Allocating " << n << " bytes]";
  return malloc(n);
}
void operator delete(void* p) throw() {
  free(p);
}

int main() {
  for (size_t i = 0; i < 24; ++i) {
    std::cout << i << ": " << std::string(i, '=') << std::endl;
  }
  return 0;
}

在上述代码中,我们重载了operator new,以替换string中的new实现,这样做的好处是,可以通过输出来发现是否调用了new进行动态分配。

G++ 4.9.4版本输出如下:

0:
[Allocating26bytes]1:=
[Allocating27bytes]2:==
[Allocating28bytes]3:===
[Allocating29bytes]4:====
[Allocating30bytes]5:=====
[Allocating31bytes]6:======
[Allocating32bytes]7:=======
[Allocating33bytes]8:========
[Allocating34bytes]9:=========
[Allocating35bytes]10:==========
[Allocating36bytes]11:===========
[Allocating37bytes]12:============
[Allocating38bytes]13:=============
[Allocating39bytes]14:==============
[Allocating40bytes]15:===============
[Allocating41bytes]16:================
[Allocating42bytes]17:=================
[Allocating43bytes]18:==================
[Allocating44bytes]19:===================
[Allocating45bytes]20:====================
[Allocating46bytes]21:=====================
[Allocating47bytes]22:======================
[Allocating48bytes]23:=======================

GCC5.1 输出如下:

0:
1:=
2:==
3:===
4:====
5:=====
6:======
7:=======
8:========
9:=========
10:==========
11:===========
12:============
13:=============
14:==============
15:===============
16:[Allocating17bytes]================
17:[Allocating18bytes]=================
18:[Allocating19bytes]==================
19:[Allocating20bytes]===================
20:[Allocating21bytes]====================
21:[Allocating22bytes]=====================
22:[Allocating23bytes]======================
23:[Allocating24bytes]=======================

从GCC5.1的输出内容可以看出,当字符串长度小于16的时候,没有调用我们的operator new函数,这就从侧面证明了前面的结论当分配大小小于16个字节时候,从栈上进行分配,而如果大于等于16个字节,则在堆上进行内存分配。(PS:GCC4.9.4版本的输出,分配字节数大于实际的字节数,这个是string的又一个优化策略,即预分配策略,在后面的内容中将会讲到)。

直奔主题

不妨闭上眼睛,仔细想下,如果让我们自己来实现该功能,你会怎么做?

可能大部分人的思路是:定义一个固定长度的char数组,在进行构造的时候,判断字符串的长度,如果长度小于某个定值,则使用该数组,否则在堆上进行分配~~~

好了,为了验证上述思路与具体实现是否一致,结合源码一起来分析~~

首先,摘抄了部分string的源码,如下:string源码

template
classbasic_string
{
private:
//Useempty-baseoptimization:http://www.cantrip.org/emptyopt.html
struct_Alloc_hider:allocator_type//TODOcheck__is_final
{
_Alloc_hider(pointer__dat,const_Alloc&__a=_Alloc())
:allocator_type(__a),_M_p(__dat){}

pointer_M_p;//Theactualdata.
};

_Alloc_hider_M_dataplus;
size_type_M_string_length;

enum{_S_local_capacity=15/sizeof(_CharT)};

union
{
_CharT_M_local_buf[_S_local_capacity+1];
size_type_M_allocated_capacity;
};
};

上面抽出了我们需要关注的部分代码,只需要关注以下几个点:

•_M_string_length已分配字节数

•_M_dataplus实际数据存放的位置

• union字段:两个字段中较大的一个_M_local_buf为 16 字节

•_M_local_buf这是一个用以实现SSO功能的字段,大小为16(15 + 1其中1为结束符)个字节

•_M_allocated_capacity是一种size_t类型,功能类似于vector中的预分配,其与_M_local_buf不能共存

从上述源码中,我们看到有个变量_M_local_buf,从字面意思看就是一个本地或者局部buffer,猜测是用来存储大小不足16字节的内容,为了证实我们的猜测,下面结合GDB一起再分析下SSO的实现机制,示例代码如下:

#include

intmain(){
std::stringstr("hello");
return0;
}

gdb调试代码如下:

(gdb)s
Singlesteppinguntilexitfromfunctionmain,
whichhasnolinenumberinformation.
std::basic_string,std::allocator>::basic_string(charconst*,std::allocatorconst&)()
at/root/gcc-5.4.0/build/x86_64-unknown-linux-gnu/libstdc++-v3/include/bits/basic_string.h:454
454basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
(gdb)s
141returnstd::pointer_traits::pointer_to(*_M_local_buf);
(gdb)n
454basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
141returnstd::pointer_traits::pointer_to(*_M_local_buf);
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
267{return__builtin_strlen(__s);}
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
195_M_construct(__beg,__end,_Tag());
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}

单从上述信息不能很明确的了解整个构造过程,我们留意到构造的过程在basic_string.h:454,所以就通过源码进行分析,如下:

basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
:_M_dataplus(_M_local_data(),__a)
{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}

_M_construct从函数字面看出是用来构造该对象,在后面进行分析,下面先分析下M_dataplus函数实现,

_M_local_data()const
{
#if__cplusplus>=201103L
returnstd::pointer_traits::pointer_to(*_M_local_buf);
#else
returnconst_pointer(_M_local_buf);
#endif
}

在前面内容中,提到过_M_dataplus用来指向实际存储数据的地址,在basic_string()函数的构造中,首先将__M_dataplus指向local_buf,然后调用__M_construct进行实际构造,而M_construct最终会调用如下代码:

template
template
void
basic_string<_CharT, _Traits, _Alloc>::
_M_construct(_InIterator__beg,_InIterator__end,
std::forward_iterator_tag)
{
//NB:Notrequired,butconsideredbestpractice.
if(__gnu_cxx::__is_null_pointer(__beg)&&__beg!=__end)
std::__throw_logic_error(__N("basic_string::"
"_M_constructnullnotvalid"));

size_type__dnew=static_cast(std::distance(__beg,__end));

if(__dnew>size_type(_S_local_capacity))
{
_M_data(_M_create(__dnew,size_type(0)));
_M_capacity(__dnew);
}

//Checkforout_of_rangeandlength_errorexceptions.
__try
{this->_S_copy_chars(_M_data(),__beg,__end);}
__catch(...)
{
_M_dispose();
__throw_exception_again;
}

_M_set_length(__dnew);
}

在上述代码中,首先计算当前字符串的实际长度,如果长度大于_S_local_capacity即15,那么则通过_M_create在堆上创建一块内存,最后通过_S_copy_chars函数进行内容拷贝。

结语

本文中的测试环境基于Centos6.8 & GCC5.4,也就是说在本环境中,string中如果实际数据小于16个字节,则在本地局部存储,而大于15字节,则存储在堆上,这也就是string的一个优化特性SSO(Small String Optimization)。在查阅了相关资料,发现15字节的限制取决于编译器和操作系统,在fedora和red-hat中,字符串总是存储在堆中(来自于网络,由于手边缺少相关环境,所以未能验证,抱歉)。

好了,今天的文章就到这,我们下期见!



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GCC
    GCC
    +关注

    关注

    0

    文章

    107

    浏览量

    24835
  • gdb
    gdb
    +关注

    关注

    0

    文章

    60

    浏览量

    13295
  • string
    +关注

    关注

    0

    文章

    40

    浏览量

    4732

原文标题:string 性能优化之存储:栈或者堆

文章出处:【微信号:C语言与CPP编程,微信公众号:C语言与CPP编程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    云计算环境的IP地址分配方式

    提供商为用户提供的各种云资源分配网络标识符,以实现云资源之间以及云资源与外部网络的通信。云计算通常包括基础设施即服务、平台即服务和软件即服务等多种服务模式,不同模式IP地址分配方式也
    的头像 发表于 12-19 14:02 92次阅读

    什么是虚拟内存分页 Windows系统虚拟内存优化方法

    虚拟内存分页概述 在Windows操作系统中,虚拟内存是通过分页机制实现的。分页允许系统将内存中的数据移动到硬盘上,以便为当前运行的程序腾出
    的头像 发表于 12-04 09:16 291次阅读

    转载 golang内存分配

    Go 的分配采用了类似 tcmalloc 的结构.特点: 使用一小块一小块的连续内存页, 进行分配某个范围大小的内存需求. 比如某个连续 8KB 专门用于
    的头像 发表于 09-05 14:12 254次阅读
    转载 golang<b class='flag-5'>内存</b><b class='flag-5'>分配</b>

    内存管理的硬件结构

    常见的内存分配函数有malloc,mmap等,但大家有没有想过,这些函数在内核中是怎么实现的?换句话说,Linux内核的内存管理是怎么实现
    的头像 发表于 09-04 14:28 295次阅读
    <b class='flag-5'>内存</b>管理的硬件结构

    Linux内核中的页面分配机制

    Linux内核中是如何分配出页面的,如果我们站在CPU的角度去看这个问题,CPU能分配出来的页面是以物理页面为单位的。也就是我们计算机中常讲的分页机制。本文就看下Linux内核是如何管
    的头像 发表于 08-07 15:51 277次阅读
    Linux内核中的页面<b class='flag-5'>分配机制</b>

    ESP32S3+LVGL创建一个界面,请问能只在SPIRAM分配内存,IRAM不分配吗?

    各位前辈好。ESP32S3+LVGL的开发的过程中发现,创建一个界面,会同时在SPIRAM和IRAM分配相同大小的内存。请问能只在SPIRAM分配内存,IRAM不
    发表于 06-06 07:45

    HarmonyOS实战开发-内存快照Snapshot Profiler功能使用指导

    OpenHarmony API 9及以上版本的Stage工程。 场景示例 本示例设置两个页面,通过内存快照来分析页面跳转场景是否存在内存泄露问题。 主页面代码如下: import r
    发表于 05-11 13:51

    FreeRTOS如何在中断中调用内存分配函数?

    最近在玩FreeRTOS,遇到一个问题,就是不知如何在中断中调用内存分配函数。pvPortMalloc函数中会调用xTaskResumeAll,而这个函数不能再中断调用,所以请问在中断中进行内存
    发表于 05-08 08:25

    基于DE1-SOC的String Art实现

    String Art起源于19世纪的数学家Mary Everest Boole的设计,随后发展成一种利用钉子和线进行作画的艺术,主要是通过线的稠密度表现不同的图案。
    的头像 发表于 04-09 11:02 481次阅读
    基于DE1-SOC的<b class='flag-5'>String</b> Art<b class='flag-5'>实现</b>

    深入理解Java 8内存管理机制及故障排查实战指南

    Java的自动内存管理机制是由 JVM 中的垃圾收集器实现的,垃圾收集器会定期扫描堆内存中的对象,检测并清除不再使用的对象,以释放
    的头像 发表于 04-04 08:10 993次阅读
    深入理解Java 8<b class='flag-5'>内存</b>管理<b class='flag-5'>机制</b>及故障排查实战指南

    老板角度解读工厂物料流转机器人

    老板角度解读工厂物料流转机器人传统的AGV主要是重载/大规格且针对大型/超大型具有规范化管理能力(已使用ERP系统)的工厂用于物料高效流转转。其优势就是多台AGV同时使用,具有调度控制功能且物料
    的头像 发表于 03-30 08:13 435次阅读
    <b class='flag-5'>从</b>老板<b class='flag-5'>角度</b><b class='flag-5'>来</b>解读工厂物料流转机器人

    Linux内核内存管理之内核非连续物理内存分配

    我们已经知道,最好将虚拟地址映射到连续页帧,从而更好地利用缓存并实现更低的平均内存访问时间。然而,如果对内存区域的请求并不频繁,那么考虑基于通过连续线性地址访问非连续页帧的分配方案是有
    的头像 发表于 02-23 09:44 944次阅读
    Linux内核<b class='flag-5'>内存</b>管理之内核非连续物理<b class='flag-5'>内存</b><b class='flag-5'>分配</b>

    Linux内核内存管理之ZONE内存分配

    内核中使用ZONE分配器满足内存分配请求。该分配器必须具有足够的空闲页帧,以便满足各种内存大小请求。
    的头像 发表于 02-21 09:29 890次阅读

    glibc malloc内存分配器的实现原理

    内存(Heap Memory)是一个很有意思的领域。你可能和我一样,也困惑于下述问题很久了。
    的头像 发表于 01-17 10:03 811次阅读
    glibc malloc<b class='flag-5'>内存</b><b class='flag-5'>分配</b>器的<b class='flag-5'>实现</b>原理

    FreeRTOS内存机制详解

    FreeRTOS是一种实时操作系统,它提供了多种内存分配方式,包括动态内存分配和静态内存分配
    的头像 发表于 12-31 16:49 2681次阅读
    FreeRTOS<b class='flag-5'>内存</b><b class='flag-5'>机制</b>详解