--博爾赫斯想必很多人都聽說過虛函數(shù)開銷大,貌似很多答案都說是因為虛函數(shù)表導(dǎo)致的那一次間接調(diào)用,真的如此嗎?
直接看下面這兩段代碼:
#include?
#include?"timer.h"
struct?Base?{
???public:
????virtual?int?f(double?i1,?int?i2)?{?return?static_cast<int>(i1?*?log(i1))?*?i2;?}
};
int?main()?{
????TimerLog?t("timer");
????Base?*a?=?new?Base();
????int?ai?=?0;
????for?(int?i?=?0;?i?1000000000;?i )?{
????????ai? =?a->f(i,?10);
????}
????cout?<endl;
}
執(zhí)行時間:12.895s#include
#include "timer.h"
struct Base {
public:
int f(double i1, int i2) { return static_cast<int>(i1 * log(i1)) * i2; }
};
int main() {
TimerLog t("timer");
Base *a = new Base();
int ai = 0;
for (int i = 0; i < 1000000000; i ) {
ai = a->f(i, 10);
}
cout << ai << endl;
}
執(zhí)行時間:12.706s這兩段代碼的執(zhí)行時間幾乎沒有區(qū)別,可見虛函數(shù)表導(dǎo)致的那一次函數(shù)間接調(diào)用并不浪費時間,所以虛函數(shù)的開銷并不在重定向上,這一次重定向基本上不影響程序性能。
那它的開銷究竟在哪里呢?看下面兩段代碼,這兩段代碼和上面相比只改動了一行:
#include?
#include?"timer.h"
struct?Base?{
???public:
????virtual?int?f(double?i1,?int?i2)?{?return?static_cast<int>(i1?*?log(i1))?*?i2;?}
};
int?main()?{
????TimerLog?t("timer");
????Base?*a?=?new?Base();
????int?ai?=?0;
????for?(int?i?=?0;?i?1000000000;?i )?{
????????ai? =?a->f(10,?i); // 這里有改動
????}
????cout?<endl;
}
執(zhí)行時間:436ms#include?
#include?"timer.h"
struct?Base?{
???public:
????int?f(double?i1,?int?i2)?{?return?static_cast<int>(i1?*?log(i1))?*?i2;?}
};
int?main()?{
????TimerLog?t("timer");
????Base?*a?=?new?Base();
????int?ai?=?0;
????for?(int?i?=?0;?i?1000000000;?i )?{
????????ai? =?a->f(10,?i); // 這里有改動
????}
????cout?<endl;
}
執(zhí)行時間154ms這里看到,僅僅改變了一行代碼,虛函數(shù)調(diào)用就比普通函數(shù)慢了幾倍,為什么?
虛函數(shù)其實最主要的性能開銷在于它阻礙了編譯器內(nèi)聯(lián)函數(shù)和各種函數(shù)級別的優(yōu)化,導(dǎo)致性能開銷較大,在普通函數(shù)中l(wèi)og(10)會被優(yōu)化掉,它就只會被計算一次,而如果使用虛函數(shù),log(10)不會被編譯器優(yōu)化,它就會被計算多次。如果代碼中使用了更多的虛函數(shù),編譯器能優(yōu)化的代碼就越少,性能就越低。
虛函數(shù)通常通過虛函數(shù)表來實現(xiàn),在虛表中存儲函數(shù)指針,實際調(diào)用時需要間接訪問,這需要多一點時間。
然而這并不是虛函數(shù)速度慢的主要原因,真正原因是編譯器在編譯時通常并不知道它將要調(diào)用哪個函數(shù),所以它不能被內(nèi)聯(lián)優(yōu)化和其它很多優(yōu)化,因此就會增加很多無意義的指令(準(zhǔn)備寄存器、調(diào)用函數(shù)、保存狀態(tài)等),而且如果虛函數(shù)有很多實現(xiàn)方法,那分支預(yù)測的成功率也會降低很多,分支預(yù)測錯誤也會導(dǎo)致程序性能下降。
如果你想要寫出高性能代碼并頻繁的調(diào)用虛函數(shù),注意如果用其它的方式(例如if-else、switch、函數(shù)指針等)來替換虛函數(shù)調(diào)用并不能根本解決問題,它還有可能會更慢,真正的問題不是虛函數(shù),而是那些不必要的間接調(diào)用。
正常的函數(shù)調(diào)用:
- 復(fù)制棧上的一些寄存器,以允許被調(diào)用的函數(shù)使用這些寄存器;
- 將參數(shù)復(fù)制到預(yù)定義的位置,這樣被調(diào)用的函數(shù)可以找到對應(yīng)參數(shù);
- 入棧返回地址;
- 跳轉(zhuǎn)到函數(shù)的代碼,這是一個編譯時地址,因為編譯器/鏈接器硬編碼為二進(jìn)制;
- 從預(yù)定義的位置獲取返回值,并恢復(fù)想要使用的寄存器。
而虛函數(shù)調(diào)用與此完全相同,唯一的區(qū)別就是編譯時不知道函數(shù)的地址,而是:
- 從對象中獲取虛表指針,該指針指向一個函數(shù)指針數(shù)組,每個指針對應(yīng)一個虛函數(shù);
- 從虛表中獲取正確的函數(shù)地址,放到寄存器中;
- 跳轉(zhuǎn)到該寄存器中的地址,而不是跳轉(zhuǎn)到一個硬編碼的地址。
通常,使用虛函數(shù)沒問題,它的性能開銷也不大,而且虛函數(shù)在面向?qū)ο蟠a中有強大的作用。
但是不能無腦使用虛函數(shù),特別是在性能至關(guān)重要的或者底層代碼中,而且大項目中使用多態(tài)也會導(dǎo)致繼承層次很混亂。
那么有什么好方法替代虛函數(shù)呢?這里提供幾個思路,讀者請持續(xù)關(guān)注,后續(xù)會具體講解:
- 使用訪問者模式來使類層次結(jié)構(gòu)可擴展;
- 使用普通模板替代繼承和虛函數(shù);
- C 20中的concepts用來替代面向?qū)ο?a href="/tags/代碼" target="_blank">代碼;
- 使用variants替代虛函數(shù)或模板方法。
這幾種方法是Michael Spertus大佬介紹的,各有各的優(yōu)缺點,作者都會用,但什么情況下使用哪個,取決于你自己的判斷,這里只是教你了一個工具,什么時候用都取決于你自己。
Michael Spertus
世界級C 技術(shù)權(quán)威
Michael Spertus是世界級C 技術(shù)權(quán)威。作為ISO C 標(biāo)準(zhǔn)委員會資深成員,Michael 曾遞交過50多項標(biāo)準(zhǔn)提案,是內(nèi)存管理與性能調(diào)優(yōu)方面公認(rèn)的技術(shù)權(quán)威。他目前是Symantec的技術(shù)院士與首席科學(xué)家,負(fù)責(zé)云端安全服務(wù)。同時在芝加哥大學(xué)任教。Michael 自1980開始沉迷軟件設(shè)計,是IBM PC第一個商用C語言編譯器的作者,并曾創(chuàng)辦 Geodesic,后被VERITAS收購。
參考資料
https://softwareengineering.stackexchange.com/questions/191637/in-c-why-and-how-are-virtual-functions-slower