阿里巴巴為什么讓初始化集合時必須指定大???
來源 | Java中文社群(ID:javacn666)
哈嘍,親愛的小伙伴們,技術學磊哥,進步?jīng)]得說!歡迎來到新一期的性能解讀系列,我是磊哥。
今天給大家?guī)淼氖顷P于阿里巴巴《Java開發(fā)手冊》泰山版(最新)中關于集合初始化時的性能建議。
阿里巴巴《Java開發(fā)手冊》第 1 章編程規(guī)范,第 6 節(jié)集合處理的第 17 條規(guī)定如下:
【推薦】集合初始化時,指定集合初始值大小。
說明:HashMap 使用 HashMap(int initialCapacity) 初始化,如果暫時無法確定集合大小,那么指定默認值(16)即可。
正例:initialCapacity = (需要存儲的元素個數(shù) / 負載因子) + 1。注意負載因子(即 loader factor)默認為 0.75,如果暫時無法確定初始值大小,請設置為 16(即默認值)。
反例:HashMap 需要放置 1024 個元素,由于沒有設置容量初始大小,隨著元素不斷增加,容量 7 次被迫擴大,resize 需要重建 hash 表。當放置的集合元素個數(shù)達千萬級別時,不斷擴容會嚴重影響性能。
規(guī)范解讀
此規(guī)范的主要目的完全是出于性能考慮,查看 HashMap的源碼也就可以發(fā)現(xiàn)此規(guī)范的原因,如果我們能為集合設置合理的大小就可以避免
HashMap的擴容操作,而
HashMap的擴容方法
resize有很多邏輯判斷和業(yè)務操作,如果設置了合理的大小就可以避免執(zhí)行更多的代碼,因此就可以更大限度的提高集合的執(zhí)行效率,
HashMap的
resize源碼如下:// 源碼基于 JDK 8 final Node
threshold = Integer.MAX_VALUE; return oldTab;
} // 擴大容量為當前容量的兩倍,但不能超過 MAXIMUM_CAPACITY else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold } // 當前數(shù)組沒有數(shù)據(jù),使用初始化的值 else if (oldThr > 0) // initial capacity was placed in threshold newCap = oldThr; else { // zero initial threshold signifies using defaults // 如果初始化的值為 0,則使用默認的初始化容量 newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
} // 如果新的容量等于 0 if (newThr == 0) { float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr; @SuppressWarnings({"rawtypes","unchecked"})
Node[] newTab = (Node[])new Node[newCap]; // 開始擴容,將新的容量賦值給 table table = newTab; // 原數(shù)據(jù)不為空,將原數(shù)據(jù)復制到新 table 中 if (oldTab != null) { // 根據(jù)容量循環(huán)數(shù)組,復制非空元素到新 table for (int j = 0; j < oldCap; ++j) { Node e; if ((e = oldTab[j]) != null) {
oldTab[j] = null; // 如果鏈表只有一個,則進行直接賦值 if (e.next == null)
newTab[e.hash & (newCap - 1)] = e; else if (e instanceof TreeNode) // 紅黑樹相關的操作 ((TreeNode)e).split(this, newTab, j, oldCap); else { // preserve order // 鏈表復制,JDK 1.8 擴容優(yōu)化部分 Node loHead = null, loTail = null;
Node hiHead = null, hiTail = null;
Node next; do {
next = e.next; // 原索引 if ((e.hash & oldCap) == 0) { if (loTail == null)
loHead = e; else loTail.next = e;
loTail = e;
} // 原索引 + oldCap else { if (hiTail == null)
hiHead = e; else hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null); // 將原索引放到哈希桶中 if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
} // 將原索引 + oldCap 放到哈希桶中 if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
} return newTab;
}
性能評測
接下來我們來測試一下設置 size的性能和不設置 size的性能差別,我們已知需要插入 1024 個數(shù)據(jù),根據(jù)默認的負載因子 0.75 和公式 (存儲元素個數(shù)/負載因子)+1得出需要設置的大小為 1367(取整)。
小貼士:公式“(存儲元素個數(shù)/負載因子)+1”說明:因為 HashMap 的實際存儲量等于:元素個數(shù)*負載因子,為了防止 HashMap 擴容,所以公式必須是“(存儲元素個數(shù)/負載因子)+1”才能防止動態(tài)擴容。
本文我們依舊使用 Oracle 官方提供的 JMH(Java Microbenchmark Harness,JAVA 微基準測試套件)測試框架,首先現(xiàn)在 pom.xml 中添加 JMH 引用,配置如下:
<dependency> <groupId>org.openjdk.jmhgroupId> <artifactId>jmh-coreartifactId> <version>{version}version> dependency>
然后編寫完整的測試代碼:
import org.openjdk.jmh.annotations.*; import org.openjdk.jmh.infra.Blackhole; import org.openjdk.jmh.runner.Runner; import org.openjdk.jmh.runner.RunnerException; import org.openjdk.jmh.runner.options.Options; import org.openjdk.jmh.runner.options.OptionsBuilder; import java.util.HashMap; import java.util.Map; import java.util.concurrent.TimeUnit; @BenchmarkMode(Mode.AverageTime) // 測試完成時間 @OutputTimeUnit(TimeUnit.NANOSECONDS) @Warmup(iterations = 2, time = 1, timeUnit = TimeUnit.SECONDS) // 預熱 2 輪,每次 1s @Measurement(iterations = 5, time = 3, timeUnit = TimeUnit.SECONDS) // 測試 5 輪,每次 3s @Fork(1) // fork 1 個線程 @State(Scope.Thread) // 每個測試線程一個實例 public class AlibabaHashMapTest { public static void main(String[] args) throws RunnerException { // 啟動基準測試 Options opt = new OptionsBuilder()
.include(AlibabaHashMapTest.class.getSimpleName()) // 要導入的測試類 .build(); new Runner(opt).run(); // 執(zhí)行測試 } @Benchmark public void noSizeTest(Blackhole blackhole) {
Map map = new HashMap(); for (int i = 0; i < 1024; i++) {
map.put(i, i);
} // 為了避免 JIT 忽略未被使用的結果 blackhole.consume(map);
} @Benchmark public void setSizeTest(Blackhole blackhole) {
Map map = new HashMap(1367); for (int i = 0; i < 1024; i++) {
map.put(i, i);
} // 為了避免 JIT 忽略未被使用的結果 blackhole.consume(map);
}
}
從上述結果可以看出,設置了大小的 HashMap的性能約是沒有設置大小的 1.29 倍。
總結
在初始化集合時,如果已知集合的數(shù)量,那么一定要在初始化時設置集合的容量大小,這樣就可以有效的提高集合的性能,但需要注意的是 HashMap的實際存儲量是“元素個數(shù)*負載因子”,而負載因子默認是 0.75,因此在設置大小時,要使用“(存儲元素個數(shù)/負載因子)+1”的公式計算出正確的值再進行設置。
特別推薦一個分享架構+算法的優(yōu)質內(nèi)容,還沒關注的小伙伴,可以長按關注一下:
長按訂閱更多精彩▼
如有收獲,點個在看,誠摯感謝
免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!