當前位置：首頁 > 芯聞號 > 充電吧

關(guān)于oracle中的hash join詳解

時間：2018-11-07 11:50:01

關(guān)鍵字： CPU oracle hash join

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]一、? hash join概念? ? ? ? ? ? ? ? ??hash join(HJ)是一種用于equi-join（而anti-join就是使用NOT IN時的join）的技術(shù)。在Oracle中

一、? hash join概念? ? ? ? ? ? ? ? ??

hash join(HJ)是一種用于equi-join（而anti-join就是使用NOT IN時的join）的技術(shù)。在Oracle中，它是從7.3開始引入的，以代替sort-merge和nested-loop join方式，提高效率。在CBO（hash join只有在CBO才可能被使用到）模式下，優(yōu)化器計算代價時，首先會考慮hash join?？梢酝ㄟ^提示use_hash來強制使用hash join，也可以通過修改會話或數(shù)據(jù)庫參數(shù)HASH_JOIN_ENABLED=FALSE（默認為TRUE）強制不使用hash join。 ? ? ? ? ? ????? Hash join的主要資源消耗在于CPU（在內(nèi)存中創(chuàng)建臨時的hash表，并進行hash計算），而merge join的資源消耗主要在于磁盤IO（掃描表或索引）。在并行系統(tǒng)中，hash join對CPU的消耗更加明顯。所以在CPU緊張時，最好限制使用hash join。 ? ? ? ? ? ?

在絕大多數(shù)情況下，hash join效率比其他join方式效率更高： ? ? ? ? ? ??????

在Sort-Merge Join(SMJ)，兩張表的數(shù)據(jù)都需要先做排序，然后做merge。因此效率相對最差； ? ? ? ? ? ??????

Nested-Loop Join(NL)效率比SMJ更高。特別是當驅(qū)動表的數(shù)據(jù)量很大（集的勢高）時。這樣可以并行掃描內(nèi)表。 ? ? ? ? ? ??????

Hash join效率最高，因為只要對兩張表掃描一次。? ? ? ? ? ? ??????

Hash join一般用于一張小表和一張大表進行join時。Hash join的過程大致如下（下面所說的內(nèi)存就指sort area，關(guān)于過程，后面會作詳細討論）： ? ? ? ? ? ?

1．?一張小表被hash在內(nèi)存中。因為數(shù)據(jù)量小，所以這張小表的大多數(shù)數(shù)據(jù)已經(jīng)駐入在內(nèi)存中，剩下的少量數(shù)據(jù)被放置在臨時表空間中； ? ? ? ? ? ?

2．?每讀取大表的一條記錄，就和小表中內(nèi)存中的數(shù)據(jù)進行比較，如果符合，則立即輸出數(shù)據(jù)（也就是說沒有讀取臨時表空間中的小表的數(shù)據(jù)）。而如果大表的數(shù)據(jù)與小表中臨時表空間的數(shù)據(jù)相符合，則不直接輸出，而是也被存儲臨時表空間中。 ? ? ? ? ? ?

3．?當大表的所有數(shù)據(jù)都讀取完畢，將臨時表空間中的數(shù)據(jù)以其輸出。 ? ? ? ? ? ???????

如果小表的數(shù)據(jù)量足夠?。ㄐ∮趆ash area size），那所有數(shù)據(jù)就都在內(nèi)存中了，可以避免對臨時表空間的讀寫。 ? ? ? ? ? ?

如果是并行環(huán)境下，前面中的第2步就變成如下了：每讀取一條大表的記錄，和內(nèi)存中小表的數(shù)據(jù)比較，如果符合先做join，而不直接輸出，直到整張大表數(shù)據(jù)讀取完畢。如果內(nèi)存足夠，Join好的數(shù)據(jù)就保存在內(nèi)存中。否則，就保存在臨時表空間中。 ? ? ? ? ? ?

二、? Oracle中與hash join相關(guān)的參數(shù) ? ? ? ? ? ??????

首先，要注意的是，hash join只有在CBO方式下才會被激活。在oracle中與hash join相關(guān)的參數(shù)主要有以下幾個： ? ? ? ? ? ?

1.HASH_JOIN_ENABLED ? ? ? ? ? ??????

這個參數(shù)是控制查詢計劃是否采用hash join的“總開關(guān)”。它可以在會話級和實例級被修改。默認為TRUE，既可以（不是一定，要看優(yōu)化器計算出來的代價）使用。如果設為FALSE，則禁止使用hash join。 ? ? ? ? ? ?

2.HASH_AREA_SIZE ? ? ? ? ? ??????

這個參數(shù)控制每個會話的hash內(nèi)存空間有多大。它也可以在會話級和實例級被修改。默認（也是推薦）值是sort area空間大小的兩倍（2*SORT_AREA_SIZE）。要提高hash join的效率，就一定盡量保證sort area足夠大，能容納下整個小表的數(shù)據(jù)。但是因為每個會話都會開辟一個這么大的內(nèi)存空間作為hash內(nèi)存，所以不能過大（一般不建議超過2M）。在Oracle9i及以后版本中，Oracle不推薦在dedicated server中使用這個參數(shù)來設置hash內(nèi)存，而是推薦通過設置PGA_AGGRATE_TARGET參數(shù)來自動管理PGA內(nèi)存。保留HASH_AREA_SIZE只是為了向后兼容。在dedicated server中，hash area是從PGA中分配的，而在MTS(Multi-Threaded Server)中，hash area是從UGA中分配的。 ? ? ? ? ? ??????

另外，還要注意的是，每個會話并不一定只打開一個hash area，因為一個查詢中可能不止一個hash join，這是就會相應同時打開多個hash area。 ? ? ? ? ? ?

3.HAHS_MULTIBLOCK_IO_COUNT ? ? ? ? ? ??????

這個參數(shù)決定每次讀入hash area的數(shù)據(jù)塊數(shù)量。因此它會對IO性能產(chǎn)生影響。他只能在init.ora或spfile中修改。在8.0及之前版本，它的默認值是1，在8i及以后版本，默認值是0。一般設置為1-(65536/DB_BLOCK_SIZE)。? ? ? ? 在9i中，這個參數(shù)是一個隱藏參數(shù)：_HASH_MULTIBLOCK_IO_COUNT，可以通過表x$ksppi查詢和修改。 ? ? ? ? ? ??????

另外，在MTS中，這個參數(shù)將不起作用（只會使用1）。 ? ? ? ? ? ??????

它的最大值受到OS的IO帶寬和DB_BLOCK_SIZE的影響。既不能大于MAX_IO_SIZE/DB_BLOCK_SIZE。 ? ? ? ? ? ??????

在8i及以后版本，如果這個值設置為0，則表示在每次查詢時，Oracle自己自動計算這個值。這個值對IO性能影響非常大，因此，建議不要修改這個參數(shù)，使用默認值0，讓Oracle自己去計算這個值。如果一定要設置這個值，要保證以下不等式能成立：R/M < Po2(M/C)其中，R表示小表的大小；M=HASH_AREA_SIZE*0.9；Po2(n)為n的2次方；C=HASH_MULTIBLOCK_IO_COUNT*DB_BLOCK_SIZE。 ? ? ? ? ? ?

三、? Hash join的過程 ? ? ? ? ? ??????

一次完整的hash join如下：? ? ? ? ? ??

1.計算小表的分區(qū)（bucket）數(shù) ? ? ? ? ? ?????

決定hash join的一個重要因素是小表的分區(qū)（bucket）數(shù)。這個數(shù)字由hash_area_size、hash_multiblock_io_count和db_block_size參數(shù)共同決定。Oracle會保留hash area的20%來存儲分區(qū)的頭信息、hash位圖信息和hash表。因此，這個數(shù)字的計算公式是： ? ? ? ? ? ??????

Bucket數(shù)=0.8*hash_area_size/(hash_multiblock_io_count*db_block_size) ? ? ? ? ? ?

2.Hash計算??? ? ? ? ? ? ??????

讀取小表數(shù)據(jù)（簡稱為R），并對每一條數(shù)據(jù)根據(jù)hash算法進行計算。Oracle采用兩種hash算法進行計算，計算出能達到最快速度的hash值（第一hash值和第二hash值）。而關(guān)于這些分區(qū)的全部hash值（第一hash值）就成為hash表。 ? ? ? ? ? ?

3.存放數(shù)據(jù)到hash內(nèi)存中 ? ? ? ? ? ??????

將經(jīng)過hash算法計算的數(shù)據(jù)，根據(jù)各個bucket的hash值（第一hash值）分別放入相應的bucket中。第二hash值就存放在各條記錄中。 ? ? ? ? ? ?

4.創(chuàng)建hash位圖 ? ? ? ? ? ??????

與此同時，也創(chuàng)建了一個關(guān)于這兩個hash值映射關(guān)系的hash位圖。 ? ? ? ? ? ?

5超出內(nèi)存大小部分被移到磁盤 ? ? ? ? ? ??????

如果hash area被占滿，那最大一個分區(qū)就會被寫到磁盤（臨時表空間）上去。任何需要寫入到磁盤分區(qū)上的記錄都會導致磁盤分區(qū)被更新。這樣的話，就會嚴重影響性能，因此一定要盡量避免這種情況。2-5一直持續(xù)到整個表的數(shù)據(jù)讀取完畢。 ? ? ? ? ? ?

6.對分區(qū)排序 ? ? ? ? ? ??????

為了能充分利用內(nèi)存，盡量存儲更多的分區(qū)，Oracle會按照各個分區(qū)的大小將他們在內(nèi)存中排序。 ? ? ? ? ? ?

7.讀取大表數(shù)據(jù)，進行hash匹配 ? ? ? ? ? ??????

接下來就開始讀取大表（簡稱S）中的數(shù)據(jù)。按順序每讀取一條記錄，計算它的hash值，并檢查是否與內(nèi)存中的分區(qū)的hash值一致。如果是，返回join數(shù)據(jù)。如果內(nèi)存中的分區(qū)沒有符合的，就將S中的數(shù)據(jù)寫入到一個新的分區(qū)中，這個分區(qū)也采用與計算R一樣的算法計算出hash值。也就是說這些S中的數(shù)據(jù)產(chǎn)生的新的分區(qū)數(shù)應該和R的分區(qū)集的分區(qū)數(shù)一樣。這些新的分區(qū)被存儲在磁盤（臨時表空間）上。 ? ? ? ? ? ?

8.完全大表全部數(shù)據(jù)的讀取 ? ? ? ? ? ??????

一直按照7進行，直到大表中的所有數(shù)據(jù)的讀取完畢。? ? ? ? ? ? ?

9.處理沒有join的數(shù)據(jù) ? ? ? ? ? ??????

這個時候就產(chǎn)生了一大堆join好的數(shù)據(jù)和從R和S中計算存儲在磁盤上的分區(qū)。 ? ? ? ? ? ?

10.二次hash計算 ? ? ? ? ? ??????

從R和S的分區(qū)集中抽取出最小的一個分區(qū)，使用第二種hash函數(shù)計算出并在內(nèi)存中創(chuàng)建hash表。采用第二種hash函數(shù)的原因是為了使數(shù)據(jù)分布性更好。 ? ? ? ? ? ?

11.二次hash匹配 ? ? ? ? ? ??????

在從另一個數(shù)據(jù)源（與hash在內(nèi)存的那個分區(qū)所屬數(shù)據(jù)源不同的）中讀取分區(qū)數(shù)據(jù)，與內(nèi)存中的新hash表進行匹配。返回join數(shù)據(jù)。 ? ? ? ? ? ?

12.完成全部hash join ? ? ? ? ? ??????

繼續(xù)按照9-11處理剩余分區(qū)，直到全部處理完畢。? ? ? ? ? ? ??????

整個hash join就完成了。? ? ? ? ? ? ?

四、?關(guān)于唯一健值的hash位圖 ? ? ? ? ? ??????

這個位圖包含了每個hash分區(qū)是否有有值的信息。它記錄了有數(shù)據(jù)的分區(qū)的hash值。這個位圖的最大作用就是，如果S表中的數(shù)據(jù)沒有與內(nèi)存中的hash表匹配上，先查看這個位圖，已決定是否將沒有匹配的數(shù)據(jù)寫入磁盤。那些不可能匹配到的數(shù)據(jù)（即位圖上對應的分區(qū)沒有數(shù)據(jù)）就不再寫入磁盤。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]