如何把百萬級別的訂單根據(jù)金額排序
掃描二維碼
隨時隨地手機(jī)看文章
前面介紹了一些經(jīng)典排序算法,它們的時間復(fù)雜度最好是 O(nlogn),那 如何把百萬級別的訂單根據(jù)金額排序 是不是覺得可以按照之前學(xué)的歸并排序、快速排序?qū)崿F(xiàn)?功能是可以完成,但是效率太低了。今天「碼哥」帶大家一起玩轉(zhuǎn)特殊場景下的排序算法,在 O(n) 時間復(fù)雜度的情況下實(shí)現(xiàn)排序。
「碼哥」帶大家學(xué)習(xí)的算法類比「超跑型賽車」,用于特殊場景能實(shí)現(xiàn)飛快速度??炫?、歸并是經(jīng)濟(jì)實(shí)用型小轎車。而桶排序、計(jì)數(shù)排序、基數(shù)排序則是賽道上的跑車競速,也叫做線性排序。
來不及解釋了,快上車!今天先來桶排序壓壓驚。
桶排序(Bucket Sort)
顧名思義,會使用「桶」,核心思想就是 把要排序的的數(shù)據(jù)分到幾個有序的桶里,每個桶里面的數(shù)據(jù)在單獨(dú)進(jìn)行排序,所有的桶內(nèi)數(shù)據(jù)排序完成后,再按照桶的順序依次取出,組成的序列就是有序的。
為了桶排序的高效,我們需要做到以下兩點(diǎn):
-
在額外空間充足的情況下,盡量增加桶的數(shù)量。 -
使用的映射函數(shù)能夠把輸入的 n 個數(shù)據(jù)均勻的分配到 k 個桶中。
同時,對于桶內(nèi)元素的排序,選擇哪一種排序算法對于性能的影響也至關(guān)重要。
桶排序的基本思想是:把數(shù)組 arr 劃分為n個大小相同子區(qū)間(桶),每個子區(qū)間各自排序,最后合并
。

為何說時間復(fù)雜度是 O(n) 呢? 我們一探究竟。
如果待排序的數(shù)據(jù)有 n 個,我們需要將其使用函數(shù)映射均勻的分配到 k 個桶里面,每個桶的元素個數(shù) y = n / k。
接著每個桶的內(nèi)部使用快排,時間復(fù)雜度就是 O(y _ logy), k 個桶排序的時間復(fù)雜度就是 O(k _ y _ logy), 因?yàn)?y = n / k。所以整個桶排序的時間復(fù)雜度就是 O(n _ log(n / k))。當(dāng)桶的個數(shù) k 接近 數(shù)據(jù)個數(shù) n ,log(n / k) 就是一個很小的常量,桶排序時間復(fù)雜度接近 O(n)。
看起來如此優(yōu)秀,它能代替碼哥之間介紹的 O(nlogn) 復(fù)雜度的排序算法么?
很遺憾,答案是否定的。跑車能跑的賽道是特殊的,并不能代替家用小轎車。實(shí)際上它的運(yùn)用場景很苛刻。
-
要排序的數(shù)據(jù)很容易均勻的劃分成 k 個桶,并且桶與桶之間有著天然的大小順序。這樣才在實(shí)現(xiàn)在每個桶內(nèi)的數(shù)據(jù)都排序好了以后不需要再進(jìn)行排序。 -
數(shù)據(jù)在每個桶之間都是均勻的分布,假如出現(xiàn)有的桶很多數(shù)有的很少。那桶內(nèi)排序的時間復(fù)雜度就不是常量級了,在極端情況下數(shù)據(jù)都劃分到一個桶里,也就退化成 O(nlogn) 的時間復(fù)雜度了。
適用場景
比較適合用在外部排序中。所謂的外部排序就是數(shù)據(jù)存儲在外部磁盤中,數(shù)據(jù)量比較大而內(nèi)存有限,無法一次性全部加載到內(nèi)存中。
比如說我們有 10GB 的訂單數(shù)據(jù),我們希望按訂單金額(假設(shè)金額都是正整數(shù))進(jìn)行排序,但是我們的內(nèi)存有限,只有幾百 MB,沒辦法一次性把 10GB 的數(shù)據(jù)都加載到內(nèi)存中。這個時候該怎么辦呢?
解決思路
一下,對應(yīng)根據(jù)訂單金額把 10G 訂單數(shù)據(jù)排序也是如此,訂單金額最小是 1 元,最大是 10 萬元。我們將所有訂單根據(jù)金額劃分到 100 個桶里,第一個桶我們存儲金額在 1 元到 1000 元之內(nèi)的訂單,第二桶存儲金額在 1001 元到 2000 元之內(nèi)的訂單,以此類推。每一個桶對應(yīng)一個文件,并且按照金額范圍的大小順序編號命名(00,01,02…99)。
理想的情況下,如果訂單金額在 1 到 10 萬之間均勻分布,那訂單會被均勻劃分到 100 個文件中,每個小文件中存儲大約 100MB 的訂單數(shù)據(jù),我們就可以將這 100 個小文件依次放到內(nèi)存中,用快排來排序。等所有文件都排好序之后,我們只需要按照文件編號,從小到大依次讀取每個小文件中的訂單數(shù)據(jù),并將其寫入到一個文件中,那這個文件中存儲的就是按照金額從小到大排序的訂單數(shù)據(jù)了。
代碼實(shí)戰(zhàn)
/**
* 桶排序:把數(shù)組 arr 劃分為n個大小相同子區(qū)間(桶),每個子區(qū)間各自排序,最后合并
*/
public class BucketSort implements LineSort {
private static final QuickSort quickSort = new QuickSort();
@Override
public int[] sort(int[] sourceArray, int bucketSize) {
// 找出最大、最小值
int minValue = sourceArray[0];
int maxValue = sourceArray[1];
for (int value : sourceArray) {
minValue = Math.min(minValue, value);
maxValue = Math.max(maxValue, value);
}
// 桶數(shù)量
int bucketCount = (maxValue - minValue) / bucketSize + 1;
int[][] buckets = new int[bucketCount][bucketSize];
// 保存每個桶的數(shù)組的元素下標(biāo),默認(rèn)值 0
int[] indexArr = new int[bucketCount];
// 將數(shù)組中值分配到各個桶里
for (int value : sourceArray) {
int bucketIndex = (value - minValue) / bucketSize;
// 當(dāng)前桶的數(shù)組達(dá)到最大值,需要拓容
if (indexArr[bucketIndex] == buckets[bucketIndex].length) {
ensureCapacity(buckets, bucketIndex);
}
// 將數(shù)據(jù)放到桶中,并且桶對應(yīng)的數(shù)組下標(biāo) + 1
buckets[bucketIndex][indexArr[bucketIndex]++] = value;
}
// 對每個桶進(jìn)行排序,這里使用了快速排序
int k = 0;
for (int i = 0; i < buckets.length; i++) {
if (indexArr[i] == 0) {
continue;
}
// 默認(rèn)容量是 bucketSize, 要根據(jù)實(shí)際桶的容量排序,否則不足 bucketSize 的默認(rèn)值是 0
quickSort.quickSortInternal(buckets[i], 0, indexArr[i] - 1);
for (int j = 0; j < indexArr[i]; j++) {
sourceArray[k++] = buckets[i][j];
}
}
return sourceArray;
}
/**
* 數(shù)組擴(kuò)容,并保存數(shù)據(jù)
*
* @param buckets
* @param bucketIndex
*/
private void ensureCapacity(int[][] buckets, int bucketIndex) {
int[] tempArr = buckets[bucketIndex];
int[] newArr = new int[tempArr.length * 2];
for (int j = 0; j < tempArr.length; j++) {
newArr[j] = tempArr[j];
}
buckets[bucketIndex] = newArr;
}
}
單元測試
生成一百萬的數(shù)據(jù),數(shù)據(jù)范圍 [1, 100000]
@DisplayName("線性排序算法測試")
public class LineSortTest {
private static int length = 100;
private int[] array = new int[length];
@BeforeEach
public void beforeEach() {
Random rand = new Random();
for (int i = 0; i < length; i++) {
// 隨機(jī)生成 [1, 1000000] 的數(shù)據(jù)
array[i] = rand.nextInt(length) + 1;
}
}
@DisplayName("桶排序")
@Test
public void testBucketSort() {
BucketSort bucketSort = new BucketSort();
// 100 數(shù)據(jù),10 個桶
int[] sort = bucketSort.sort(array, 10);
System.out.println(Arrays.toString(sort));
}
}
總結(jié)
如何根據(jù)年齡給 100 萬用戶排序?現(xiàn)在思考題是不是變得非常簡單了呢?我來說一下我的解決思路。
實(shí)際上,根據(jù)年齡給 100 萬用戶排序,就類似按照成績給 50 萬考生排序。我們假設(shè)年齡的范圍最小 1 歲,最大不超過 120 歲。我們可以遍歷這 100 萬用戶,根據(jù)年齡將其劃分到這 120 個桶里,然后依次順序遍歷這 120 個桶中的元素。這樣就得到了按照年齡排序的 100 萬用戶數(shù)據(jù)。
特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:
長按訂閱更多精彩▼
如有收獲,點(diǎn)個在看,誠摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點(diǎn),不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!