當(dāng)前位置：首頁 > 工業(yè)控制 > 電路設(shè)計(jì)項(xiàng)目集錦

如何使用SAMURAI實(shí)例分割和跟蹤器進(jìn)行單對象跟蹤(SOT)的教程

時間：2025-04-07 20:05:53

關(guān)鍵字： SAMURAI 跟蹤器 DAM4SAM GPU

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]SAM和SAM2模型是革命性的，因?yàn)樗鼈兛梢詫Α叭魏螙|西”進(jìn)行分割，甚至不需要事先進(jìn)行特定于應(yīng)用程序的訓(xùn)練。這些模型已經(jīng)成為非常流行的自動標(biāo)記圖像和視頻的模型。

幾年來，我一直試圖在視頻中追蹤登山者。

我的動機(jī)是雙重的：

在我熱衷的主題(運(yùn)動攀巖)上探索算法

分析兩名攀巖者之間的攀巖技術(shù)

在探索過程中，我偶然發(fā)現(xiàn)了一個名為“SAMURAI”的算法，這對于我的特定用例來說確實(shí)是一個突破。

該項(xiàng)目將為SAMURAI提供入門指南，特別是針對AMD gpu。

SAMURAI概述

SAMURAI建立在分段任何模型2.1 (SAM2.1)之上，并改進(jìn)了其跟蹤能力。

SAM和SAM2模型是革命性的，因?yàn)樗鼈兛梢詫Α叭魏螙|西”進(jìn)行分割，甚至不需要事先進(jìn)行特定于應(yīng)用程序的訓(xùn)練。這些模型已經(jīng)成為非常流行的自動標(biāo)記圖像和視頻的模型。

除此之外，它們還可以“跟蹤”視頻內(nèi)容中識別的對象。

還有其他的解決方案提供了類似的跟蹤改進(jìn)，其中一些聲稱更好的跟蹤，即使是相同的對象(如：干擾)。其中一個解決方案是用于SAM 2.1的干擾感知內(nèi)存，或DAM4SAM。

DAM4SAM聲稱比SAMURAI有更好的跟蹤能力，特別是在有干擾的情況下。相同的對象):

我已經(jīng)評估了這兩種解決方案，看看哪種解決方案更適合我的特定用例：跟蹤感興趣的攀登者(CoI)。我邀請您對您的特定用例執(zhí)行類似的比較。

SAMURAI vs DAM4SAM

本實(shí)驗(yàn)的主要結(jié)論如下：

?SAMURAI比DAM4SAM快6倍(使用AMD Radeon Pro W7900 GPU)

?DAM4SAM失去了攀登者(跟蹤任務(wù)失敗)，而SAMURAI成功了

設(shè)置硬件

我的設(shè)置包括AMD Radeon Pro W7900 GPU，但這些指令預(yù)計(jì)將與使用AMD ROCm軟件堆棧的任何AMD GPU一起工作。

有關(guān)如何設(shè)置AMD GPU的更多信息，包括升級電源和添加前機(jī)箱風(fēng)扇，請參考以下項(xiàng)目：

介紹AMD Radeon Pro W7900 GPU

我們應(yīng)該首先驗(yàn)證AMD GPU的驅(qū)動程序是否安裝，如下所示：

在撰寫本文時，ROCm的最新版本是6.2.4。

為AMD gpu安裝SAMURAI

SAMURAI提供了出色的安裝說明，但僅適用于NVIDIA gpu。

為了這個項(xiàng)目的目的，我將參考下面的repo，它有一個特定版本的SAMURAI存儲庫鏈接為gitmodule：

“samurai”子目錄包含原始存儲庫的特定版本，可以按照以下方式安裝：

在安裝過程中，我們可以注意到，除其他外，以下軟件包已默認(rèn)安裝支持NVIDIA CUDA：

torch> = 2.3.1

torchvision > = 0.18.1

因此，我們需要安裝與這些包等價的ROCm，如下所述：

我們也可以通過PyTorch驗(yàn)證AMD GPU的支持，如下面的python會話：

我們還可以使用“nvtop”來監(jiān)控GPU的使用情況：

下面的屏幕截圖顯示了nvtop的輸出。在我的系統(tǒng)中，我有一個AMD Radeon Pro W7900 GPU (48GB)，以及一個較小的NVIDIA T400 GPU (4GB)。

啟動演示

演示腳本可以從samurai目錄啟動，如下所示：

下面的可選參數(shù)指定了要使用的模型：

?Model_path：要使用的模型(默認(rèn)= sam2/檢查點(diǎn)/sam2.1 .1_hiera_base_plus.pt)

該模型的其他變體有：tiny、small、base_plus(默認(rèn)值)和large。

我只試驗(yàn)了默認(rèn)的base_plus模型。

演示腳本有以下參數(shù)指定輸入：

?Video_path：視頻文件(僅支持mp4)或圖像目錄(僅支持jpg)的路徑

?Txt_path：包含要跟蹤對象的初始邊界框(x, y, w, h)的文本文件

演示腳本也有以下可選輸出參數(shù)：

?Save_to_video: Boolean，表示是否保存輸出的視頻文件

?Video_output_path：視頻文件輸出路徑

我已經(jīng)基于原始的demo.py實(shí)現(xiàn)了自己的腳本，將在下面幾節(jié)中描述。

?samurai_step01.py

?samurai_step02.py

CPU內(nèi)存限制

SAMURAI模型使用<2GB的VRAM(即使是大型模型)，因此應(yīng)該與任何GPU一起工作。

然而，主循環(huán)將所有輸入圖像(來自圖像文件的視頻)加載到內(nèi)存中，這可能需要大量的CPU內(nèi)存。

下面的屏幕截圖說明了SAMURAI如何為一個包含3000張1920x1080大小的圖像的用例分配64GB CPU內(nèi)存的60%。

根據(jù)我的計(jì)算，這個用例應(yīng)該只需要我64GB內(nèi)存的30%，因?yàn)?000 * (1920*1080*3)= 17.38GB。因此，我們可以得出結(jié)論，SAMURAI執(zhí)行所需的內(nèi)存是輸入圖像的兩倍。

這將限制您可以提供給SAMURAI算法的輸入圖像的數(shù)量。

為了超越這個限制，可以運(yùn)行幾次，將前一次迭代的最后一個掩碼的邊界框作為下一次迭代的邊界框。

指定輸入

演示腳本允許將輸入指定為視頻文件或輸入圖像。

使用默認(rèn)的“demo.py”腳本，我沒有成功地使視頻文件輸入工作，導(dǎo)致分割錯誤。

出于這個原因，我創(chuàng)建了自己的預(yù)處理腳本，將輸入視頻轉(zhuǎn)換為輸出圖像。我還將以下功能集成到我的腳本中：

?跳過幀：通過參數(shù)指定，允許減少生成的圖像數(shù)量

?開始幀選擇：由用戶用‘s’鍵指定

?結(jié)束幀選擇：由用戶用‘e’鍵指定

?ROI選擇：由用戶用鼠標(biāo)指定

“samurai_step01.py”腳本可用于從輸入視頻中提取圖像。它的用法如下：

該腳本將啟動兩個窗口：

?samurai_step01 -控制

?samurai_step01

“samurai_step01 - Controls”窗口允許你調(diào)整視頻內(nèi)容的大小(scaleFactor)，并在視頻中導(dǎo)航(frameNum)。

第一步是導(dǎo)航到一個幀，它將成為提取圖像的開始幀，用‘s’鍵選擇它，然后使用鼠標(biāo)選擇要跟蹤的對象的ROI。在我的用例中，這是一個攀爬器，但您可以選擇任何對象。

腳本將生成詳細(xì)的“[INFO]…”來確認(rèn)您與GUI的交互。

下一步是導(dǎo)航到結(jié)束幀，用“e”鍵選擇它，然后按“w”鍵提取圖像。

該腳本將在指定的工作目錄下生成以下內(nèi)容：

生成輸出掩碼

使用從視頻中提取的圖像，我們現(xiàn)在可以運(yùn)行SAMURAI算法，使用“samurai_step02.py”腳本：

該腳本將在指定的工作目錄下生成以下內(nèi)容：

三個輸出視頻(mp4)可用于查看SAMURAI算法的輸出與蒙版和/或邊界框。

請注意，生成這些視頻會降低SAMURAI的幀率。如果您想加快一些速度，可以隨意注釋掉生成這些視頻的代碼。

我用AMD Radeon Pro W7900 GPU看到了高達(dá)6fps的性能。

總結(jié)和后續(xù)步驟

使用之前的腳本，我能夠在這些具有挑戰(zhàn)性的視頻中成功執(zhí)行單對象跟蹤(SOT)。

本文編譯自hackster.io

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

要點(diǎn)：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運(yùn)營商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]