當前位置：首頁 > 智能硬件 > 人工智能AI

在AWS執(zhí)行深度學習處理的11種操作及注意點

時間：2020-08-06 07:54:02

關鍵字：深度學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 在AWS上執(zhí)行大規(guī)模的深度學習處理是一個廉價而且有效的學習和開發(fā)方式。花少量的錢就可以使用數(shù)十GB的內存，數(shù)十個CPU，多個GPU，這是值得推薦的。如果你是使用EC2或者Linux 命

在AWS上執(zhí)行大規(guī)模的深度學習處理是一個廉價而且有效的學習和開發(fā)方式?；ㄉ倭康腻X就可以使用數(shù)十GB的內存，數(shù)十個CPU，多個GPU，這是值得推薦的。

如果你是使用EC2或者Linux 命令的新人，在云端執(zhí)行深度學習腳本的時候，這些命令是非常有效的。
本文的主要內容包括：
1）在本機和EC2實例間復制數(shù)據
2）使腳本按天，周，月安全地運行
3）監(jiān)測進程，系統(tǒng)和GPU 的性能

注意：所有命令在類linux環(huán)境中執(zhí)行（Linux，OS x 或者 cygwin）

0、環(huán)境約定

假設AWS EC2 已經正常運行，方便起見，對環(huán)境做如下的設定：
1）EC2 服務器的IP地址為 54.218.86.47
2）用戶名為ec2-user
3）SSH 密鑰位于 ~/.ssh/ 中，文件名為aws-keypair.pem;
4）使用python 腳本工作

1、登陸到服務器

在做任何操作之前，首先要登陸到目標服務器。簡單地，使用SSH命令。將SSH 密鑰存儲在 ~/.ssh/ 中，使用有意義的文件名，例如aws-keypair.pem。使用如下命令登陸EC2主機，注意地址和用戶名：
ssh -i ~/.ssh/aws-keypair.pem ec2-user@54.218.86.47

2、拷貝文件到服務器

使用SCP命令拷貝本地文件到服務器，例如將script.py 文件拷貝到EC2 服務器的命令如下：
scp -i ~/.ssh/aws-keypair.pem script.py ec2-user@54.218.86.47:~/

3、使腳本在服務器的后臺運行

在服務的后臺執(zhí)行腳本，可以忽略其他進行的信號量，忽略標準的輸入輸出，將所有的輸出和錯誤信息重定向到一個日志文件中。對于需要長時間運行的深度學習模型而言，這是非常必要的。
> nohup python /home/ec2-user/script.py >/home/ec2-user/script.py.log &1 &

該命令中script.py 和 script.py.log 都位于／home/ec2-user/ 目錄下。關于 nohup 和重定向參考其他的詳細介紹（例如wikipedia中的介紹）。

4、在服務器的指定 GPU 上執(zhí)行腳本

如果EC2 支持的話，推薦在同時運行多個腳本。例如，EC2有4個GPU的話，可以在每個GPU上單獨運行一個腳本，示例代碼如下：
CUDA_VISIBLE_DEVICES=0 nohup python /home/ec2-user/script.py >/home/ec2-user/script.py.log &1 &

如果有4個GPU的話，可以指定CUDA_VISIBLE_DEVICES從0到3。這在TF做后臺的Keras上是可行的，在Theano 沒有測試過。

5、監(jiān)測腳本的輸出

如果輸出結果中有項目評分或者一個算法的運行結果，實時監(jiān)控腳本的輸出是很有意義的。示例如下：
tail -f script.py.log

遺憾的是，當屏幕上在一段時間沒有輸出的時候，AWS 會關閉這個終端，所以最好使用：
watch "tail script.py.log"

有的時候看不到python的標準輸出，不知道是python的問題還是EC2的問題。

6、監(jiān)測系統(tǒng)和進程的性能

監(jiān)測EC2系統(tǒng)的性能是有意義的，尤其是已經使用了或還剩下多少內存。例如：
top -M

或者指定進程標識PID：
top -p PID -M

7、監(jiān)測GPU 性能

如果在GPU上同時執(zhí)行多個腳本，并行執(zhí)行的話，查看每個GPU 的性能和使用率是不錯的主意。例如：
watch "nvidia-smi"

8、檢查腳本是否還在服務器上運行

一般地，會保持終端一直是開著的。
watch "ps -ef | grep python"

9、在服務器上編輯文件

一般不建議在服務器直接修改，當然你熟知vi除外：
vi ~/script.py

vi 的用法就不在這里贅述了。

10、從服務器上下載文件

與上傳文件相對，這是一個下個png文件的例子：
scp -i ~/.ssh/aws-keypair.pem ec2-user@54.218.86.47:~/*.png .

需要注意的幾點

如果希望同時運行多個腳本，最好選用擁有多個GPU 的EC2

最好在本地編寫腳本

將執(zhí)行結果輸出到文件，下載到本地進行分析

使用watch 命令保持終端處于運行中

在本地執(zhí)行遠程命令

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網易等巨頭縮減在日本投資

8月30日消息，據媒體報道，騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]