3/17研華【NVIDIA® Jetson Thorᵀᴹ 平台機器人開發者實戰營,快速打造VLA落地部署】線上研討會回顧

本次【NVIDIA® Jetson Thorᵀᴹ 平台機器人開發者實戰營】,聚焦從感知、推理到控制的VLA技術路徑,帶領開發者深入理解如何結合NVIDIA Isaacᵀᴹ 框架與Advantech Robotic Suite工具,有效解決數據不足、模擬與實體落差等實務挑戰,加速機器人應用真正落地!:sparkles:

:pushpin: 歡迎點擊下方回顧精彩影片

:pushpin: 點我索取簡報資訊 (請先填寫表單後送出後,簡報資訊將寄至您的信箱中)

:pushpin: 想知道直播間都在討論什麼嗎 :red_question_mark: 可至下方留言處查看呦 :backhand_index_pointing_down:

:mechanical_arm: 產品資訊 - 研華 ASR 產品系列

  1. 單板電腦
  1. 3D Camera 開發套件**:backhand_index_pointing_right:ASR-A701DVK**

查看更多ASR-A701DVK開箱文 :backhand_index_pointing_right:運用研華ASR-A701DVK開發套件輕鬆實現AI機器人應用

:speech_balloon: 聯繫專人: Hsinyu.Lin@advantech.com.tw / 02-77323399#9827 (林小姐)

歡迎在下方留言你的想法喔!

:speech_balloon: VLA直接輸出 joints 角度? 這樣是不是模型要綁定機構joints參數?如果機構 joints 長度/角度 constrants 不一樣怎麼辦?

:a_button_blood_type: 如果機構不同,VLA的模型就會需要重新訓練,模型要依據輸入的資料以及進行控制的時候的結果來調整; 可以透過URDF 去修改參數,重新定義joints的角度長度

:speech_balloon: COSMOS是商用有限元分析的那一套嗎?

:a_button_blood_type: 是 NVIDIA Cosmos

:speech_balloon: VLA 訓練時光源需要固定嗎?

:a_button_blood_type: 在訓練的時候會希望光源固定,並且透過 Nvidia Cosmos 提供不同光源變化的虛擬環境來強化訓練

:speech_balloon: Cosmos主要就只有生成影像的能力嗎 不會輸出其他資訊?

:a_button_blood_type: 他是生成訓練的資訊,如果機構不同,VLA 的模型就會需要重新訓練,模型要依據輸入的資料以及進行控制的時候的結果來調整

:speech_balloon: 要在Edge端跑 VLA 模型的話,在選算力的時候會建議評估哪些面向

:a_button_blood_type: 看需求的情境是單純的功能應用,或是比較複雜的互動,這是第一階段可以先評估要用多少參數(3B, 7B, 12B, 35B) 之類的模型來確保VLA準度

:speech_balloon: VLA適合應用在穿戴裝置上嗎?

:a_button_blood_type: VLA 需要比較龐大的電力來提供運算,在穿戴裝置上可能比較不合適,可能還是會需要透過雲端的 VLA 模型來做運算

:speech_balloon: 請問使用 Jetson Orin 8GB 搭配深度相機執行 NVIDIA Isaac ROS VSLAM 進行點雲建圖時,運行約十幾秒後開始出現明顯卡頓,請問可能是硬體的限制,還是設定沒有設定好,或是散熱不足的原因

:a_button_blood_type: 可以在卡頓的情況下檢查,記憶體、模組溫度等資訊,解決如記憶體不足或過熱等問題後再進一步測試

:speech_balloon: Robotic suite 是買斷制嗎? 未來是否會有功能更新? 如果要搭配相機或是Lidar這些周邊配件,有建議配合的廠商嗎?

:a_button_blood_type: Robotic suite 在功能範例程式碼開放,大家都可以下載,相關的安裝包會根據硬體的版本提供對應的版本,所以後續如果購買的系統有升級,Robotic suite也會跟著提供升級服務

我們合作的相機品牌很多,RealSense、StereoLabs、oToBrite、Leopard 等等都是,還是要看應用需求,或是一起討論後推薦適合的型號。LiDAR 和 IMU 也是。LiDAR 目前幾乎是隨插即用。IMU 我們主推 Xsens 和內建的 Bosch BMI088。

:speech_balloon: 如何在模擬環境讓雙機械手臂摺衣服,並且虛實整合,在實體手臂上執行?

:a_button_blood_type: 他要透過視訊資料,像手臂距離衣服還有多遠,機械手臂要多移動多少公分才能碰到目標物,所以要多出多少力,然後要往上還是往下移動去控制機械人

:speech_balloon: cosmos是只需要提供她影片 還是要輸入什麼數值資料

:a_button_blood_type: 模擬訓練跟訓練部署通常需要根據情境需求來決定,可以從動作是否開始收斂來判斷訓練的資料是否足夠 當一個指標判斷

:speech_balloon: 所以手臂的案例,vla部分是放在server上,不是板子thor上嗎? 那這樣就是靠通訊傳輸會比較慢嗎

:a_button_blood_type: 一開始的協同訓練,透過訓練手臂操作落地的機械手臂抓取衣服來做折衣服的動作,機械人會把這些動作記錄下來(包含每個Joint轉幾度,移動多少,要多少扭力),接著在模擬環境 nvidia cosmos 與 omniverse 可以放置自己手臂的URDF,URDF會有手臂或機械人的關節資訊,可以決定怎麼移動,在模擬的環境中就可以整合剛剛訓練手臂的資料,以及可以模擬摺衣服並且做不同場景的訓練資料生成

剛手臂的案例,在伺服器上是VLA+訓練資料做優化,並且把最後的inference 放置在板子端內執行,所以VLA兩邊都會用到,你可以想成完整的VLA在Server上,很厲害很會摺衣服優化並且蒐留後VLA在板子上執行

:speech_balloon: diffusion model對VLA提供關節座標所提供功能(扮演角色)為何?

:a_button_blood_type: 你可以想像成一個remap,remap 就是把理解完的指令 轉換成機器人的操作參數

:speech_balloon: 這些navigation&避障 其實都是ros navigation本來就有的能力 似乎並沒有用到VLA

:a_button_blood_type: navigation & 避障 是不用用到VLA,這邊我們展現的是在不同的感測器都能有辦法執行,用RGB跟光LiDAR,我們後面陸續會整合VLA的功能釋出,像是避障
現階段都是閃避物件,後面搭配VLA 可以判斷哪些是目標物,哪些是障礙物
Navigation, perception, VLA 等等其實是互相搭配的,機器人所需要完成的任務,目前還不能全部仰賴 end-to-end VLA。