深度逆強化學習於資訊軌跡規劃(3/3)

專案詳細資料

Description

資訊軌跡規劃近年在人工智慧領域引起注意,此技術不同於傳統的機器人軌跡規劃在於—目標為最大化資訊收集而非避開障礙物朝向目標點。根據資訊量的定義不同有相對應的應用,例如: 例如搜尋感染農作物、檢查建築結構裂痕、山難搜救、搜尋盜獵濫伐、監控城市汙染分布、自動建立環境三維地圖等等。然而這些問題已被證明為NP-hard,所以僅能求出近似解。為了能突破此領域的研究現狀,本研究提出一個以深度逆強化學習的方法,透過分析人類如何解決日常生活中的資訊軌跡規劃問題,來建立一個學習方法提升機器人執行資訊軌跡規劃的效能。本計畫將分為三年執行,第一年著重以深度逆強化學習來探索人類處理資訊軌跡規劃問題的獎勵函數。第二年著重以分析人類處理不同資訊軌跡規劃時的遷移學習能力。第三年著重在人機協同處理資訊軌跡規劃問題。此計畫之研究目標將針對人類在資訊軌跡規劃問題之三項子議題探討: (1) 資訊軌跡規劃問題可學習? 若可,需要多少資料量?(2) 人類在處理不同環境的資訊軌跡規劃問題時如何遷移學習?(3) 人類與機器人在資訊軌跡規劃的差異性與互補性為何?
狀態進行中
有效的開始/結束日期1/08/2131/07/22

聯合國永續發展目標

聯合國會員國於 2015 年同意 17 項全球永續發展目標 (SDG),以終結貧困、保護地球並確保全體的興盛繁榮。此專案有助於以下永續發展目標:

  • SDG 9 - 產業、創新與基礎設施
  • SDG 12 - 負責任的消費與生產
  • SDG 17 - 為永續目標構建夥伴關係

Keywords

  • 資訊軌跡規劃
  • 深度逆強化學習
  • 遷移學習
  • 次模性
  • 壓縮感測

指紋

探索此專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。