隨著人工智慧的蓬勃發展,在影像辨識及語意辨識上都取得了優異的成果,而使用生成對抗網路進行影像生成是近年有長足發展與進步的技術之一。通常人類在想像一個事物時,會給予該事物一個描述,經由一個描述句子而生成符合其語意的影像,在這方面領域的研究近來廣受相關學者的注意,有許多相關研究都是針對特定的資料集去做訓練和優化,例如鳥類資料集和花朵資料集。而本計畫之目標是利用描述句子產生符合語意描述之影像以及影片,主要是希望能根據使用者的描述,生成符合時間與地點設定的自然場景,再進一步讓生成之場景中能夠有動態的畫面。在場景生成的方面,蒐集場景的資料來訓練模型,使神經網路有能力產生一個符合描述的場景圖並加強多樣性。除了使用注意力模型讓生成結果更加優化,我們為了讓生成的圖片有更多的多樣性而不是特定的單幾種圖片,本計畫預計在模型中增加想像力機制,利用圖片的隱藏層資訊來初始化遞歸神經網路的記憶單元來產生更豐富的圖片,比起前人所提出的網路架構,加入這個方法能夠有助於增加生成圖片的多樣性。在生成自然場景之後,本計畫所提出之系統將進一步進行影像動態化。例如產生雲朵的飄動,河水、瀑布或海浪的流動,樹枝和樹葉的擺動等等。並可根據使用者所指定的移動方向生成動態影片。本計畫提出使用條件編碼產生出不同方向的移動向量,並用階層式架構及優化損失函數讓生成影片有更好的品質並增加影片長度。因影像生成技術對於訓練資料集的建構有高度影響力,可以對未來在影像處理與辨識的領域上有很大的助益。同時,在社會經濟方面,民生娛樂產業中對於產生影像與影片有高度需求。因此,執行本計畫可以在學術發展及產業經濟上有所貢獻。