107年度 【建構構式語言模型:在語境中呈現構式之形與義】

專案詳細資料

Description

早期的構式語法研究(Fillmore, Kay, and O’Connor 1988, inter alia)所極力著重的,是語言使用中規則性面向與不規則面向,兩者是不可分割的。然而,隨著幾十年來構式語法影響的擴及,此特性在計算語言學的運算模型中卻無法被呈現。最明顯的例子便是詞彙文法構式,此範疇介於字典中完全凝結之固定用語、以及符合語法創造原則句構兩者之間,電腦運算往往無力建立語言模型來呈現其樣貌。遺憾的是,詞彙文法構式正是早期構式語法研究中所強調的,被主流模組式語法忽略之重點。有鑑於此,本提案立基於研究團隊過去八年來所研發的StringNet語言模型,此模型以構式語法理論為基礎進行開發,特別能分析、運算和呈現詞彙文法構式的複雜性。現有之StringNet模型以及研究團隊施測的課堂語言實驗則提供了優化的契機,包括如何改進模型以呈現更多詞彙文法構式,以及如何讓個別使用者更容易發現這些構式。因此,本研究案旨在針對現有模型做出根本性的優化改進,提升模型在呈現詞彙文法構式的深度及廣度,並讓使用者更易於理解所呈現構式之形式和語義。這其中的關鍵核心是,StringNet能提供在語境關係中偵測到語義的機會。然而在現存模型中,這些語境關係所呈現的特徵是隱而不顯的,使用者很難從模型內的幾十億個構式中發現其存在。本提案即旨在超越現存模型所編入索引之關聯性,擬於優化的模型中呈現更高階的關聯性。新增的高階關聯性將聯結具有相似模式的字詞,並能將涵蓋這些字詞的句構提取出來作為候選的構式。最重要的是,不同於黑箱測試法的分佈式語言模型,諸如向量空間模型(VSMs)等,我們仍會留心保持模型的資訊透明度以及可導覽性,以利使用者能在改良後的模型中看到這些高階關聯性的來源,並清楚理解這些關聯。而這樣的特性也讓本提案的模型以及相關工具格外地適切於以學習者為本位的語言學習和探索。有關本提案之優化版模型,其核心理念以及概念測試,已在研究團隊初步實測後進行學術發表(Tsao and Wible 2013),研究結果肯定此模型之發展性,並對後續語言模型設計帶來深刻啟發。最後,研究團隊擬蒐集約五千萬字的國際學術期刊論文篇章,利用優化後之模型從中另建立學術版StringNet模型,這兩套語言模型將能互為參照比對,提供後續研究以深入探究學術英語與一般英語的迥異處,而非僅止於淺碟式的研究學術字彙或句型清單。
狀態已完成
有效的開始/結束日期1/08/1831/07/20

聯合國永續發展目標

聯合國會員國於 2015 年同意 17 項全球永續發展目標 (SDG),以終結貧困、保護地球並確保全體的興盛繁榮。此專案有助於以下永續發展目標:

  • SDG 4 - 品質教育
  • SDG 5 - 性別平等
  • SDG 17 - 為永續目標構建夥伴關係

Keywords

  • 詞彙文法構式
  • 構式語法
  • 英語學習資源
  • 電腦計算語言模型

指紋

探索此專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。