教育領域大模型技術與套用

2024-06-26碼農

導讀蘇喻博士，高級工程師，合肥人工智慧研究院副研究員，原科大訊飛AI 教育研究院副院長，中國科學技術大學博士後，安徽省青少年資訊學教育專委會秘書長，CCF 大專委-通訊委員，合肥市 D 類人才。蘇喻博士一直在 智慧教育 方向深耕，聚焦於 青少年編程 。面對 數據稀疏 和 學習效果延時性 問題，蘇喻博士團隊在 教育領域大模型 的研發中，技術上有如下三個方面的亮點：1）透過對偶數據的模型訓練與評估和歷史經驗註入實作 青少年編程垂類大語言模型； 2）基於分層知識圖譜和推理 prompt 生成實作 基於小知識的大模型學習； 3）融合知識追蹤模型和 大模型仿真的強化認知推薦。產品套用 上，蘇喻博士團隊開發了 青蛙編程平台、AI 編程學習機 以及 數位人 AI 錄播課 平台等。

本次的分享會圍繞下面五方面展開：

1. 智慧教育背景及挑戰

2. 教育領域大模型

3. 產品案例

4. 思考與展望

5. 問答環節

分享嘉賓｜蘇喻博士合肥人工智慧研究院副研究員

背景及挑戰

1. 背景

蘇喻博士，2011 年 7 月至 2022 年 2 月就職於科大訊飛研究院，歷任科大訊飛 AI 教育研究院副院長，AI 研究院認知群教育條線負責人，學習機業務線教研總監，重點負責教育領域個人化學習業務，包括個人化學習相關模型研究，產品設計，服務研發等，其研發的多項成果已經成功套用到訊飛智學網、訊飛智慧學習機等相關產品中，於 2018 年獲得訊飛首屆華夏創新獎，獲 2020 年吳文俊人工智慧科學技術獎科技進步一等獎。先後參與多項安徽省、部級等層面的重大計畫科研工作，如國家自然科學基金重點計畫、科技部重大專項等。其間獲得多項發明專利，並在 AAAI、KDD、IJCAI 等國際知名學術會議與期刊發表文章近 30 篇，其中 CCF 推薦會議論文 A 類文章 7 篇，中文核心期刊論文 5 篇，SCI 檢索英文期刊論文 10 篇。

（1）個人化學習

幾千年前，孔子提出 因材施教 的觀點，但受限於校內大班教學現狀，傳統教學方案無法滿足學生的個人化需求。

目前市場上的個人化教育產品呈現井噴的態勢，如科大訊飛的學習機、騰訊課堂、松鼠 AI（原易學）等，透過資訊化及人工智慧方法對學生能力進行診斷，並給出推薦。

（2）科大訊飛產品

科大訊飛學習機，自 2019 年開始發力至今成為頭部，主要提供給學生自主性、個人化的學習方案，節省學生時間，提高學生的學習興趣。平台和教師透過學生在平板上的學習，分析學生的做題情況和能力水平，提供給學生一個個人化的知識圖譜，學生可依據該圖譜對薄弱知識點進行自主強化學習。同時，學習進展視覺化，使學生可以了解每天的進步情況，提升學習興趣。

百度、作業幫等工具，針對考試錯題，透過拍搜即可得到正確答案，這樣容易導致學生抄答案不再深入思考。而科大訊飛的個人化學習手冊是基於考試情況和錯題，給每個學生推薦個人化的題目（無答案），同學間無法互相抄。此外，科大訊飛的產品對於試題有較好的表征，同時錯題推薦更具科學性。

① 試題表征

多模態資源理解，將包括文本、立體幾何影像、音訊等在內的試題獨立編碼到各自多模態的空間中。然後進行多模態的語意對齊、self attention、Multi task 等工作。一道題的知識點、考點、難度作為其標簽，這些資訊全部對映為空間中的一個向量。傳統試題打標簽需要人工完成，一方面人工費高，另一方面主觀性強，一致率低。透過機器打標簽可以提高準確率。

② 錯題推薦

根據學生做的一道錯題，透過一些相關的內容和語意推薦類似的題目，一方面在雙減的情況下，學生更容易掌握錯題相關的知識點；另一方面，教師可以針對上課中學生做錯的例題，搜集到相似題目作為學生的課堂作業，提升備課效率。

③ 錯題難度-最近發展區理論

基於教育心理學中的最近發展區理論，推薦簡單的內容，學生覺得無趣、浪費時間；推薦太難的內容，會使學生喪失信心。因此推薦題目的難度非常關鍵，應是稍高於學生當前水平，可透過一定時間學習達到目標，感受到成就感，這樣才可以提升其學習興趣。

④ 實作方法-同分異構學生錯題

實作的方法是收集所有學生的答題記錄（百萬級別，當前到億級），放於教育認證診斷模型中，將學生的資訊對映到一個空間裏，透過尋找目標學生的同分異構學生（水平類似，知識結構有較小的差距），將同分異構學生的錯題推薦給目標學生。這是基於假定——該類錯題對於目標學生更容易學會。

⑤ 解釋性及視覺化-知識圖譜

針對 C 端場景對於解釋性的需求，透過大量的學生數據，基於多模態的編碼，將學生的能力對映到一個知識圖譜上，為學生提供個人化的學習路徑，提升其學習效率和學習積極性。

圖譜的每一個節點代表知識點或知識點的組合

邊表征了知識點的前後繼承關系

顏色代表學習程度，如綠色代表學得好，紅色代表學得差，黃色代表學得一般。

學生基於該圖譜，可進行一系列操作，如針對紅色的知識點，點選後會出現一條設計好的學習路徑。

（3）青少年編程

素質教育-編程領域 ，學生對個人化學習的需求更多，難度更大。除了中小學生外，高校學生在上編程實驗課時，也會遇到各種問題，老師也會遇到無法針對每個學生的問題一一解答的困境。青少年編程課程，無論是公立校還是教培，即使小班也會是 1 對 6，每個學生在每分鐘都會有其個人化的問題（如調不通）等待老師回答。公立校中，老師會嘗試性將大部份同學搞不定的問題的標準答案放於螢幕上，私立校會基於學費和學時，重點支持解決問題，但仍難以滿足個人化學習的需求。

① OJ 試題

此外，編程教育中會采用 OJ 試題，與傳統教育試題不同，會對題目有要求，OJ 試題的題面要求包含題目描述，規定了輸入輸出規範。一個 OJ 試題包含多組用例，一個程式碼用例由一個輸入和一個輸出組成，測試學生所寫的程式碼是否符合預期。

② 個人化編程平台

個人化編程平台包含程式碼修復、程式碼提示、輔學指引三部份。

程式碼修復

學生寫完程式碼後，基於大模型的認知診斷，對程式碼進行修復，根據學生當前的水平，給出程式碼提示和步驟。

程式碼提示

基於研發的底層編譯器，為使用者提供了中文 debug 界面，此外還會針對學生的基礎語法等彈出相應的知識卡片。這樣可以解決使用者 80% 到 90% 的個人化問題。

輔學指引

基於上述程式碼提示，教師只需解決 10% 的共性難點問題，有助於將編程學習順暢地進行下去，提升學生的編程積極性。

2. 挑戰

（1）數據稀疏

當前大數據的量很大，但數據稀疏。如平台雖然存在海量的學生編程數據、答題數據，但對於某一個學生的記錄是有限的。如何根據學生在平台做的幾道編程題，對其進行很好的診斷，是一大挑戰。同樣，數據稀疏的挑戰也存在於其他領域，如醫療大模型，企業可獲得很多病人的案例，但平台上某一個人的病例，可能只有一兩例。

（2）學習延時性

針對學生的推薦，是否使其學習能力提升，能否透過編程等級考試，是無法即刻體現的。學習型的問題，其推薦的收益不易監控，學習效果會延後體現（可能很多天，甚至半年）。

純 C 端的廣告推薦，相對更容易體現效果，推薦內容後，是否點選、購買等都可以透過打點獲取到效果資訊。

教育領域大模型

套用大語言模型去輔助青少年編程，一方面依賴大語言模型的 NLG（Natural Language Generation）能力，可對提示做出連貫且符合上下文的文本回應，另一方面憑借大模型的 Zero-shot 或 Few-shot 的學習能力，可以幫助理解新任務，並在最小提示和樣本下達到有利結果。此外，大語言模型也展現了強大的跨領域泛化能力。

針對數據稀疏或者個人真實數據較少的現狀，如何實作 Zero-shot 能力？是否可以基於其他領域的知識，透過大模型實作泛化學習？團隊就此開展了以下幾個工作：一是青少年編程垂類大語言模型，二是基於小知識的大模型學習，三是基於大模型的仿真強化認知推薦。

垂類大語言模型和小知識大模型主要解決數據稀疏性的挑戰，基於大模型的仿真強化認知推薦解決收益閉環太長的問題。

1. 編程垂類大語言模型

編程垂類大模型構建流程主要包括數據獲取、模型訓練和知識註入三個步驟。

（1）數據獲取

透過對成熟優秀的 LLM 提問，讓其模仿孩子給出錯誤程式碼。在編程領域這種做法的一大問題是，得到的回答可能經常是一些簡單的語法錯誤，比如缺少一半括弧，這對於編程領域大模型是沒有幫助的。

因此，我們構建了生成數據鑒別器，來區分生成的數據和真實的數據。

同時，我們也透過 Prompt 生成器，來自動生成更為真實的指令。

最終，基於這樣兩個模型的對抗神經網路進行錯誤程式碼生成，使得生成數據的分布與真實數據非常接近。

（2）模型訓練（Fine Tuning）

在開源大模型 LLaMA 基礎上，透過 Lora 微調生成程式碼相關的垂類大模型，實作輸入錯誤程式碼，生成正確程式碼。然而有時錯誤程式碼修正後，雖與標準答案很像，但仍存在一些邏輯上的錯誤，無法透過測試用例。

因此提供了測試評估的介面，對答案進行評分。整個微調有兩個監督訊號，本質上有兩個 loss，首先要求修復的程式碼與標準答案很像，第二要透過測試用例，透過得越多，評分越高。這一工作，我們稱之為對偶數據，因為標準答案和測試用例在本質上是對同一事物的兩種描述。

（3）基於歷史經驗的知識註入

由於原始數據量不同，透過歷史經驗，將成功修復案例持續註入本地嵌入向量庫中，透過提示相似錯誤解決的歷史經驗，提高模型修復的準確率。

高品質數據積累 ：現實中學生寫出的錯誤程式碼，基於報錯資訊修正後得到正確答案，這一系列真實數據作為歷史經驗持續註入知識庫中；

嵌入向量庫 ：將上述數據放入編程垂類大模型中，把大模型作為編碼器，將其轉為向量存放於一個嵌入向量庫中；

輸入資訊增強 ：透過線上編譯器，將新的學生寫出的錯誤程式碼生成報錯資訊；

篩選排序，找到協同數據 ：在編碼後的知識庫當中檢索與新學生的嵌入向量（原始問題）類似的問題，生成一個極為復雜的 prompt；

請求修復 ：將上述包含相似錯誤解決歷史經驗的 prompt 輸入到大語言模型中，請求修復，提高修復的準確率。

如上圖測試了四個大模型—GPT3.5、LLAMA2、Vicuna-13B 和文心一言，經過歷史經驗知識註入後嵌入式尋找協同數據，使得大模型的程式碼能力較原來未采用知識註入的效果有較大的提升。

此外，以程式碼修復為例，與 ChatGPT3.5 對比，經過上述知識註入後微調的結果，在關鍵字錯誤、分號缺失、括弧不匹配、變量型別錯誤等方面都有提升，平均提升 20%，大部份任務優於 GPT3.5。

2. 小知識學習

在微調中，通常面臨如下的問題：基於整理好的垂類領域數據，如 TB 級別的數據灌入到大模型中，但是大模型只能對已經輸入的特定知識進行回答，泛化一些的問題，則完全無法給出答案。 如何基於小的垂類知識，啟用大模型相關能力？ 下面以 知識問答 為例，介紹 基於小知識的大語言模型學習。

多層知識體系： 我們采用 人機耦合 方式構建 分層知識圖譜 ，下層為粒度細的知識點，上層為泛化的知識。利用大模型，自己挖掘節點之間的關系。

範例： 二分尋找怎麽做？

知識尋找 ：將二分尋找問題的關鍵點抽取出來，並對映到圖譜上，找到所有相關的分層圖譜，建立相關性連線；

推理圖構建 ：在局部知識圖譜上進行簡單推理；

知識推理 ：基於圖將其變成一個 prompt，並放入大模型中；

這樣，將二分尋找的相關細節輸入到大模型中進行微調，經過微調的大模型更有機會激發得到正確的答案。

多輪叠代的大語言模型小知識學習

範例：學生問迴圈累加哪裏錯了？

未調整前的 Prompt ：直接問迴圈累加怎麽做，大模型給到的答案較敷衍，無法解決學生的問題。

調整後的 Prompt：基於推理圖，給到更精準的 Prompt。

基於 GPT4 進行回答評分，調整前基本 10 道題有 6 道題答得不錯，調整後 10 道題會有 8 道題回答較好，有了大幅提升。

知識註入後，大模型了解了概念，但是仍然無法回答問題，原因在於 prompt 不夠好。透過模仿 prompt 工程師，可以有效提升大模型的效果。這樣解決了只是簡單將語料給到大模型，大模型沒有辦法啟用相關能力的問題。

3. 強化認知推薦

由於給學生推薦學習路徑的收益顯現歷時較長，如何評判哪個學習路徑推薦更好呢？兩個水平近似但知識分布不同的學生，推薦的學習路徑也應不同。面對上述挑戰，我們采用了強化學習的方案，推薦模型即為 Agent，缺乏的環境透過大模型模擬生成，也即 基於大模型的仿真強化認知推薦 。

融合大模型和傳統深度知識追蹤模型，模擬環境的收益和狀態變化情況。

給出狀態，如推薦一道題後，學生狀態發生哪些變化。

推薦一道題後，基於領域的函式，得出其即時的 收益。

學生的知識圖譜：

黃色：待學習的知識點

藍色：推薦學習知識點

綠色：已掌握知識點

紅色：未掌握知識點

透過大模型解決了沒有互動數據（即推薦學習後狀態和收益數據）實作強化學習的問題。

在原來比較小規模數據中，實作學會一道題，按照之前邏輯可能需要 9 步，透過當前的方式，提高推薦能力，解決同一道題目，只需要更少的步驟。

在中等知識點學習中，強化認知推薦比普通的認知推薦平均步驟下降了 30%，有更高的學習效率。

產品案例

1. 青蛙編程平台

上述教育大模型，已整合於青蛙（找 bug）編程平台和 AI 編程學習機中。

青蛙編程平台可以實作 AI 自主學習，基於知識卡進行智慧互動式練習，更加輕松有趣。當前已與多位名師、多家機構合作，服務 2 萬＋學生，基於數據驅動的教學更高效、精準。

上述技術已經發表 40+論文、10+ 專利。

2. AI 編程學習機

AI 編程學習機采用了墨水螢幕，無藍光，更護眼。

智慧教輔範例：

學生： 這道題怎麽做？

大模型： 給出一些提示

學生： 基於提示還是不會做，怎麽辦？

大模型： 給出正確答案

學生： 將正確答案抄寫後，編譯透過，但未透過測試用例

大模型： 英語少了一個字母

學生： 終於完成這道題目

智慧教輔一方面解決了通常只能一對一才能解決的問題，另一方面孩子自主完成題目，提升其自信心和學習興趣。同時可以讓教師集中精力解決共性的難點問題。

3. 智慧雲端編譯器

平台中整合了青少智慧編譯器（智慧雲端編譯器），超過行業頭部品牌。

編譯器具有如下四大優勢：

更輕便： 雲端免安裝，降低對硬體的要求

更智慧： 內建青少編程大模型，可智慧糾錯

更專業： 內建各種編程環境，減少出錯的問題

更簡單： 編譯器中文化，降低偵錯的門檻。

4. 數位人 AI 錄播課平台

錄播課通常為老師持續輸出內容，學生可能無法長時間專註。基於數位人的 AI 錄播課平台，提供了 個人化課程、智慧化老師、精準化練習 。

虛擬老師可實作針對學生的問題，即時回答，提高 互動性 。

根據學生的歷史資訊以及錄播課的情況、編程情況，可生成個人化編程題目，提高學習的 趣味性 。

如下為一段範例：

虛擬老師 ：如圖，目前公認的在中國適用的 BMI 標準是：當 BMI 小於等於 18.4，說明你的體重偏瘦。當 BMI 大於 18.4，小於等於 23.9，說明你的體重正常。當 BMI 大於 23.9 且小於等於 28.0，就是過重。當 BMI 大於 28.0 就達到肥胖程度。

孟同學 ：為什麽 BMI 大於 28 是肥胖而不是 27？

虛擬老師 ：BMI 大於 28 被定義為肥胖是基於大量的研究和統計數據得出的結論，這個標準是根據全球範圍內的人群數據進行分析得出的。不同的人群可能有不同的標準，但是 28 是一個被廣泛接受的標準。

青蛙編程平台以及數位人 AI 錄播課平台 ，涵蓋優質的學習資源，可對標行業頭部品牌，整合了智慧雲端編譯器，已經超過行業頭部品牌，與金牌教練名師合作制作專屬AI 錄播課，打造私人專屬課堂。

思考與展望

1. 大模型 VS.「小模型」

大模型能力全面，但存在如下限制：

（1）計算資源需求大

高效能電腦、專用加速器（如 GPU 、 TPU 等）。

大量的儲存空間。

（2）訓練時間長

通常需要數天甚至數周的時間，需要高效的演算法和硬體加速訓練過程。

（3）不易客製

通常達到千億級別的參數才能實作特殊能力的湧現，不易客製。

垂類大模型做完後，到實作上線和 B 端機仍有很多工作要做。

中小廠的取勝之道，降低模型 size、做客製化、在地化。

利用網路剪枝、向量量化、低秩近似等技術減少大模型的參數。

利用知識蒸餾等技術將大模型的特殊能力遷移到小規模網路參數的模型。

2. 融入領域知識

在通用大模型上，小公司與大公司有較大的差距，但小公司基於小而美的專家團隊，融入領域知識，結合知識圖譜，可以在垂類大模型上贏得先機。

3. 「人工的智慧」在於精細化的數據

「人工的智慧」勝在垂類的精細化數據。中小廠做垂類大模型的商業模式，一定不是花錢做標註，那將需要非常大的資金成本。中小公司可透過設計商業模式， 讓使用者免費「幫忙」標數據 。例如，我們有虛擬老師、自主編程平台，孩子在完成程式碼的修訂過程中，就是在幫忙標記數據，隨著業務的推廣，數據飛輪效應將逐漸顯現。

問答環節

Q1 ：貴司的教育大模型是如何訓練微調的？

A1：由於當前很多大模型相關訓練和微調的技巧未寫專利和論文，今日更多分享的是思路，用的還是通用的一些方法，如 SFT 等。

Q 2：小知識學習中，客體知識多，但是單個使用者（主體）的知識很少的問題，是如何來增強解決的？

A2 ：對於主體知識的補足，我們基於對抗神經網路，透過仿真生成更多的主體數據。例如，一個學生在平台做了三道題，基於其他學生的題目，透過大模型仿真模擬學生做第四道題、第五道題、第六道題。同時基於對抗神經網路實作模擬的題目與學生的真實水平一致。

以上就是本次分享的內容，謝謝大家。

分享嘉賓

INTRODUCTION

蘇喻博士

合肥人工智慧研究院

副研究員

蘇喻，工學博士，碩士生導師，合肥綜合性國家科學中心人工智慧研究院副研究員，合肥師範學院電腦學院副教授，專業負責人，中國電腦學會大數據專家委員會通訊委員，安徽省電腦學會青少年資訊學教育專委會秘書長，研究方向為自然語言理解，資料探勘與推薦系統。2011 年 7 月-2022 年 2 月就職於科大訊飛研究院，歷任科大訊飛 AI 教育研究院副院長，AI 研究院認知群教育條線負責人，學習機業務線業務總監，重點負責教育領域個人化學習業務，其研發的多項成果已經成功的套用到訊飛智學網、訊飛學習機等相關產品中，於 2018 年獲得訊飛首屆華夏創新獎，獲 2020 年吳文俊人工智慧科學技術獎科技進步一等獎。同時，先後參與多項安徽省、部級等層面的重大計畫科研工作，如國家自然科學基金重點計畫「基於多模態數據的學習者認知診斷理論與關鍵技術研究」、科技部重大專項「面向分類使用者個人化需求的科技大數據精準服務技術」等。其間獲得多項發明專利，並在 AAAI、KDD、IJCAI 等國際知名學術會議與期刊發表文章近 50 余篇。

點個在看你最好