【導讀】8月20-22日,由中國自動化學會主辦的2024中國自動化與人工智能教育大會暨2023-2024學年全國青少年勞動技能與智能設計大賽全國決賽在北京召開。會議特別邀請了科大訊飛股份有限公司副總裁、研究院院長劉聰作了題為“訊飛星火大模型最新進展及其在教育領域典型應用”的報告。劉聰院長認為大模型的“智能涌現”推動了AI技術階躍,也引發了國內外大模型發展浪潮,但通用大模型的發展仍面臨諸多技術挑戰,例如大模型的可信可解釋問題、端到端等新框架推廣性問題、大模型個性化“最后一公里”問題、支撐大模型的算力集群建設問題等。同時,劉聰院長也分享了訊飛星火大模型在教育領域的最新應用情況。
在過去的一年多時間里,全球科技發展節奏異常迅速,尤其是以OpenAI為代表的大模型的崛起,推動了新一輪的人工智能浪潮。許多專家指出,這次技術進步對未來經濟和科技發展的影響深遠。通用人工智能被認為是未來最重要的發展方向之一,預計在未來超過80%的企業將會應用此類技術,而目前這一比例還很少,且主要集中在美國。此外,半導體、物理和生命科學等領域也將受到大模型的深刻影響。
教育是人工智能特別是大模型應用的一個重要領域。白宮已要求支持人工智能工具在教育中的部署,聯合國教科文組織也發布了關于生成式人工智能的相關教育和研究指南。今年3月,我國教育部提出推動大模型從課堂走向應用,以人工智能賦能教育。我國對此高度重視,從去年4月的中央政治局會議到12月的中央經濟工作會議,都強調了將通用人工智能應用到各類場景的重要性。今年3月的兩會上,“人工智能+”行動正式寫入政府報告。習近平總書記在今年6月的兩院院士大會上再次強調,人工智能、量子技術和基礎生物學等前沿技術需要集中涌現,推動鏈式變革。
一、大模型的發展
過去一年半,無論在國內還是國際上,科技競爭都異常激烈。國際上,OpenAI從發布GPT-3.5到GPT-4/4 Turbo及其多個版本,發展迅猛。谷歌整合了其強大的研究機構Brad和DeepMind,推出了Gemini模型。Meta則采取了開源策略,開發了Llama模型,對我國大模型的發展也產生了積極影響。
認知智能大模型的崛起主要得益于幾方面因素。首先,這些模型依然基于深度學習框架,盡管框架未發生根本變化,但此次以ChatGPT為代表的大模型結合了transformer、強化學習等新技術,并通過大規模數據應用,如今通用模型也能實現以前只能由專門模型完成的任務。這些模型通過不斷的用戶反饋進行迭代,產品設計愈加完善。其次,盡管在大模型基礎上延展出現了多模態能力,但語言依然是核心。語言智能是人類智慧的重要部分,人類簡史表明,約7萬年前的認知革命以及語言的誕生,使得人類文明得以迅速擴展并主宰世界。在教育領域,從中小學到大學,學習載體仍然主要以語言為核心,這使得語言智能在認知模型中的地位尤為突出。
在近期的人工智能發展中,特別是OpenAI在GPT-3.5之后推出的GPT-4、GPT-4V等模型在處理行業復雜任務和多模態數據方面展現了更高的能力。以GPT-4V為例,該模型在復雜場景視覺推理能力的表現非常出色,例如在導航中能夠結合圖像和文字信息,分析并推薦最短路徑。同時,GPT-4V還在更具挑戰性的任務中表現出色,例如解決復雜的數學題,不僅需要理解題目本身,還要結合圖像內容,并利用代碼解釋器工具完成解題。此外,GPT-4V在生成圖像的強語義一致性方面也表現優異,能夠根據簡單的提示,如“咖啡店門口的廣告牌”,精準識別并生成相應的圖像和文字內容。
Sora模型進一步推進了對世界模型和物理規律的模擬與生成。其進展不僅在于算法的創新,也離不開視頻訓練標注了高質量的數據和強大算力的支撐。目前,國內已有多家企業在視頻生成方面取得了顯著進展,生產出高質量的視頻效果。
在此之后,5月14日發布的GPT-4o模型吸引了廣泛關注。該模型首次實現了真正的端到端交互體驗,在語音和多模態交互方面具有顛覆性創新。其響應速度極快,能夠在交互過程中隨時進行打斷,支持多模態理解,并表現出情感感知和表達能力。盡管情感表達本身并非全新概念,但OpenAI在GPT-4o的開發過程中進行了系統性工程優化,使其具備了更加成熟的交互能力。
二、大模型遇到的挑戰
在過去一年多的時間里,人工智能領域的挑戰不斷演變。雖然當前的大型語言模型在許多方面已經取得了顯著進展,但未來仍有許多問題值得關注,我也將在這些領域展開進一步研究。其中,模型的可信性與可解釋性是一個關鍵問題。盡管模型在發布以來,通過底座模型的改進、基于搜索和插件的增強,幻覺問題有所緩解,但在醫療和金融等對生成結果可靠性要求極高的領域,仍然面臨巨大的挑戰。
其次是端到端等新框架推廣性問題。框架和算法的不斷演進,確實在技術指標和用戶體驗上帶來了顯著提升。然而,在實際應用中,我們發現仍存在諸多困難,如多模態數據的獲取與對齊、數據模式的轉變,以及整個過程中可定制化和可解釋性的挑戰。這些問題都是未來需要深入研究和解決的。
從應用角度來看,大模型個性化“最后一公里”問題也非常關鍵。在初次接觸OpenAI及國內大模型時,用戶可能會對其輸出感到驚艷,但隨著使用的深入,模型生成的內容可能顯得平淡,因為它未能充分反映用戶的個性化需求。盡管包括OpenAI在內的企業都在努力改進模型的記憶和個性化功能,但從產業角度來看,這仍是一個技術實現上的巨大挑戰。
除了上述算法和技術挑戰外,支持大模型所需的算力集群也是一個重要的工程化難題。為了探索Scaling Law,需要規模龐大的計算集群,但在國產算力與英偉達生態存在差距的情況下,如何在國產框架下實現有效支持,仍然面臨著巨大的挑戰。這不僅僅是一個技術問題,更是一個復雜的系統工程。
GPT仍然基于深度神經網絡框架,雖然沒有跳出新的框架,但該框架成功推動了認知智能和多模態智能的發展,提升了技術的門檻。目前,大家都在探索Scaling Law,但其具體的曲線仍在研究中。大模型在純文字世界中表現出色,文本輸入與輸出形成類似函數的閉環,不斷學習,且訓練數據量充足。在此基礎上,大模型以認知智能為核心,拓展到多模態和具身智能,結合實際場景,帶來了廣泛的應用前景。
三、科大訊飛星火大模型
科大訊飛多年來一直致力于人工智能的發展,積累了豐富的技術和產業經驗。自2022年OpenAI發布以來,當年12月,我們啟動了“1+N”的攻關計劃,其中“1”代表技術底座建設,“N”則涵蓋了教育和辦公等多個行業場景。過去一年多時間內,進展迅速,從0到1,圍繞自主算法和國產算力的改進,星火大模型持續迭代了多個版本,每次發布會都伴隨底座更新和相關產品的發布。最新的V4.0版本,實現了全面對標GPT-4 Turbo,并且在國內外中英文12項主流測試集中,星火V4.0實現了8項超越。
星火大模型的多模態能力也取得了顯著進展。例如,在教育領域,訊飛星火圖文識別大模型能夠識別并分析學生的作業,其中包括復雜的數學公式和化學分子式,類似的技術還可應用于醫療檢查單和企業文檔的處理。
在今年高考后,不論是語文作文還是數學解題,星火大模型都展現出了強大的能力。例如,在高考作文評分中,模型生成的文章平均能獲得50-53分,這表明模型對題目語義有著深刻的理解,在文本生成上也有著很強的能力。
四、訊飛星火大模型的技術創新
科大訊飛針對大模型面臨的技術挑戰,開展了一系列關鍵工作。
首先,面對大模型可信可解釋問題,訊飛通過算法優化和多語言混合協同過濾等方法,結合實際應用場景持續改善。其中,基于評語模型的大模型幻想問題優化屬于超級對齊技術方向的探索:評語模型指出大模型存在的幻覺問題,大模型得到評語模型的評價后自我完善提升。同時,評語模型也通過強化訓練進一步提升發覺幻覺問題的能力,整個過程無需人參與標注,兩個模型相互博弈、共同進化。除此之外,多語言混合協同過濾后進行精細數據清洗的方法也能獲取高質量數據。通過多語言句子篇章的全局統一表示,再創建立體化保障機制,改善大模型的污語料和幻覺問題。
在端到端等新框架推廣性問題上,近期,訊飛官宣發布星火極速超擬人交互,在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現突破。這背后便是從此前的級聯方案,升級為統一神經網絡直接實現語音到語音端到端建模,大幅縮短響應時間,做到了真正的“極速”,同時也提升了交互的擬人度和流暢度。
在個性化生成方面,科大訊飛給出的答案是打造更懂你的AI助手,結合通用大模型底座和6月27日率先發布的“個人空間”,AI助手能基于用戶畫像進行個性化表達,基于交互歷史實現記憶學習,基于個人資料進行增強學習。在“個人空間”里,用戶可以上傳自己的工作、學習、生活、健康等各類資料,形成每個人的專屬知識庫,再結合人設,讓大模型生成更個性化內容。拓展到專業領域,訊飛升級了訊飛曉醫APP,能夠根據電子病歷、檢查報告、體檢報告等用戶個性化資料,構建個人數字健康空間,提供了新的個人及家庭健康管理模式,展現大模型+個性化+專業領域的新可能。
在算力集群建設上,科大訊飛自研平臺實現大模型訓練推理一體化設計,陸續與華為合作發布了星火一體機、首個國產萬卡算力集群“飛星一號”,基于“飛星一號”完成了訊飛星火大模型V3.5、V4.0模型訓練,實現全面對標GPT-4 Turbo。目前,“飛星一號”作為國產算力集群代表,整體訓練性能已經從30%提升到95%,這一數據仍在持續優化;“飛星一號”已常態化支撐訊飛星火大模型訓練,平均資源利用率超90%。在復雜系統工程能力上,訊飛自研出超大集群的智能框架和異構調度系統,保障大模型訓練長時穩定運行,平均故障間隔對標Meta的Llama 3.1訓練已達到相當水準。
五、訊飛星火在教育領域的應用
在教育領域,科大訊飛基于多年積累的技術與場景經驗,致力于通過人工智能技術提升教育質量,滿足中小學和高等教育的不同需求。在中小學基礎教育中,訊飛的重點在于減負增效,推動“五育并舉”。隨著新教材、新課程、新高考的引入,教師面臨備課與教學設計的巨大壓力。基于星火大模型,訊飛推出星火教師助手,以對話式、生成式的自然交互,為教師智能生成科學系統的單元教學規劃、創新引領的教學設計、貼合情境的教學課件等內容,提高教師備課效率;在家訪、班會設計等日常工作和教研場景,星火教師助手也能啟發靈感,助力教師成長。根據一線教師應用數據,星火教師助手實現教學設計效率提升超56%,課件制作效率提升超64%,好評率高達93%。此外,訊飛還利用課堂實錄和分析工具,幫助教師優化教學內容,并促進學生高級思維的發展。
在個性化學習方面,訊飛早已開始探索如何因材施教。基于星火大模型對各類學習資源的深度理解能力,目前能夠實現跨場景的學生學情畫像,并融合其他維度的作答行為數據,實現多維學情診斷畫像,進而給出動態學習路徑的規劃,并基于階段學情智能生成共性和個性的錯題、分層題包,同時提供個性化學習資源,滿足孩子自主學習的需求。除了傳統的習題類資源,大模型的加持讓推薦系統能夠拓展到多模態資源,幫助孩子提升學習效果和效率。在獲得合適的學習路徑和資源后,1對1輔導才是最優解,要歷經思路點撥、分布列式、個性糾因這幾步。基于星火大模型所全新升級的AI交互式答疑輔學,在精準捕捉孩子每一步標準作答動作后,能以啟發引導的風格發問,讓孩子通過互動探究式的學習進行自主思考,實現了1對1的個性化輔導;應用試點分析顯示,這種方式不僅大大提升了學生主動參與答疑的比例,也顯著提升了學習效率。目前,AI 1對1答疑輔導也已經上線訊飛AI學習機,讓孩子多了一位AI輔學老師。
在高等教育方面,訊飛致力于幫助高校構建一流學科課程資源。通過知識圖譜和代碼大模型,訊飛協助高校教師開發實踐性強的課程,并自動化命題和評估學生提交的作業。在科研方面,訊飛的科研助手通過文獻調研、內容提煉和輔助寫作等功能,為科研工作者提效;同時積極與關高校和科研機構團隊也基于星火大模型開展AI for Science前沿方向的探索。
(本文根據作者所作報告速記整理而成)