中國聯(lián)通元景文生圖大模型開源:真正懂中文
中國聯(lián)通宣布,聯(lián)通數(shù)據(jù)智能公司打造、首個完全在國產(chǎn)昇騰AI軟硬件平臺上實現(xiàn)訓練和推理的中文原生文生圖模型“聯(lián)通元景文生圖模型”,正式開源。
該模型實現(xiàn)了多項自主創(chuàng)新突破:
首先是在架構上,通過在SDXL架構中融合復合語言編碼模塊,實現(xiàn)了對中文長文本、多屬性對應和中文特色詞匯的精確語義理解,對應圖像的生成效果得到了極大提升。
其次是在昇騰AI大規(guī)模算力集群上,實現(xiàn)了中文原生文生圖模型的訓練和推理,并將模型和代碼對業(yè)界開源,以推動文生圖領域的國產(chǎn)化進程。
據(jù)悉,原始SDXL的語言編碼器僅使用英文CLIP模型,智能支持英文文本輸入,輸入長度也不能超過77個token。
對此,聯(lián)通元景文生圖模型一方面將英文CLIP模型替換成中文CLIP,并引入復合語言編碼架構,使用基于encoder-decoder架構的語言模型,突破文本長度限制。
通過引入復合語言編碼模塊,元景文生圖模型實現(xiàn)了原生中文語義理解,避免了利用翻譯插件等作為中介調(diào)用英文文生圖模型造成的中文信息損失。
同時,通過引入海量中文圖文對數(shù)據(jù)進行預訓練,模型對中文專屬名詞,如鼠標-老鼠、仙鶴-吊車等英文模型易混淆的對象,以及中文菜譜等英文模型無法理解的名詞,都能夠準確理解并生成對應的高質(zhì)量圖片。