史詩(shī)科幻片《沙丘3》公開(kāi)首支預(yù)告:將于12月18日在北美院線上映
太好賺了!騰訊25年游戲業(yè)務(wù)營(yíng)收2416億 全年?duì)I收7518億元
不會(huì)又要輸吧?管澤元:沒(méi)想到吧我今天又上班 看看BLG能不能報(bào)去年瑞士輪的一箭之仇
統(tǒng)一格式!HLE選手更新社媒頭像:全員抱胸
你也想來(lái)?第一網(wǎng)紅野獸先生:我想收購(gòu)一支LCS球隊(duì) 就像有錢(qián)人買(mǎi)足球隊(duì)
韓網(wǎng)熱議巴西主播嘲諷Chovy:絕對(duì)不是文化差異

體育資訊1月21日訊 DeepSeek于官方GitHub倉(cāng)庫(kù)更新了一系列FlashMLA代碼,在這些更新中,一個(gè)名為“Model 1”的模型引起了廣泛關(guān)注。
據(jù)悉,目前這個(gè)還很神秘的Model1不僅出現(xiàn)在了代碼與注釋中,甚至還有與DeepSeek-V3.2并駕齊驅(qū)的文件。這也不禁引發(fā)廣大網(wǎng)友猜測(cè),認(rèn)為Model 1很可能就是傳聞中DeepSeek將于春節(jié)前后發(fā)布的新模型代號(hào)。
最新消息顯示,Model1是DeepSeek FlashMLA中支持的兩個(gè)主要模型架構(gòu)之一,另一個(gè)是DeepSeek-V3.2。這很可能是一個(gè)高效推理模型,相比V3.2內(nèi)存占用更低,適合邊緣設(shè)備或成本敏感場(chǎng)景。此外,它也可能是一個(gè)長(zhǎng)序列專(zhuān)家,針對(duì)16K+序列優(yōu)化,適合文檔理解、代碼分析等長(zhǎng)上下文任務(wù)。