7dbe
《科创板日报》30日讯,DeepSeek今日于AI开源社区Hugging Face上宣布了一个名为DeepSeek-Prover-V2-671B的新模子。据悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors文件名堂,并支持多种盘算精度,利便模子更快、更省资源地训练和安排,参数达6710亿,或为去年宣布的Prover-V1.5数学模子升级版本。在模子架构上,该模子使用了DeepSeek-V3架构,接纳MoE(混淆专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达16.38万,使其能处置惩罚重大的数学证实,并且接纳了FP8量化,可通过量化手艺减小模子巨细,提高推理效率。