undefined - 创业邦

MiLM

MiLM是小米公司开发的一款大规模预训练语言模型，具备强大的参数规模和语义理解能力

言犀大模型

京东的言犀大模型是一款千亿级参数的文本生成模型，具有广泛的应用和核心能力。

360智脑

360智脑是360集团公司的认知型通用大模型，拥有多项核心能力，广泛应用于360旗下产品和企业客户的应用场景

文心一言

百度推出的大语言模型和生成式AI产品，具备优越的中文对话能力

盘古大模型

盘古大模型是由华为开发的一种大规模、多层次AI模型，其三层体系旨在满足不同行业和场景的需求。

混元大模型

混元大模型是由腾讯开发的多领域AI模型

玉言

网易伏羲玉言是网易伏羲实验室推出的中文AI大模型，是网易伏羲自主研发的中文文本预训练大模型系列，具有优秀的理解和生成能力，可以用于多种自然语言处理任务。提供AI大模型，网易，网易伏羲，玉言大模型，服务。网易伏羲是网易旗下专业从事游戏与AI研究和应用的顶尖机构。专注数字孪生、强化学习、用户画像、

赤兔大模型

赤兔大模型是容联云面向企业应用的多层次大语言模型，通过提供强大的自然语言处理能力，推动智能客服和数智化营销的发展

讯飞星火认知大模型

讯飞星火科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务

姜子牙

姜子牙Ziya-LLaMA通用大模型是由IDEA研究院出品的大规模语言模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力

Belle

链家Belle大模型是一个专注于中文自然语言处理任务的开源项目，通过中文优化、多样性任务覆盖以及离线部署应用，旨在提高中文语言模型的性能，降低门槛，为广大用户提供更好的语言模型体验

LLaMA

LLaMA是Meta AI公司于2023年2月发布的大型语言模型

书生·浦语

书生·浦语大模型InternLM是上海人工智能实验室发布的语言大模型系列

百川大模型

百川大模型是百川智能推出的大模型产品，它是一款结合了意图理解、信息检索以及强化学习技术的大模型产品，能够在知识问答、文本创作领域表现突出。

ChatGLM

ChatGLM是清华大学KEG实验室和智谱AI基于千亿基座模型GLM-130B开发的对话语言模型。

Claude

Claude是Anthropic公司开发的大语言模型 (LLM)，主要特点是有用与可信。

通义千问

通义千问是阿里云推出的一个超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。

ChatGPT

ChatGPT是一种基于自然语言处理的神经网络模型，它是以预训练技术为核心的生成模型。它是Transformer编码-解码模型的解码部分，以ChatGPT为代表的大语言模型（LLM）是目前最先进的自然语言处理技术之一。

商量SenseChat

商量SenseChat是商汤科技推出的自然语言应用，依托强大的大语言模型和硬件支持，为用户提供多种自然语言处理功能，并在多个行业建立了深度合作

RWKV-7B-World-CHNtuned

OpenBuddy-LLaMA-65B-v8

OpenBuddy-LLaMA-30B-v7.1

OpenBuddy-Falcon-40b-v9

OpenBuddy-Falcon-7b-v6

OpenAssistant-Pythia-12B

OpenAssistant-LLaMA-30B

llamav2_cn_bairong_chater

Linly-Chinese-LLaMA2-13B

HITsz-Lychee-Base-11B-V0.1

H2O-Oasst-OpenLLaMA-13B

DFM语言大模型，全名Dialogue Foundation Model，是由思必驰和上海交通大学智能人机交互联合实验室自主研发的通用生成式语言模型

CPM大模型是面壁智能自主研发的一系列预训练大语言模型，旨在处理中文自然语言处理任务

Chinese-Alpaca-Plus-13B

BELLE-on-Open-Datasets

BELLE-Llama2-13B-chat-0.4M

BELLE-LLaMA-2

belle-llama-13b-ext

BELLE-LLaMA-13B-2M-enc

悟道·天鹰语言大模型系列智源研究院开发的一组具有中英双语知识、支持商用许可协议、符合国内数据合规需求的开源语言大模型

AndesLM-13B

Alpaca-7B

Alpaca-13B

Alpaca Farm PPO Sim (GPT-4) 7B

Alpaca Farm PPO Human 7B

airoboros 65B

airoboros 33B

AiLMe-100B v2

ERes2Net-Large说话人确认-中文-CNCeleb-16k

ERes2Net-Base说话人确认-中文-CNCeleb-16k

CAAI-Hackathon

Sunsimiao-InternLM-01M

我已经是一个成熟的机器人了，该学会帮助主人赚取小钱钱了。赚钱天团成员可输入{}中修改。内置成员分别是｛乔布斯、Elon Musk、马化腾、刘强东、Warren Buffett和王健林｝。你可以在聊天框里说出处境和决策。也可输入“商业分析”进一步要求智囊团进行商业分析。

palm_kuakua

你好问问DSTCN唤醒词检测

基于wekws的dstcn网络结构和maxpooling损失函数训练的唤醒词检测模型，使用出门问问开源的你好问问数据集。支持嗨小问、你好问问两个唤醒词。

firefly-baichuan-7b-qlora-sft

QLoRA+百万指令数据，对baichun-7B模型进行高效指令微调

基于阿里开源fsmn网络结构和ctc损失函数训练的唤醒词检测模型，使用出门问问开源的你好问问数据集。支持嗨小问、你好问问两个唤醒词。

PULSE-7bv5

Sunsimiao-01M-Chat-lora

GPT-3淘宝好评机器人

你好问问DSTCN-CTC唤醒词检测

基于wekws的dstcn网络结构和ctc损失函数训练的唤醒词检测模型，使用出门问问开源的你好问问数据集。支持嗨小问、你好问问两个唤醒词。

RedPajama-INCITE-7B-Chat

SPACE-D文档对话生成模型-法越-通用领域-Large

训练后的模型，支持中文、英语、法语、越南语等四种语言的文档对话生成

ImageNet2023

gpt_3-yi_conversation

luotuo-bert

minirbt-h288

chinese-lert-base

chinese-electra-180g-small-discriminator

chinese-legal-electra-small-generator

ofa_image-caption_coco_large_en_demo

测试无描述

ernie-3.0-medium-zh

Erlangshen-DeBERTa-v2-710M-Chinese

chinese-legal-electra-small-discriminator

rwkv-4-world

palm_kuakua

CAM++说话人确认-中文-3DSpeaker-16k

CAM++模型是基于密集连接时延神经网络的说话人识别模型。相比于一些主流的说话人识别模型，比如ResNet34和ECAPA-TDNN，CAM++具有更准确的说话人识别性能和更快的推理速度。该模型基于中文数据集3DSpeaker进行训练

chinese-legal-electra-large-generator

chinese-lert-large

chinese-pert-base-mrc

chinese-electra-180g-small-ex-generator

minirbt-h256

chinese-electra-small-discriminator

chinese-electra-180g-large-discriminator

chinese-electra-180g-base-discriminator

rbt6

chinese-macbert-large

rbt3

chinese-lert-small

chinese-electra-180g-small-ex-discriminator

chinese-bert-wwm-ext

chinese-legal-electra-large-discriminator

english-pert-base

chinese-electra-large-discriminator

rbt4

基于gpt3微调的夸夸机器人

基于gpt-3和夸夸数据集训练出来的夸夸机器人

SPACE-D文档对话重排模型-法越-通用领域-Large

二郎神-UniMC-RoBERTa-330M-中文

UniMC 核心思想是将自然语言理解任务转化为 multiple choice 任务，并且使用多个 NLU 任务来进行预训练。我们在英文数据集实验结果表明仅含有 2.35 亿参数的 ALBERT模型的zero-shot性能可以超越众多千亿的模型。并在中文测评基准 FewCLUE 和 ZeroCLUE

chinese-electra-small-ex-generator

cino-large-v2

人像卡通化

cv_unet_person-image-cartoon-sketch_compound-models

二郎神-UniEX-RoBERTa-110M-中文

Erlangshen-UniMC-DeBERTa-v2-330M-Chinese

StructBERT预训练模型-中文口语-Base

基于StructBERT的中文口语Base预训练模型

stable-diffusion-xl-refiner-1.0

二郎神-MacBERT-110M-二分类-中文

1.1亿参数的MacBERT，在大规模二分类数据上预训练

Erlangshen-UniMC-MegatronBERT-1.3B-Chinese

librispeech

aishell2

chinese-electra-180g-small-generator

rbt4-h312

rbtl3

chinese-electra-180g-base-generator

palm_kuakua

chinese-macbert-base

chinese-electra-base-generator

Erlangshen-MacBERT-325M-TextMatch-Chinese

Erlangshen-TCBert-330M-Classification-Chinese

phoenix-inst-chat-7b

unidiffuser-v1

UniDiffuser是一个统一的diffusion框架，用于在一个转换器中拟合与有一组多模态数据相关的所有分布. UniDiffuser能够通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像文本对生成，而无需额外的开销.

multi_cn

chinese-electra-base-discriminator

Sunsimiao-01M-lora

CSANMT连续语义增强机器翻译-法中-通用领域

桥接模型：CSANMT连续语义增强机器翻译-法英-通用领域和 CSANMT连续语义增强机器翻译-英中-通用领域-big

CSANMT连续语义增强机器翻译-西中-通用领域

桥接模型：CSANMT连续语义增强机器翻译-西英-通用领域和 CSANMT连续语义增强机器翻译-英中-通用领域-big

CSANMT连续语义增强机器翻译-中西-通用领域

桥接模型：CSANMT连续语义增强机器翻译-中英-通用领域-large 和 CSANMT连续语义增强机器翻译-英西-通用领域-base

燃灯-T5-784M

善于处理NLT任务，中文版的mT5-large。

Erlangshen-UniMC-DeBERTa-v2-110M-Chinese

stable-diffusion-GhostMix-V1-1

测试上传

chinese-roberta-wwm-ext-large

aishell

gpt-j-6b

二郎神-UniEX-RoBERTa-330M-中文

燃灯-T5-Char-57M-Chinese

善于处理NLT任务，中文版的T5-small，采用了BertTokenizer和中文字级别词典。

二郎神-UniMC-RoBERTa-110M-中文

UniMC 核心思想是将自然语言理解任务转化为 multiple choice 任务，并且使用多个 NLU 任务来进行预训练。我们在英文数据集实验结果表明仅含有 2.35 亿参数的 ALBERT模型的zero-shot性能可以超越众多千亿的模型。并在中文测评基准 FewCLUE 和 ZeroCLUE

燃灯-T5-Char-700M-中文

善于处理NLT任务，中文版的T5-large，采用了BertTokenizer和中文字级别词典。

stable-diffusion-v1.4

语音合成-马来语-通用领域-24k-发音人farah

马来语语音合成女声24k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

CSANMT连续语义增强机器翻译-中法-通用领域

桥接模型：CSANMT连续语义增强机器翻译-中英-通用领域-large 和 CSANMT连续语义增强机器翻译-英法-通用领域-base

余元QA-GPT2-3.5B

善于处理医疗问答任务，医疗的领域模型，英文版的GPT2。

二郎神-MacBERT-325M-NLI-中文

3.25亿参数的MacBERT，在NLI任务上进行预训练，并在FewCLUE的OCNLI任务上微调。

Erlangshen-MegatronBert-3.9B-Chinese

Erlangshen-MegatronBert-1.3B

善于处理NLT任务，中文版的mT5-small

chinese-electra-base-generator

tasks:fill-mask

安全帽⛑️

GridVLP多模态文本图像相似度-中文-通用领域-base

Erlangshen-DeBERTa-v2-97M-Chinese

StructBERT行动项抽取-中文口语-会议领域

基于大量口语数据预训练StructBert的会议行动项抽取基线模型

wenetspeech

stablelm-tuned-alpha-7b

人像卡通化_王者荣耀_马亦骁

multi-modal_mplug_owl_bilingual_multimodal-dialogue_7b

二郎神-MegatronBert-1.3B-NLI 自然语言理解

二郎神-BERT-120M-IE-中文

本模型基于大规模信息抽取数据进行预训练，可支持few-shot、zero-shot场景下的实体识别、关系三元组抽取任务。

文本生成3D模型_shap-e

OpenAI的Shap-E是一款先进的文本到3D模型人工智能工具，它将颠覆我们创建和交互3D对象的方式。Shap-E的核心是一个基于神经网络的深度学习模型，它可以从大量的文本数据中学习到三维形状的结构和特征，然后生成相应的3D模型。相比于传统的基于点云的显式生成模型Point-E，Shap-E不再需

SOND说话人日志-英文-swbd_sre-8k-离线-pytorch

stable-diffusion-xl-base-0.9

语音合成-越南语-通用领域-24k-发音人tien

越南语语音合成女声24k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

musicgen-large

二郎神-Roberta-330M-因果关系判别-中文

基于chinese-roberta-wwm-ext-large模型继续训练得到的中文因果关系判别模型。

二郎神-TCBert-1.3B-分类-中文

1.3BM参数的Topic Classification BERT (TCBert)。

internlm-chat-7b

InsTag指令打标工具llama2版本

twitter-xlm-roberta-base-sentiment

Emu

Emu是一个多模式通才，可以无缝地在多模式上下文中生成图像和文本。Emu使用统一的自回归目标进行训练，即预测下一个元素，包括视觉嵌入和文本标记。在这个目标下训练，Emu可以作为图像到文本和文本到图像任务的通用接口。并且还是开源的，github开源地址为 https://github.com/baai

chinese-roberta-wwm-ext

花朵分类

Erlangshen-DeBERTa-v2-97M-CWS-Chinese

opt-1b3

bloomz-7b1

We present BLOOMZ & mT0, a family of models capable of following human instructions in dozens of languages zero-shot. We finetune BLOOM & mT5 pretrain

百川sft微调模型

基于多语数据集微调的百川sft模型，持续更新中

测试模型

Erlangshen-DeBERTa-v2-320M-Chinese

三井绘蓝 Mitsua Diffusion CC0

花朵分类-14

可分类14种花朵，支持识别以下花朵类型：康乃馨、鸢尾花、风铃草、金英花、玫瑰、落新妇、郁金香、金盏花、蒲公英、金鸡菊、黑眼菊、睡莲、向日葵、雏菊。

openbuddy-falcon-7b-v15-fp16

flan-t5-xxl-lora教育大模型

《在24gb显存下教育外国大模型》的示例模型和代码。包含环境Dockerfile，训练代码，生成代码，而且顺带一个QQ机器人示例

RWKV-4 模型在 Pile 数据集上训练的 430M 个参数。

二郎神-TCBert-1.3B-Sentence-Embedding-中文

1.3BM参数的句子表征Topic Classification BERT (TCBert)。

孟子BERT预训练模型-中文-Lite

基于语言学信息融入和训练加速等方法，我们研发了Mengzi 系列模型。这个模型页面提供了孟子中文BERT预训练模型Lite版本（6层），可以用于下游任务的微调。

FreeWilly2

FreeWilly2 is a Llama2 70B model finetuned on an Orca style Dataset

falcon-7b-instruct

二郎神-RoBERTa-330M-自然语言推理

二郎神-RoBERTa-110M-自然语言推理

GridVLP多模态品牌预测-中文-电商领域-base

宋词

二郎神-TCBert-110M-分类-中文

110M参数的Topic Classification BERT (TCBert)。

动漫化

原始模型：damo/cv_unet_person-image-cartoon_compound-models；数据集：menyifang/dctnet_train_clipart_mini_ms；999个epoch的finetune结果

PLUG知识库问题生成模型-中文-27B

文本生成音频

该模型是2023年表现比较好的可以进行长文本转语音的文本生成语音模型（TTS）。此模型是开源的，github开源地址https://github.com/suno-ai/bark，hub开源地址是 https://huggingface.co/spaces/suno/bark。

BianQue-2

燃灯-T5-77M-多任务-中文

chinese-electra-small-generator

bloom-560m

my_test_model

燃灯-T5-Char-700M-多任务-中文

在Randeng-T5-Char-700M的基础上，收集了100个左右的中文数据集，进行Text2Text统一范式的有监督任务预训练。

StructBERT问句识别-中文口语-通用领域

基于中文口语structbert的问句识别模型。

so-vits-svc_sunyanzi

安全帽检测

二郎神-DeBERTa-v2-186M-中文-SentencePiece

善于处理NLU任务，采用sentence piece分词的，中文版的1.86亿参数DeBERTa-v2。

测试

RoBERTa预训练模型-中文-lite

基于RoBERTa的中文Lite预训练模型

人像卡通化

cc人像卡通化

GPT-MoE中文270亿作文生成模型

GPT模型能较好的处理NLP各个应用领域的任务，比如文本分类，推理，对话，问答，完形填空，阅读理解，摘要，生成等等。百亿/千亿参数量级的GPT大模型作用在这些应用领域虽然效果很好，但是训练成本非常高。以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估需要34天，一万亿参

提出了一种用于单目全景深度估计的端到端深度网络S2Net，该网络工作在单位球面上，从而减少畸变。S2Net将从等距图像中提取的特征图投影到由均匀分布的网格采样的单位球面上，并在球面上融合畸变更少的特征图信息并预测深度图。S2Net包含一个基于全局交叉注意力的融合模块，用于融合不同尺度的球面特征图并增

LLaVA视觉问答模型

visual-question-answering

初赛-ocr

基于知识协同优化的调优方法

KnowPrompt用于关系抽取任务，通过学习模板词和答案词，将实体和关系的知识注入模型，并在知识约束下协同优化它们的表示

agent测试

寿命年龄转换综合

模型来源 https://github.com/ValeriaWong/Lifespan_Age_Transformation_Synthesis，模型参数按照google colab推荐参数训练而得，由于该模型的License为“署名-非商业性使用-相同方式共享4.0国际”，在此署名原作者如下：R

chinese-alpaca-plus-13b-hf

ERes2Net-Base语种识别-中英文识别-16k

ERes2Net-Base是基于卷积神经网络的说话人识别模型，该模型使用开源数据集CN-Celeb和VoxCeleb训练，可以用于语种识别、说话人确认、说话人日志、语音合成多项任务。

语音合成-德语-通用领域-16k-发音人hanna

德语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

gigaspeech

musicgen-small

通义-文本生成视频大模型-英文-通用领域-v1.0

baichuan_agent

生成扩散模型高效调优-Swift-Prompt

教育模型

轩辕

UniASR语音识别-中文-金融-8k-实时

PLUG通用问题生成模型-中文-27B

Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese

相似图像生成

根据输入图像，生成相似的图像

unidiffuser-v0

UniDiffuser是一个统一的diffusion框架，用于在一个转换器中拟合与有一组多模态数据相关的所有分布. UniDiffuser能够通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像文本对生成，而无需额外的开销.

DragGan

OFA数独解决方案-large

GridVLP多模态商品embedding-中文-电商领域-base

VoP: 通用跨模态视频检索模型-系列-proj

VoP的系列作品，一些可用于横向对比的模型。VoP主CARD见 https://modelscope.cn/models/damo/cv_vit-b32_retrieval_vop/summary

健康大师

基于第三方监督的词对齐工具-mBERT-base-中英方向

借助第三方词对齐工具在中英方向对mBERT-base模型进行微调，具备优秀的中英词对齐性能。

StructBERT预训练模型-中文-法律领域-lite

在StructBERT预训练模型的基础上，使用了多种类型的大量法律文本进行预训练得到，使用的语料包含了裁判文书、法律法规、庭审笔录、法律问答与法律百科。

Sunsimiao-01M-Chat

rwkv-4-pile-14b

PolyLM-智能服务-文本生成模型-多语言-13B

达摩院自研多语言文本生成模型，涵盖1.7B和13B两个版本，模型能够很好地处理英文、中文、西语、法语、德语、俄语、葡萄牙语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等。

PEER自然语言推理-英文-MNLI-base

The PEER method is proposed to extend the replaced token detection (RTD) pre-training task conducted in the ELECTRA model into a task of ranking input

Chinese-llama2-CLAM-7b

近日，为促进国产AI领域的发展，开放群岛开源社区宣布成立大模型SIG发起单位之一，北京晴数智慧科技有限公司Magic Data的发布了基于其自研数据集微调的语言模型Chinese-llama2-CLAM-7b项目。项目包含：1. 自研的中文 SFT 数据集 MagicData-CLAM 2. 使用该

MasaCtrl图像合成与编辑

一种用于非刚性一致图像合成与编辑的方法。关键思想是将源图像中的内容迁移到由文本或其他附加控制生成的布局上。

ERes2Net-Large语种识别-中英文识别-16k

ERes2Net-Large是基于卷积神经网络的说话人识别模型。相比于ERes2Net-Base，参数量更大，识别准确率更高。该模型使用开源数据集CN-Celeb和VoxCeleb训练，可用于语种识别、说话人确认、说话人日志、语音合成多项任务。

StructBERT2.0预训练模型-中文-large

nlp_structbert2_fill-mask_chinese-large是由海量高质量中文训练的预训练模型。他是structbert1.0的升级版本。

BERT-语义说话人转换点预测-中文-说话人日志

StableSR图像超分辨率

XLM-R命名实体识别-越南语-电商领域(搜索query)-base

XLM-R命名实体识别-越南语-电商领域(搜索query)-base是基于18K电商领域搜索query数据训练得到的越南语命名实体识别模型，可根据用户输入的泰语搜索query文本产出命名实体识别结果。

花朵分类

StructBERT情绪分类-中文-七分类-large

KANTTS语音合成前端

KANTTS语音合成前端框架ttsfrd依赖的模型，暂仅支持Linux X86_64环境

VoP: 通用跨模态视频检索模型-系列-partial

VoP的系列作品，一些可用于横向对比的模型。VoP主CARD见 https://modelscope.cn/models/damo/cv_vit-b32_retrieval_vop/summary

基于向量量化的神经辐射场压缩

当前主流的可实时推理的NeRF方法，如Plenoxel、Dvgo存在模型存储消耗巨大的问题，一个模型需要上百兆，不利于NeRF渲染方案的实用化。本项目使用了向量量化技术对NeRF模型进行了压缩，大大减小了模型大小，同时保持了较好的重建效果。

MiVOS-STCN视频目标分割

BAT语音识别-中文-aishell1-16k-离线

闻仲-GPT2-3.5B

善于处理NLG任务，目前最大的，中文版的GPT2

CoROM语义相关性-英文-通用领域-tiny

基于CoROM-Base预训练模型的通用领域英文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

UniASR语音识别-波斯语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法

ViDT人脸检测模型

基于ViDT算法（swin-transformer-tiny）的人脸检测模型，支持对人脸的检测。输入一张图片，返回人脸所在的位置。

二郎神-TCBert-110M-Sentence-Embedding-中文

110M参数的句子表征Topic Classification BERT (TCBert)。

StructBERT完形填空模型-英文-large

nlp_structbert_fill-mask_english-large 是bookcorpus/wikipedia训练的自然语言理解预训练模型。

4K 超高清 NeRF 重建算法

现有各类 NeRF 方法主要针对低分辨率场景（<=1K）设计，在更高分辨率的场景上就会出现渲染模糊，细节丢失，推理速度缓慢等问题。4K-NeRF 是针对超高分辨率（4K）场景设计的，在超高分辨率上可以取得相比现有方法明显的效果提升。

NFL Health & Safety - Helmet Assignment 头盔检测

NFL Health & Safety - Helmet Assignment 是Kaggle上的热门竞赛，以其高额奖金和极富挑战的任务设置吸引了许多强劲队伍参赛。这里我们提供基于DAMO-YOLO-S的NFL头盔检测。

人像生成模型plus

输出中近距离的人像照片；微调自Stable Diffusion

XLM-R命名实体识别-泰语-电商领域(搜索query)-base

XLM-R命名实体识别-泰语-电商领域(搜索query)-base是基于18K电商领域搜索query数据训练得到的泰语命名实体识别模型，可根据用户输入的泰语搜索query文本产出命名实体识别结果。

XLM-R命名实体识别-印尼语-电商领域(搜索query)-base

XLM-R命名实体识别-印尼语-电商领域(搜索query)-base是基于18K电商领域搜索query数据训练得到的印尼语命名实体识别模型，可根据用户输入的印尼语搜索query文本产出命名实体识别结果。

翻译自动译后编辑-英德

达摩院自动译后编辑模型，可对机翻结果进行进一步译后编辑，获取更好的翻译结果。

dolly-v2-7b

Bloom预训练生成模型-中文-800m

800m参数量的中文Bloom预训练生成模型

openbuddy-llama-65b-v8-bf16

StructBERT预训练模型-中文-lite

nlp_structbert_backbone_lite_std是由海量高质量中文训练的预训练模型

RoBERTa预训练模型-中文-base

基于RoBERTa的中文Base预训练模型

UniASR语音识别-土耳其语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

XLM-R分词-越南语-通用领域-base

XLM-R分词-越南语-通用领域-base是基于VLSP数据训练得到的越南语分词模型，可根据用户输入的越南语文本产出分词结果。

FastTex文本文风分类-英文-四类文风

用于英文句子的文风判别，支持新闻/口语/科技/电商四类文风的分类。

DamoFD人脸检测关键点模型-2.5G

给定一张图片，返回图片中人脸区域的位置和五点关键点。针对如何设计可以预测stage-level表征能力的精度预测器，DamoFD从刻画network expressivity的角度出发，提出了SAR-score来无偏的刻画stage-wise network expressivity，进而Auto搜

OFASys多模态多任务预训练模型-英文-通用领域-base

OFASys 是一个多模态多任务学习系统，旨在使多模态任务具有声明性、模块化和任务可扩展性。使用 OFASys，可以轻松地：1.通过定义声明性单行指令快速引入新的多模式任务/数据集；2.开发新的或重用现有的模态特定组件；3.联合训练多个多模态任务，无需手动处理多模态数据整理。

DeBERTaV2完形填空模型-中文-base

MindChat-Qwen-7B

MGIMN FAQ问答-中文-政务领域-base

政务领域MGIMN FAQ问答模型以MGIMN FAQ问答-中文-通用领域-base模型为基础，在政务领域数据上微调得到，适用于政务领域FAQ问答任务，包括但不局限于社保、公积金等场景；MGIMN系列模型相对于StructBERT FAQ系列模型效果更优；

语音合成-法语-通用领域-16k-发音人clara

法语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

智析

KnowLLM系列之智析抽取大模型(DeepKE-LLM)

基于扩散模型的文生图-360全景图生成模型

该模型为文本生成360度全景图像模型，输入描述文本，实现端到端360度全景图生成。

点云Scene Flow预测

在点云Scene Flow的预测的任务上，采用递归神经网络和attention机制来迭代求解每次flow的增量，在FlyingThings3D仿真数据集上进行训练，可以用于点云的配准等任务中。

多风格生成扩散模型 Nitro Diffusion

视频实例分割-VideoKNet-SwinB

Bloom预训练生成模型-中文-2.5B

2.5B参数量的中文Bloom预训练生成模型

stable-diffusion-GhostMix-V1-2-fp16-pruned

StructBERT情绪分类-中文-七分类-tiny

PALM 2.0会议子标题生成-中文-base-ICASSP2023-MUG-Track3

达摩PALM 2.0中文会议子标题生成base模型，ICASSP2023-MUG-Track3 Topic Title Generation (TTG)的基线模型

RoBERTa预训练模型-中文-large

基于RoBERTa的中文Large预训练模型

bloomz-7b1-mt

XLM-R命名实体识别-泰语-电商领域(商品标题)-base

XLM-R命名实体识别-泰语-电商领域(商品标题)-base是基于20K电商领域商品标题数据训练得到的泰语命名实体识别模型，可根据用户输入的泰语商品标题文本产出命名实体识别结果。

GridVLP多模态类目预测-中文-电商领域-large

孟子BERT预训练模型-中文-金融领域-base

基于语言学信息融入和训练加速等方法，我们研发了Mengzi 系列模型。这个模型页面提供了孟子金融行业中文BERT预训练模型，可以用于金融场景的下游任务。

RLEG生成式多模态表征模型-英文-large

RLEG (Representation Learning with Embedding Generation) 多模态表征模型将生成模型与表征学习结合在一起，利用预训练的Diffusion生成模型，在特征空间在线生成更多的图文特征样本，指导和增强表征学习过程。

vintedois-diffusion-v0-1

无需复杂繁长的prompt即可生成高质量图像

OFA预训练模型-英文-通用领域-medium

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

闻仲-GPT2-110M-中文-v2

中文版GPT2-base

ViT图像分类-中文-日常物品-花朵分类

zeroscope_v2_xl高清文生视频

zeroscope_v2_xl是基于modelscope text-to-video模型使用9,923个视频和29,769标注帧微调得到，能够消除原模型中的水印现象，配合zeroscope_v2_576w版本能生成1024x576的高分辨率视频。单独使用该模型可能存在效果不稳定现象。

DeepLPF图像调色

语音合成-菲律宾语-通用领域-16k-发音人tala

菲律宾语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk

Bloom预训练生成模型-中文-1.4B

1.4B参数量的中文Bloom预训练生成模型

基于语义关联关键点的虚拟试衣

PolyLM-指令精调-文本生成模型-多语言-13B

达摩院自研多语言文本生成模型，涵盖1.7B和13B两个版本，模型能够很好地处理英文、中文、西语、法语、德语、俄语、葡萄牙语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等。

生成扩散模型高效调优-Swift-Adapter

git 上传模型

模型描述，展示在哪里，多少字要求

燃灯-T5-784M-多任务-中文

在Randeng-T5-784M的基础上，收集了100个左右的中文数据集，进行Text2Text统一范式的有监督任务预训练。本模型在中文zero-shot榜单ZeroClue上取得了第三名（不包括人类）的成绩，在所有基于T5（encoder-decoder架构）的模型中排名第一。

Taiyi-CLIP-Roberta-large-326M-Chinese

blip2-opt-2.7b图片描述大模型

text2vec-base-chinese

mPLUG预训练模型-英文-base

mPLUG英文Base预训练模型

StructBERT预训练模型-中文-医疗领域-base

医疗StructBERT预训练模型

Realistic_Vision_V4.0

ProST: 视频文本通用检索模型

rwkv-4-music

基于循环动态编码的视频目标分割

给定一个视频帧序列，和视频第一帧中想要分割的不同物体的掩码(mask)，模型会预测视频后续帧中对应物体的掩码(mask)

VoP: 通用跨模态视频检索模型-系列-bias

VoP的系列作品，一些可用于横向对比的模型。VoP主CARD见 https://modelscope.cn/models/damo/cv_vit-b32_retrieval_vop/summary

OFA预训练模型-英文-通用领域-huge

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

OFA预训练模型-英文-通用领域-large

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

Adaptive-Interval-3DLUT图像调色

FastTex文本文风分类-中文-四类文风

用于中文句子的文风判别，支持新闻/口语/科技/电商四类文风的分类。

StructBERT-mental预训练模型-中文-base

StructBERT-mental的中文Base预训练模型是在StructBert的基础上使用Adapter的方式融合心理以及情感相关知识的中文自然语言理解预训练模型

Bloom预训练生成模型-中文-389m

389m参数量的中文Bloom预训练生成模型

minigpt-4-13B量化后模型

test

PoNet预训练模型-英文-base

nlp_ponet_fill-mask_english-base是用bookcorpus/wikitext训练的预训练PoNet模型。

StructBERT预训练模型-中文-法律领域-tiny

在StructBERT预训练模型的基础上，使用了多种类型的大量法律文本进行预训练得到，使用的语料包含了裁判文书、法律法规、庭审笔录、法律问答与法律百科。

XLM-R命名实体识别-英语-电商领域(搜索query)-base

XLM-R命名实体识别-英语-电商领域(搜索query)-base是基于18K电商领域搜索query数据训练得到的英语命名实体识别模型，可根据用户输入的英语搜索query文本产出命名实体识别结果。

ONE-PEACE-通用表征模型-英文-4B

ONE-PEACE是一个4B规模的图文音通用表征模型，可以产出图文音通用表征，实现三个模态的互相检索

基础视觉模型高效调优-SMP

孟子BERT预训练模型-中文-base

基于300G中文语料库的BERT模型。使用了Masked language modeling(MLM), part-of-speech(POS) tagging and sentence order prediction(SOP) 作为训练任务

MindChat-Baichuan-13B

视频全景分割-VideoKNet-SwinB

基于Video-K-Net架构，SwinB作为backbone的视频全景分割模型。

moss-moon-003-sft-plugin

生成扩散模型高效调优-Swift-LoRA

multi-modal_efficient-diffusion-tuning-swift-lora

全景图室内框架估计

基于单张全景图估计房间的三维框架是实现基于图像的场景三维重建任务的关键技术之一。提出PanoViT，一种用于从单张全景图像估计房间布局的视觉自注意力模型。与 CNN 模型相比，PanoViT更擅长学习全景图像中的全局关系，以更好估计复杂的房间框架结构。

OFA预训练模型-中文-通用领域-large

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

GridVLP多模态类目预测-中文-电商领域-base

二次元女性角色生成器 waifu-diffusion v1.4

OFA文生SQL-英文-通用领域-large

CodeGeeX-代码翻译-13B

CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型，在20多种编程语言的代码语料库（>8500亿Token）上经过历时两个月预训练得到。CodeGeeX采用华为MindSpore框架实现，在鹏城实验室的“鹏城云脑ll”平台上训练而成。

SA-ASR说话人相关语音识别-中文-AliMeeting-16k-离线

BiLLa-7B-SFT

PoNet文档主题分割-英文-通用领域

文档主题分割是指将文档分割成一系列连续的、主题一致的片段。近些年涌现出一些基于深度学习的主题分割算法，通过将主题分割定义为句子级别的二分类任务，使用BERT等预训练语言模型在领域内数据微调，取得了很好的效果。但BERT等预训练语言模型的时间复杂度是O(n^2)，随着输入序列长度的增加，模型会面临推理

基于视觉和语言的知识蒸馏的开放词汇目标检测

利用视觉和语言的知识蒸馏提取来学习开放词汇目标检测，提出了一种从开放词汇图像分类模型中知识蒸馏的开放词汇检测方法ViLD，ViLD是第一个在具有挑战性的LVIS数据集上评估的开放式词汇检测方法。在lvis数据集的测试效果中达到16.1 APr，在相同的推理速度下超过了其他监督模型。

cv_quadtree_attention_image-matching_outdoor

MaSTS预训练模型-中文-搜索-CLUE语义匹配-large

基于MaSTS预训练模型在QBQTC数据集上训练得到MaSTS中文文本相似度-CLUE语义匹配模型。集成在QBQTC数据集上训练得到的相似度匹配模型，在CLUE语义匹配榜上获得了第一名的成绩。

CAM++语种识别-中英文识别-16k

基于cam++的语种识别模型，支持中英文识别，输入音频，输出相应的语种标签。可用于多语种的ASR、TTS等多种任务。

MiniGpt-4-7B量化后模型

动漫图像扩散生成模型 EimisAnimeDiffusion

moss-moon-003-sft

生成扩散模型高效调优-Swift-ResTuning

StructBERT会议行动项抽取-中文-base-ICASSP2023-MUG-Track5

ICASSP2023-MUG-Track5，会议行动项抽取基线模型

BERT预训练模型-中文-base

基于BERT的中文Base预训练模型

SOONet: 基于自然语言输入的长视频片段时序定位模型

SOONet是一种给定自然语言输入条件下，快速定位长视频片段的算法。模型基于CLIP对视频和文本提取特征，并通过先粗排序后精排序两段式逻辑快速定位目标片段，在效果和效率上都有不错的表现。

CT-Transformer标点-中英文-通用-large

内容审核模型-鉴黄

SPACE对话状态追踪-英文-base

该模型是 SPACE 基于一个对话状态跟踪数据集 MultiWOZ2.2 微调后的下游模型，称作 space_dialog-state-tracking，可专门用来做旅游、餐馆等领域的对话状态跟踪任务。

Paraformer语音识别-中文-金融-8k-离线-large

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

M3E Models

M3E 是 Moka Massive Mixed Embedding 的缩写此模型由 MokaAI 训练，开源和评测，训练脚本使用 uniem ，评测 BenchMark 使用 MTEB-zh Massive，此模型通过千万级 (2200w+) 的中文句对数据集进行训Mixed，此模型支持中英双语的

多尺度局部平面引导的单目深度估计

IDEA-GroundingDINO模型

StructBERT预训练模型-中文-法律领域-base

在StructBERT预训练模型的基础上，使用了多种类型的大量法律文本进行预训练得到，使用的语料包含了裁判文书、法律法规、庭审笔录、法律问答与法律百科。

循环神经优化器-视频流深度和相机轨迹估计

我们提出zero-order的循环神经网络优化器（DRO）, 不需要求解梯度, 直接利用神经网络来预测下次更新的方向和步长。将优化目标cost，放入到神经网络中，每次迭代都会参考之前尝试的历史信息，从而给出更加精准的预测。也就是说，如果错误的预测值，就会使得cost变大，正确的预测值会使得cost变

mGLM多语言大模型-生成式摘要-英文

mGLM多语言大模型可从大段文本中提取关键信息，为你生成简短的英文摘要，支持多种语言输入

卡通系列文生图模型-扁平风

CodeGeeX-代码生成-13B

支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码，在HumanEval-X代码生成任务上取得47%~60%求解率，较其他开源基线模型有更佳的平均性能。

一种具有自我评估能力的机器翻译-中英-通用领域-large

ViM视觉中间件-通用领域-Base

基于一系列中游任务（分类/检测/分割）等训练的基础模型中间件，能够将单一模型快速适配至多种任务。

卡通系列文生图模型-水彩风

OFA图像描述-英文-通用领域-6B

根据用户输入的任意图片，AI智能创作模型写出“一句话描述”，可用于图像标签和图像简介。

GLIGEN文生图模型

GLIGEN: Open-Set Grounded Text-to-Image Generatio，位置可控的文生图模型

燃灯-T5-784M-问答-中文

首个中文的生成式问答模型。它基于T5-Large结构，使用悟道180G语料在封神框架进行预训练，在翻译的中文SQuAD和CMRC2018两个阅读理解数据集上进行微调。输入一篇文章和一个问题，可以生成准确流畅的回答。

DamoFD人脸检测关键点模型-10G

给定一张图片，返回图片中人脸区域的位置和五点关键点。针对如何设计可以预测stage-level表征能力的精度预测器，DamoFD从刻画network expressivity的角度出发，提出了SAR-score来无偏的刻画stage-wise network expressivity，进而Auto搜

ECAPATDNN说话人确认-英文-VoxCeleb-16k

ECAPA TDNN模型是说话人识别领域的常用模型之一，该模型在公开数据集VoxCeleb2上进行训练，VoxCeleb-O上的EER指标为0.862。该模型适用于16k英文测试数据，可以用于说话人确认、说话人日志等任务。

BERT完形填空模型-中文-base

nlp_bert_fill-mask_chinese-base 是wikipedia_zh/baike/news训练的自然语言理解预训练模型。

生成扩散模型高效调优-ControlLora

盘古α 2.6B

「鹏程·盘古α」由以鹏城实验室为首的技术团队联合攻关，实现在2048卡算力集群上的大规模分布式训练，训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。

DamoFD人脸检测关键点模型-34G

给定一张图片，返回图片中人脸区域的位置和五点关键点。针对如何设计可以预测stage-level表征能力的精度预测器，DamoFD从刻画network expressivity的角度出发，提出了SAR-score来无偏的刻画stage-wise network expressivity，进而Auto搜

MGIMN FAQ问答-中文-金融领域-base

金融领域MGIMN FAQ问答模型以MGIMN FAQ问答-中文-通用领域-base模型为基础，在金融领域数据上微调得到，适用于金融领域FAQ问答任务，包括但不局限于：银行、保险等场景；MGIMN系列模型相对于StructBERT FAQ系列模型效果更优；

FAQ问答-多语言-通用领域-base

多语言FAQ问答模型基于多语言预训练模型为底座，设计FAQ原型网络，并通过百万级多语言问答数据进行微调，支持英、俄、西、法、阿、越南、泰语、粤语等语言的排序任务，对输入的用户问题和候选集，进行知识粒度的排序和定位。

QEMind翻译质量评估-多语言-通用领域

对翻译质量进行打分评估的模型，支持多个语向，获WMT 2021世界机器翻译大赛质量评估DA子任务冠军

统一的翻译质量评价模型-多语言-新闻领域-base

Kendall's Tau on WMT'19 Metrics Shared Task dataset

nlp_veco_fill-mask-large是CommonCrawl Corpus训练的自然语言理解多语言预训练模型。

DeBERTaV2完形填空模型-中文-lite

中文DeBERTa V2 lite模型

Paraformer语音识别-中文-音视频-16k-离线-large

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

Uni-Fold-Multimer 开源的蛋白质复合物结构预测模型

一个开源的蛋白质复合物结构预测模型。

StructBERT预训练模型-中文-large

nlp_structbert_backbone_large_std是由海量高质量中文训练的预训练模型

CMD视频表征模型

一种自监督视频表征学习方案，通过在代理任务中显式地解耦场景与运动信息（context and motion decoupling），强制视频模型同时捕捉静态背景与动态行为两方面特征。

OFA图像语义蕴含-英文-通用领域-large

图文蕴含任务：给定图片和文本a（对图片的陈述），文本b（可选），判断文本c是否成立。

二次元风格生成扩散模型-anything-v4.0

为日本动漫爱好者设计的latent diffusion模型。

胶片质感扩散生成模型

输出胶片摄影质感的图像；微调自Stable Diffusion

卡通系列文生图模型-漫画风

口罩人脸识别模型FRFM-large

CSANMT连续语义增强机器翻译-俄英-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

HDFormer人体关键点-通用领域-3D

输入一段单人视频，实现端到端的3D人体关键点检测，输出视频中每一帧的3D人体关键点坐标。

chatglm2-6b-int4

逆境清醒_人像卡通化模型-白化手绘效果test

逆境清醒_人像卡通化模型-白化手绘效果----有错在调试

openjourney

CLIP Interrogator图像描述生成

花朵分类-14

模型推理已经跑通了，正在搞在线体验demo，可分类14种花朵，支持识别以下花朵类型：康乃馨、鸢尾花、风铃草、金英花、玫瑰、落新妇、郁金香、金盏花、蒲公英、金鸡菊、黑眼菊、睡莲、向日葵、雏菊。

Uni-Fold-Monomer 开源的蛋白质单体结构预测模型

开源的蛋白质单体结构预测模型，输入蛋白质单体的一级结构（1D序列），预测蛋白质的三级结构（3D位置），同时给出预测结果的置信度。本模型主要用于蛋白质单体的预测。

使用300G Chinese corpus语料进行训练的中文GPT-Neo模型

Beautiful-Realistic-Asians-v5

PAI中文Diffusion模型-艺术

无人机小目标检测-VisDrone

VisDrone数据集是一个极具挑战的小目标检测数据集，在此，我们提供DAMO-YOLO-S的VisDrone检测模型。

mPLUG图文检索模型-英文-large

达摩MPLUG英文图文检索large模型

StructBERT完形填空模型-中文-large

nlp_structbert_fill-mask_chinese-large是海量中文数据训练的自然语言理解预训练模型。

OFA视觉语义蕴含-英文-通用领域-蒸馏33M

视觉蕴含任务：给定一个图像作为前提，一个自然语言句子作为假设，要求模型正确分配图像和文本三个标签（蕴含、中性和矛盾）。

OFA文本摘要-英文-数据集gigaword-large

gigaword摘要任务：给定长文本，输出文本摘要。

直播商品类目识别模型-中文-电商领域

本模型采用ResNet-50网络结构，对直播视频进行商品类目识别，输入视频片段，输出直播商品类目标签，目前已经覆盖了8K多类的细粒度的商品类别。

级联结构的多视图深度估计

提出了一种节省显存和同时提升精度的cascaded cost volume。多阶段的预测方式，通过前一阶段预测的深度值来缩小当前阶段的采样深度范围，能够建立离散采样值更少的cost volume，从而达到节省显存的目的。通过这种方式，可以建立空间分辨率更高的cost volume，恢复出高分辨的

分层一致性的长视频表征-通用领域

HiCo是一种基于对比学习的的视频自监督预训练方案。应用于视频的标准对比学习框架基于时序一致性假设，即认为来自同一个视频不同时间的片段应共享相同的视觉特征，该假设使得标准对比学习仅能从经过裁剪的短视频中学习到可用视频表征，HiCo可以利用长、未裁剪的视频中天然存在的、丰富的时序信息来学习视频表征。

openbuddy-llama2-13b-v8.1-fp16

OpenBuddy-LLaMA2-13B模型，一个基于Facebook的LLaMA2基座的全新跨语言对话模型。

small-stable-diffusion-v0

NeRF快速三维重建模型

输入一段环绕物体一周的视频，基于隐式神经辐射场（NeRF），对该物体进行快速3d重建渲染。

XLM-R命名实体识别-英语-电商领域(商品标题)-base

XLM-R命名实体识别-英语-电商领域(商品标题)-base是基于20K电商领域商品标题数据训练得到的英语命名实体识别模型，可根据用户输入的英语商品标题文本产出命名实体识别结果。

DEPE-3D目标检测-自动驾驶领域

DEPE是基于Transformer的纯视觉3D目标检测模型，在PETRV2基础上，使用LiDAR点云监督depth训练并提升3DPE的准确度，推理阶段只依赖视觉信息，相比原PETRv2方法在nuScenes-val上有0.52%的提升。

语音合成-中文-通用领域-16k-发音人aixiang

中文语音合成男声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

MAN图像质量评估

图像质量评估MAN模型

OFA表情包文本生成器

OFA预训练模型-英文-通用领域-base

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

PAI中文Diffusion模型-艺术-更高分辨率

DCT-Net人像卡通化模型-原神风

该任务采用一种全新的域校准图像翻译模型DCT-Net（Domain-Calibrated Translation），利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像风格转换模型，并通过端到端推理快速得到风格转换结果。

读光-文字识别-轻量化端侧识别模型-中英-通用领域

运动生成-人体运动-英文

根据文本描述，生成对应的人体运动数据

visualglm-6b

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

二郎神-RoBERTa-330M-文本相似度

XLM-R命名实体识别-越南语-电商领域(商品标题)-base

XLM-R命名实体识别-越南语-电商领域(商品标题)-base是基于20K电商领域商品标题数据训练得到的越南语命名实体识别模型，可根据用户输入的越南语商品标题文本产出命名实体识别结果。

迪士尼风格扩散生成模型

在迪士尼动画电影截图上finetune的Stable Diffusion模型

codegeex2-6b

CodeGeeX2 是多语言代码生成模型 CodeGeeX (KDD’23) 的第二代模型。CodeGeeX2 基于 ChatGLM2 架构加入代码预训练实现，得益于 ChatGLM2 的更优性能，CodeGeeX2 在多项指标上取得性能提升（+107% > CodeGeeX；仅60亿参数即超过15

defrcn少样本目标检测

HiTransUSE用户满意度估计-中文-电商-base

支持对话级的用户满意度分析，输出（不满意，中立，满意）三种标签

VideoComposer

BERT零样本分类-英文-base-学术数据集mnli

该模型使用bert-base-uncased在multi_nli数据集(将英文数据集重新翻译得到中文数据集)上面进行了训练得到。

XLM-R分词-泰语-通用领域-base

XLM-R分词-泰语-通用领域-base是基于BEST-2010数据训练得到的泰语分词模型，可根据用户输入的泰语文本产出分词结果。

通义-文本生成图像大模型-中英文-通用领域

本模型基于多阶段文本到图像生成扩散模型，输入描述文本，返回符合文本描述的2D图像。整体模型参数约50亿，支持中英双语输入，通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。

OFA自然语言推理模型-英文-数据集MNLI-large

给定一个前提句和一个假设句，任务是预测前提是否包含假设（蕴含），与假设相矛盾（矛盾），或者两者都不包含（中性）。

IR人脸识别模型FRIR

OFA预训练模型-英文-通用领域-tiny

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

人脸活体检测模型-IR

StructBERT FAQ问答-中文-政务领域-base

政务领域FAQ问答模型以StructBERT FAQ问答-中文-通用领域-base模型为基础，在政务领域数据上微调得到，适用于政务领域FAQ问答任务，包括但不局限于社保、公积金等场景；

EEND-OLA说话人日志-英文-Callhome-8k-离线

RWKV-4-Raven-7B

RWKV-4-Raven-7B 模型

Bert实体相关性-中文-通用领域-base

输入带实体标记的句子A，以及一个候选句子列表，模型输出句子A中的实体与列表中每个候选句子的相关性得分（0-1，分数越高代表两者越相关），

XLM-R命名实体识别-印尼语-电商领域(商品标题)-base

XLM-R命名实体识别-印尼语-电商领域(商品标题)-base是基于20K电商领域商品标题数据训练得到的印尼语命名实体识别模型，可根据用户输入的印尼语商品标题文本产出命名实体识别结果。

groundedSam分割模型

NestedNER命名实体识别-中文-医疗领域-base

chatglm2-6b-32k

ChatGLM2-6B-32K在ChatGLM2-6B的基础上进一步强化了对于长文本的理解能力，能够更好的处理最多32K长度的上下文。

实时烟火检测-通用

本模型为高性能热门应用系列检测模型中的实时烟火检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有烟火的坐标信息。

Bert实体向量-中文-通用领域-base

Video_Colorization_CodeBase_CVPR23_NTIRE

UniASR语音识别-中文-音视频-16k-实时

语音合成-中文-通用领域-16k-发音人zhiyuan

中文普通话语音合成文学场景女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和

卡通系列文生图模型

语种识别-通用领域-base

语种识别（又称为语言识别）是指利用计算机自动判断文本所属语言种类的过程。据统计，全世界已查明的语言数量为7099种，而中国的56个民族就有80多种彼此不能通话的语言和地区方言。随着全球国际化和互联网化的逐步加深，多语言数据混杂混用的现象愈发严重，这对语种识别技术也提出了更高的要求和挑战。该模型基于注

UniASR语音识别-法语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-德语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

cv_manual_uav-detection_uav

The UAV is a baseline model for CVPR23 Anti_UAV workshop, which encourages participants to develop automated methods that can detect and track UAVs

damodayin/ner-2-prod

语音合成-中文-通用领域-16k-发音人zhigui

中文普通话语音合成直播领域亲切女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生

视频编辑-通用领域

视频inpainting模型，输入视频和mask，可实现对指定帧范围内的video inpainting

BERT文本相似度-英文-base-学术数据集paws

该模型是在bert-base-uncased预训练模型的基础上，用paws数据集训练出来的文本相似度匹配模型。

text2vec-large-chinese

GLM130B-中英大模型

模型集成中

ECBSR端上图像超分模型

ECBSR模型基于Edgeoriented Convolution Block (ECB)模块构建，完整模型可导出为简洁的CNN网络结构，适用于移动端、嵌入式等严格限制算力的场景。

PoNet抽取式篇章摘要模型-中文-base-ICASSP2023-MUG-Track2

该模型基于PoNet模型架构，在AliMeeting4MUG Corpus训练，进行抽取式篇章摘要任务。

GPT-MoE中文67亿诗歌生成模型

GPT模型能较好的处理NLP各个应用领域的任务，比如文本分类，推理，对话，问答，完形填空，阅读理解，摘要，生成等等。百亿/千亿参数量级的GPT大模型作用在这些应用领域虽然效果很好，但是训练成本非常高。以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估需要34天，一万亿参

单图人体重建模型

输入一张单人图像，生成对应人像的3Dmesh并返回对应信息。

读光-文档理解-文档理解多模态预训练模型

视频文本表征模型-英文-通用领域

该模型是在10亿公开英文图文数据训练的多模态模型。视觉encoder采用vit-large结构，文本encoder采用bert-base结构。模型在视频文本检索等数据集上进行了zero-shot和finetune效果测试，能够在msrvtt上达到sota结果。

Data2vec语音识别-预训练-paraformer-中文-aishell2-16k

近年来，随着预训练的流行，许多研究致力于利用预训练的方式来充分利用大量的无监督数据，帮助提升在有监督语音数据有限情况下的语音识别的性能。wav2vec，HuBERT，WavLM等方法，都通过无监督预训练的方式在语音识别任务上取得了不错的识别率。2022年，Meta AI在ICML上提出了data2v

UniASR语音识别-葡萄牙语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-越南语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

ERes2Net-Large说话人确认-中文-3D-Speaker-16k

ERes2Net-Large是基于卷积神经网络的说话人识别模型。相比于ERes2Net-Base，参数量更大，识别准确率更高。该模型使用开源数据集3D-Speaker训练，可以用于说话人确认、说话人日志、语音合成多项任务。

Conformer语音识别-英文-16k-离线-large-pytorch

Conformer模型通过在self-attenion基础上叠加卷积模块来加强模型的局部信息建模能力，进一步提升了模型的效果。Conformer已经在AISHELL-1、AISHELL-2、LibriSpeech等多个开源数据上取得SOTA结果。

StructBERT FAQ问答-中文-金融领域-base

金融领域FAQ问答模型以StructBERT FAQ问答-中文-通用领域-base模型为基础，在金融领域数据上微调得到，适用于金融领域FAQ问答任务，包括但不局限于：银行、保险等场景；

ChatFlow-7B

StructBERT自然语言推理-中文-通用-large

StructBERT自然语言推理-中文-通用-large是在structbert-large-chinese预训练模型的基础上，用CMNLI、OCNLI两个数据集（45.8w条数据）训练出来的自然语言推理模型。

stable-diffusion-v1.5

stable-diffusion-v1.5-no-safetensor

ChatPLUG-开放域对话模型-240M

读光-文字检测-单词检测模型-英文-VLPT预训练

给定一张图片，检测出图内文字并给出多边形包围框。检测模型使用DB，backbone初始化参数基于多模态交互预训练方法VLPT。

视频多目标跟踪-行人

该模型采用基于FairMOT的方案，输入待跟踪视频，可端对端推理得到视频中的所有行人的运动轨迹。

语音合成-中文-直播领域-16k-发音人zhimao

中文普通话语音合成直播活力女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和

人脸活体检测模型-RGB

针对长尾/小目标问题的高性能通用目标检测

ResNet50行人结构化属性识别模型

检测图片中人体的属性，具体功能包括人体检测以及属性预估。属性包括：性别、年龄、朝向、帽子、眼镜、手提包、背包、肩挎包、上衣种类、上衣颜色、下衣种类、下衣颜色。

ViDT标识检测模型

基于ViDT算法（swin-transformer-tiny）的标识检测模型，支持对台标、车标、交通、品牌等常见标识的检测。输入一张图片，返回标识所在的位置。

GPT-3预训练生成模型-中文-30B

语音合成-中文-直播领域-16k-发音人zhisha

中文普通话语音合成直播知性女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和

MGIMN FAQ问答-中文-通用领域-base

MGIMN FAQ问答模型以StructBERT预训练模型为底座，采用多维度交互式匹配模型网络结构，通过小样本meta-learning的方式在海量业务数据预训练(亿级)、微调(百万级)得到，相对于StructBERT模型效果更优，适用于FAQ问答任务和通用小样本分类任务；

FastText文本领域分类-中文-国民经济行业18大类

用于中文的文本领域分类，分类依据为国民经济行业分类（GB/T 4754—2017），原分类标准有20大类，目前支持18个行业的分类：交通运输仓储邮政\住宿餐饮\信息软件\农业\制造业\卫生医疗\国际组织\建筑\房地产\政府组织\教育\文体娱乐\水利环境\电力燃气水生产\科学技术\租赁法律\采矿\金融

TAdaConv动作识别模型-英文-通用领域

TAdaConv是一种在动作识别模型中即插即用的时序自适应卷积（Temporally-Adaptive Convolutions）。可以明显提升SlowFast、R2D和R3D等模型性能。

SPACE-T表格问答预训练模型-英文-通用领域-Large

本项目是多轮Text-to-SQL模型，可针对不同领域数据库和用户直接进行多轮对话，生成相应的SQL查询语句。用户可以在对话过程中表达自己对数据库模式的查询要求，并在系统的帮助下生成符合要求的SQL查询语句。

商品图像同款特征

本模型是对商品图像进行表征向量提取，用户可基于表征向量进行大规模的同款/相似款商品搜索；无需额外输入，模型可自动进行箱包商品的主体抠图，并基于主体提取结果完成表征向量提取。

StructBert关键词抽取-中文-base-ICASSP2023-MUG-Track4

ICASSP2023 MUG Track4 关键词抽取Baseline

Mask2Former-ViTAdapter语义分割

该语义分割模型基于Mask2Former架构，ViTAdapter为backbone，训练数据库为COCO-Stuff164k。

卡通系列文生图模型-剪贴画

TEAM图文检索模型-中文-large

计算图像、文本数据的相似度，可用于图文检索任务。

语音合成-中文-通用领域-16k-发音人ainan

中文语音合成男声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

静默人脸活体检测模型-炫彩

StructBERT零样本分类-中文-tiny

该模型使用StructBERT-base在xnli_zh数据集(将英文数据集重新翻译得到中文数据集)上面进行了训练得到。

生成扩散模型高效调优-Lora

对Stable Diffusion模型进行高效调优。通过Lora-Tuner模块，在训练时只需训练少规模的参数，即可高效地定制专属于你的场景的"Stable Diffusion"模型！

UniASR语音识别-闽南语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法

DeOldify视频上色

DeOldify 是上色领域比较有名的开源算法，模型利用 ResNet 作为 encoder 构建一个 UNet 结构的网络，并提出了多个不同的训练版本，本模型是用于视频上色的版本。

DAFlow虚拟试衣模型-VITON数据

DAFlow是一种单阶段虚拟试衣框架，无需中间分割结果作为label，直接用模特上身图作为监督。同时本工作提出一种新的空间变换结构，在虚拟试衣和一些变换任务上达到SOTA.

RoBERTa关系抽取-中文-通用-base

百科关系抽取模型是在hfl/chinese-roberta-wwm-ext预训练模型的基础上，用duie数据集训练出来的关系抽取模型。

CSANMT连续语义增强机器翻译-西英-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

Regularized DINO说话人确认-中文-3D-Speaker-16k

Regularized DINO (RDINO) 是基于时延神经网络构建的自监督说话人模型，该模型使用开源数据集3D-Speaker训练，不使用任何说话人标签。适用于16k中文测试数据，可以用于说话人确认、说话人日志，语音合成等任务。

ERes2Net-Base说话人确认-中文-3D-Speaker-16k

ERes2Net-Base是基于卷积神经网络的说话人识别模型。相比于CAM++和ECAPA-TDNN，ERes2Net-Base具有更准确的识别率。该模型使用开源数据集3D-Speaker训练，可以用于说话人确认、说话人日志、语音合成多项任务。

Paraformer语音识别-英文-通用-16k-离线-large-pytorch

Paraformer英文16K通用离线模型

语音合成-中文-通用领域-16k-发音人zhiyue

中文普通话语音合成温柔女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和ch

stable-diffusion-v2-1

mywork

zjz_mj_jiyi_small_addtxt_fromleo

PoNet抽取式话题摘要模型-中文-base-ICASSP2023-MUG-Track2

该模型基于PoNet模型架构，在AliMeeting4MUG Corpus训练，进行抽取式话题摘要任务。

语音合成-中文-通用领域-16k-发音人zhiya

中文普通话语音合成16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

GPT-MoE中文130亿广告文案生成模型

GPT模型能较好的处理NLP各个应用领域的任务，比如文本分类，推理，对话，问答，完形填空，阅读理解，摘要，生成等等。百亿/千亿参数量级的GPT大模型作用在这些应用领域虽然效果很好，但是训练成本非常高。以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估需要34天，一万亿参

SPACE-D文档对话排序预训练模型-中英法越-通用领域-Large

预训练模型，支持中文、英语、法语、越南语等四种语言的文档对话排序

OFA预训练模型-中文-通用领域-base

OFA的预训练ckpt，能够在完全不改变模型结构的情况下进行下游任务的finetune，是finetune的基础ckpt。

PoNet文本话题分割模型-中文-base-ICASSP2023-MUG-Track1

该模型基于PoNet模型架构，在AliMeeting4MUG Corpus训练，对带段落的长文本进行中文话题分割。

读光-文字检测-轻量化端侧DBNet行检测模型-中英-通用领域

给定一张图片，检测出图中所含文字的外接框的端点的坐标值。

MAOE命名实体识别-中文-通用领域-base

MAOE（More thAn One Encoder）是一个集预训练模型和任务模型为一体的模型。

TransFace人脸识别模型

人脸识别模型TransFace

StructBERT预训练模型-中文-tiny

nlp_structbert_backbone_tiny_std是由海量高质量中文训练的预训练模型

PoNet预训练模型-中文-base

nlp_ponet_fill-mask_chinese-base是用中文wiki训练的预训练PoNet模型。

CLIP模型-中文-通用领域-large

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。视觉encoder采用vit结构，文本encoder采用roberta结构。模型在多个中文图文检索数据集上进行了效果测试。

语音合成-中文-通用领域-16k-发音人zhishuo

中文普通话语音合成通用领域自然男声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生

mPLUG-Owl-多模态对话-英文-7B

mPLUG-Owl是一种面向多模态语言模型的模块化的训练范式。其能学习与语言空间相适应的视觉知识，并支持在多模态场景(支持图片、文本输入)下进行多轮对话。它涌现多图关系理解，场景文本理解和基于视觉的文档理解等能力。

CSANMT连续语义增强机器翻译-法英-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

OFA文生图模型-英文-通用领域-large

文本到图像生成任务：输入一句英文描述文本，模型会返回一张符合文本描述的256*256分辨率图像。

ControlNet可控图像生成

输入一张图像，指定控制类别并提供期望生成图像的描述prompt，模型会根据输入图像抽取相应的控制信息并生成精美图像。

MTTR文本指导的视频目标分割-英文

人脸表情识别模型FER

给定一张带人脸的图片，返回图片中人脸的表情。目前支持7种表情：愤怒，厌恶，恐惧，快乐，悲伤，惊讶，中立。

CSANMT连续语义增强机器翻译-英俄-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

breakdomain-anime

SPACE-D文档对话生成预训练模型-中英法越-通用领域-Large

预训练模型，支持中文、英语、法语、越南语等四种语言的文档对话生成

stable-diffusion-v1-5

文本到图像生成扩散模型-中英文-通用领域-tiny

mGLM多语言大模型-生成式摘要-中文

mGLM多语言大模型可从大段文本中提取关键信息，为你生成简短的中文摘要，支持多种语言输入

Siamfc视频单目标跟踪-通用领域-S

StructBERT自然语言推理-中文-通用-base

StructBERT自然语言推理-中文-通用-base是在structbert-base-chinese预训练模型的基础上，用CMNLI、OCNLI两个数据集（45.8w条数据）训练出来的自然语言推理模型。

无人机检测模型-S

stable-diffusion-xl-base-1.0

Stability is proud to announce the release of SDXL 1.0; the highly-anticipated model in its image-generation series! This is a model that can be used

给定一张原图和对应的mask区域，将给定的参考图自适应地替换上去

DCT-Net人像卡通化-王者荣耀英雄

PALM 2.0预训练生成模型-中文-base

达摩PALM 2.0中文Base预训练模型

SPACE-D文档对话检索预训练模型-中英法越-通用领域-Large

预训练模型，支持中文、英语、法语、越南语等四种语言的文档对话检索

UniASR语音识别-波斯语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-乌尔都语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

基础视觉模型高效调优-BitFit

DAMOYOLO-高性能通用检测模型-T

DAMOYOLO是一款面向工业落地的高性能检测框架，精度和速度超越当前的一众典型YOLO框架（YOLOE、YOLOv6、YOLOv7）。基于TinyNAS技术，DAMOYOLO能够针对不同的硬件算力，进行低成本的模型定制化搜索。这里仅提供DAMOYOLO-T模型，更多模型请参考README。

野生动物检测

DINO-高精度目标检测模型

本模型是DINO高精度目标检测模型，采用SwinL主干网络，在COCO验证集精度可达63.39%。

UniASR语音识别-缅甸语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

MGeo多任务多模态地址预训练底座-中文-base

MGeo是适用于多种地址任务的预训练底座模型，该模型基于地图-文本多模态架构，使用多任务预训练（MOMETAS）技术融合了注意力对抗预训练（ASA）、句子对预训练（MaSTS）、多模态预训练，训练得到适合于多类地址任务的预训练底座，能够下游广泛的地址处理任务带来性能提升。

UniASR语音识别-法语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

StructBERT文本相似度-中文-通用-tiny

StructBERT文本相似度-中文-通用-tiny是在structbert-tiny-chinese预训练模型的基础上，用atec、bq_corpus、chineseSTS、lcqmc、paws-x-zh五个数据集（52.5w条数据，正负比例0.48:0.52）训练出来的相似度匹配模型

UniASR语音识别-希伯来语-通用-16k

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

Paraformer语音识别-中文-aishell2-16k-离线-large-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

mPLUG-HiTeA-视频问答模型-英文-Base

根据用户上传的视频以及给定的问题，通过视频中的信息进行推断，从而给出答案。

语音合成-意大利语-通用领域-16k-发音人perla

意大利语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT，将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk

视频去场纹

视频去场纹，相比较于yadif、DIN等SOTA方法，对于大运动和低画质场景下的场纹有较好的场纹去除能力

太乙-Stable-Diffusion-1B-中英双语-v0.1

首个开源的中英双语Stable Diffusion模型，基于0.2亿筛选过的中文图文对训练。

UniASR语音识别-波斯语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-葡萄牙语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

CLIP模型-中文-通用领域-huge

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。视觉encoder采用vit结构，文本encoder采用roberta结构。模型在多个中文图文检索数据集上进行了效果测试。

语音合成-西班牙语-通用领域-16k-发音人camila

西班牙语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT，将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk

ArcFace人脸识别模型

输入一张图片，检测矫正人脸区域后提取特征，两个人脸特征可用于人脸比对，多个人脸特征可用于人脸检索。

Paraformer语音识别-中文-aishell1-16k-离线-large-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

SOND说话人日志-中文-alimeeting-16k-离线-pytorch

基于Speaker Overlap-aware Neural Diarization的说话人日志模型，在AliMeeting数据集上获得良好的效果，能够识别追踪多个说话人。

Llama-2-13b-chat-ms

来自Meta开发并公开发布的，LLaMa 2系列的大型语言模型（LLMs）。该系列模型提供了多种参数大小——7B、13B和70B等——以及预训练和微调的变体。本模型为13B规模针对Chat场景微调的版本，并适配到ModelScope生态，可以通过ModelScope library加载。

UniASR语音识别-德语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

语音合成-印尼语-通用领域-16k-发音人indah

印尼语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

Data2vec语音识别-预训练-中文-aishell2-16k-pytorch

近年来，随着预训练的流行，许多研究致力于利用预训练的方式来充分利用大量的无监督数据，帮助提升在有监督语音数据有限情况下的语音识别的性能。wav2vec，HuBERT，WavLM等方法，都通过无监督预训练的方式在语音识别任务上取得了不错的识别率。2022年，Meta AI在ICML上提出了data2v

RaNER命名实体识别-法语-电商领域-large

该模型是基于检索增强(RaNer)方法在法语电商query数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

3rd-无人机检测竞赛_CodeBase_CVPR23

ProContEXT视频单目标跟踪-通用领域

该模型是基于Transformer的单目标跟踪网络，在开源数据集GOT-10k, TrackingNet上均达到SOTA精度。

基础视觉模型高效调优-SideTuning

交互式机器翻译-英中-通用领域-large

交互式机器翻译英中模型，利用译文前缀，获取更好的翻译结果。

视频单目标跟踪-无人机-L

RaNER-chunking-英文-large

UniASR语音识别-越南语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

SOND说话人日志-英文-Callhome-8k-离线-pytorch

使用Callhome、Switchboard训练的说话人日志模型SOND，在Callhome上获得SOTA结果，可用于相关学术研究

CSANMT连续语义增强机器翻译-英西-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

语音合成-中文-通用领域-16k-发音人zhida

中文普通话语音合成标准男声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和ch

Paraformer语音识别-中文-aishell2-16k-离线-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

语音识别-印尼语-后处理- ITN模型

印尼语文本反正则化。Inverse Text Processing for Indonesian.

ParaformerBert语音识别-中文-aishell1-16k-离线-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

RaNER命名实体识别-西班牙语-电商领域-large

该模型是基于检索增强(RaNer)方法在西班牙语电商query数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

RaNER命名实体识别-俄语-电商领域-large

该模型是基于检索增强(RaNer)方法在俄语电商query数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

UniASR语音识别-中文-通用-8k-离线-pytorch

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

Paraformer语音识别-中文-aishell1-16k-离线-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

语音识别-越南语-后处理- ITN模型

越南语文本反正则化。Inverse Text Processing for Vietnamese.

mPLUG视觉问答模型-中文-base

本任务是mPLUG在中文VQA进行finetune的视觉问答下游任务，给定一个问题和图片，通过图片信息来给出答案。

语音识别-葡萄牙语-后处理- ITN模型

葡萄语文本反正则化。Inverse Text Processing for Portuguese.

Conformer语音识别-中文-aishell2-16k-离线-pytorch

Conformer模型通过在self-attenion基础上叠加卷积模块来加强模型的局部信息建模能力，进一步提升了模型的效果。Conformer已经在AISHELL-1、AISHELL-2、LibriSpeech等多个开源数据上取得SOTA结果。

语音识别-菲律宾语-后处理- ITN模型

菲律宾语文本反正则化。Inverse Text Processing for Tagalog.

语音识别-法语-后处理- ITN模型

法语文本反正则化。Inverse Text Processing for French.

BNext二值化图像分类-英文-通用-small

本模型适用于部署在二值加速的硬件上，支持ImageNet 1000类物体识别，也可作为下游任务的预训练backbone

语音识别-西班牙-后处理- ITN模型

西班牙文本反正则化。Inverse Text Processing for Spanish.

Regularized DINO说话人确认-英文-VoxCeleb-16k-离线-pytorch

Regularized DINO (RDINO) 是基于时延神经网络构建的自监督说话人模型，该模型使用VoxCeleb2开发集训练，不使用任何说话人标签。适用于16k英文测试数据，可以用于说话人确认、说话人日志等任务。

OFA-MMSpeech语音识别预训练-中文-通用领域-large

对比SOTA，MMSpeech字错误率降低了48.3%/42.4%，效果达到1.6%/1.9%，远超SOTA 3.1%/3.3%（benchmark为AIShell1 dev/test）。

Conformer语音识别-中文-aishell1-16k-离线-pytorch

Conformer模型通过在self-attenion基础上叠加卷积模块来加强模型的局部信息建模能力，进一步提升了模型的效果。Conformer已经在AISHELL-1、AISHELL-2、LibriSpeech等多个开源数据上取得SOTA结果。

语音识别-德语-后处理- ITN模型

德语文本反正则化。Inverse Text Processing for German.

UniASR语音识别-西班牙语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

RaNER命名实体识别-英语-wiki领域-large

本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

太乙-Stable-Diffusion-1B-中文-v0.1

首个开源的中文Stable Diffusion模型，基于0.2亿筛选过的中文图文对训练。

UniASR语音识别-西班牙语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

ParaformerBert语音识别-中文-aishell2-16k-离线-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

VoP: 通用跨模态视频检索模型

VoP是基于CLIP的快速跨模态检索微调框架，可以适用于任何需要做视频文本跨模态检索的“视频-文本对”数据当中。

ChatPLUG-开放域对话模型-3.7B

CoROM语义相关性-中文-医疗领域-tiny

基于ROM-Base预训练模型的医疗领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

基础视觉模型高效调优-Prefix

CTC语音唤醒-移动端-单麦-16k-SpeechCommands

使用谷歌开源SpeechCommands_v1数据训练的移动端语音唤醒模型，检测关键词为10个英文单词(Yes, No, Up, Down, Left, Right, On, Off, Stop, Go)。模型主体为4层FSMN结构，使用CTC训练准则，参数量750K，适用于移动端设备运行。

CoROM语义相关性-中文-电商领域-tiny

基于CoROM-Base预训练模型的电商领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

Segformer-B1实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

交互式机器翻译-中英-通用领域-large

交互式机器翻译中英模型，利用译文前缀，获取更好的翻译结果。

BEiTv2图像分类-通用-base

BEiTv2模型先在ImageNet-1k数据集上以自监督的方式进行预训练，并在ImageNet-21k数据集上进行微调，得到的预训练模型在下游ImageNet-1k分类任务上进行微调后，BEiTv2-base在ImageNet-1k验证集上达到了86.5%的top-1精度，在其它下游任务上也分别达

Segformer-B3实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

太乙-Stable-Diffusion-1B-动漫-中文-v0.1

首个开源的中文Stable Diffusion动漫模型，基于100万筛选过的动漫中文图文对训练。

BaSSL视频场景分割-长视频领域

针对长视频进行场景分割，也可按照镜头进行分割，有助于进行视频拆条和视频理解等。该模型支持分割结果的本地保存，同时可以支持微调操作。

TinyMog人脸检测器-tiny

手部关键点检测-通用领域-2D

该模型采用自顶向下的Heatmap手部关键点检测框架，通过端对端的快速推理可以得到图像中的全部手部关键点。

RaNER命名实体识别-俄语-通用领域-large

该模型是基于检索增强(RaNer)方法在俄语数据集MultiCoNER-RU-Russian训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

CurricularFace人脸识别模型

输入一张图片，检测矫正人脸区域后提取特征，两个人脸特征可用于人脸比对，多个人脸特征可用于人脸检索。

StructBERT情绪分类-中文-七分类-base

StructBERT事实准确性检测-中文-电商-base

StructBERT事实准确性检测-中文-电商-base是在structbert-base-chinese预训练模型的基础上，使用业务数据训练出的自然语言推理模型，用于事实准确性检测，输入两个句子，判断两个句子描述的事实是否一致。

CSANMT连续语义增强机器翻译-英法-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

离散对抗训练ViT-H/14-鲁棒图像分类-imagenet1k

easyrobust提供的通用/对抗鲁棒预训练模型

RaNER命名实体识别-荷兰语-通用领域-large

该模型是基于检索增强(RaNer)方法在荷兰语数据集MultiCoNER-NL-Dutch训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

RaNER命名实体识别-韩语-通用领域-large

该模型是基于检索增强(RaNer)方法在韩语数据集MultiCoNER-KO-Korean训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

实时目标检测-自动驾驶领域

检测自动驾驶场景图片的目标，支持车辆检测。

RaNER命名实体识别-西班牙语-通用领域-large

该模型是基于检索增强(RaNer)方法在西班牙语数据集MultiCoNER-ES-Spanish训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训

RaNER命名实体识别-英文-社交媒体领域-large

该模型是基于检索增强(RaNer)方法在英文wnut17领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

RaNER命名实体识别-印地语-通用领域-large

该模型是基于检索增强(RaNer)方法在MultiCoNER领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

语音识别-韩语-后处理- ITN模型

韩语文本反正则化。Inverse Text Processing for Korean.

RaNER命名实体识别-德语-通用领域-large

该模型是基于检索增强(RaNer)方法在德语数据集MultiCoNER-DE-German训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

Segformer-B2实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

UniASR语音识别-韩语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

MaskDINO-SwinL图像实例分割

SOTA通用目标检测和实例分割模型，backbone使用Swin transformer large。

RaNER命名实体识别-土耳其语-通用领域-large

该模型是基于检索增强(RaNer)方法在土耳其语数据集MultiCoNER-TR-Turkish训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训

RaNER命名实体识别-英文-文学领域-large

该模型是基于检索增强(RaNer)方法在英文Literature数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

BAStructBERT词性标注-中文-新闻领域-lite

基于预训练语言模型的新闻领域中文词性标注模型，根据用户输入的中文句子产出词性标注结果。

RaNER命名实体识别-波斯语-通用领域-large

该模型是基于检索增强(RaNer)方法在波斯语数据集MultiCoNER-FA-Farsi训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

DFSMN远场唤醒-双麦-16k-你好米雅

远场唤醒模型，输入为双麦克风阵列的双通道音频加一路音箱播放的参考音频，适用于智能音箱、故事机等智能设备场景。此demo使用开源数据训练，唤醒词为“你好米雅”，用户可使用我们提供的训练套件基于自有数据训练新唤醒词。

CLIP_It自然语言引导的视频摘要-Web视频领域-英文

自然语言引导的视频摘要，用户根据自己的需求输入一段自然语言和一个长视频，算法根据用户输入自然语言的内容对输入视频进行自适应的视频摘要。

Paraformer语音识别-中文-端上指令词-16k-离线-tiny

轻量化小词表Paraformer中文指令词识别模型，参数量控制在5M左右，支持通用智能家居交互等常规指令词，并且使用share embedding策略进一步缩小参数量。

RaNER命名实体识别-英文-政治领域-large

该模型是基于检索增强(RaNer)方法在英文Politics数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

语音识别-俄语-后处理- ITN模型

俄语文本反正则化。Inverse Text Processing for Russian.

CAM++说话人确认-英文-VoxCeleb-16k

CAM++是基于密集连接时延神经网络的说话人识别模型。相比于ResNet34和ECAPA-TDNN，CAM++具有更准确的识别率和更快的推理速度。该模型可以用于说话人确认、说话人日志、语音合成、说话人风格转化等多项任务。

ModelScope Library测试数据

UniASR语音识别-中文-通用-8k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

RaNER命名实体识别-孟加拉语-通用领域-large

该模型是基于检索增强(RaNer)方法在孟加拉语数据集MultiCoNER-BN-Bangla训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练

VFI-RAFT视频插帧

给定一段低帧率视频，模型通过对帧间的光流和运动估计生成中间帧，最终输出一段高帧率视频，从而提升视频的流畅度。

实时目标检测-通用领域

基于yolox小模型的通用检测模型

BART文本纠错-中文-法律领域-large

法研杯2022文书校对赛道冠军纠错模型（单模型）。

CTC语音唤醒-移动端-单麦-16k-出门问问

使用出门问问开源关键词数据训练的移动端语音唤醒模型，检测关键词为“你好问问”及“嗨小问”。模型主体为4层FSMN结构，使用CTC训练准则，参数量750K，适用于移动端设备运行。

ERes2Net说话人确认-英文-VoxCeleb-16k-离线-pytorch

ERes2Net模型是在Res2Net的基础上，对全局和局部特征进一步融合，从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号；全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。

CT-Transformer标点-中文-通用-实时-onnx

为FunASR软件包，中文实时听写服务使用的标点预测模型

UniASR语音识别-俄语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

OFA-MMSpeech语音识别-中文-aishell1-base

对比SOTA，MMSpeech字错误率降低了48.3%/42.4%，效果达到1.6%/1.9%，远超SOTA 3.1%/3.3%（benchmark为AIShell1 dev/test）。

OFA-MMSpeech语音识别预训练-中文-通用领域-base

对比SOTA，MMSpeech字错误率降低了48.3%/42.4%，效果达到1.6%/1.9%，远超SOTA 3.1%/3.3%（benchmark为AIShell1 dev/test）。

Paraformer语音识别-中文-通用-16k-实时-large-onnx

为FunASR软件包，中文实时听写服务使用的流式实时模型

图像伪装色目标检测

给定一张输入图像，输出视觉显著注意力程度图（归一化至0~255）。

语音合成-英式英文-通用领域-16k-多发音人

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

xvector说话人确认-英文-callhome-8k-离线-pytorch

使用Callhome、Switchboard等英文数据集训练的说话人确认模型，可进行说话人确认、声纹提取等方面的学术研究。

RaNER命名实体识别-多语言统一-通用领域-large

该模型是基于检索增强(RaNer)方法在多语言数据集MultiCoNER-MULTI-Multilingual训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Traini

UniASR语音识别-中文-通用-8k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-韩语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

RaNER命名实体识别-英文-科学领域-large

该模型是基于检索增强(RaNer)方法在英文Science数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

元语功能型对话大模型v2

元语功能型对话大模型这个模型可以用于问答、结合上下文做对话、做各种生成任务，包括创意性写作，也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。是元语功能型对话大模型v1的升级版

BAStructBERT词性标注-中文-新闻领域-base

基于预训练语言模型的新闻领域中文词性标注模型，根据用户输入的中文句子产出词性标注结果。

RaNER命名实体识别-英文-音乐领域-large

该模型是基于检索增强(RaNer)方法在英文Music数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

语音合成-俄语-通用领域-16k-发音人masha

俄语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT，将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

UniASR语音识别-印尼语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

Segformer-B4实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

UniASR语音识别-粤语简体-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

CTC语音唤醒-移动端-单麦-16k-小云-多命令词

移动端语音多命令词模型，我们根据以往项目积累，挑选了多个场景常用命令词数据进行模型迭代，所得单一模型支持30+关键词的快速检测。

语音合成-英式英文-通用领域-16k-发音人Luca

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

Segformer-B0实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

CoROM文本向量-英文-通用领域-tiny

基于CoROM-Base预训练模型的通用领域英文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

PALM 2.0摘要生成模型-英文-base

本任务是PALM通用预训练生成模型，在英文CNN/Dail Mail和中文LCSTS上进行finetune的文本摘要生成下游任务。

语音识别-日语-后处理- ITN模型

日语文本反正则化。Inverse Text Processing for Japanese.

RaNER命名实体识别-英文-新闻领域-large

该模型是基于检索增强(RaNer)方法在英文conll03/conllpp领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

Paraformer语音识别-中文-通用-8k-离线

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

RaNER命名实体识别-英文-人工智能领域-large

该模型是基于检索增强(RaNer)方法在英文AI数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

基础视觉模型高效调优-LoRA

UniASR语音识别-印尼语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-中文-通用-8k-实时-pytorch

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

VFI-RAFT视频插帧-应用型

偏实际应用的视频插帧模型，相较原版模型，该模型能支持任意倍率的帧率转换，同时在各种困难场景下如大运动、重复纹理、台标字幕等有更好更稳定的插帧效果。

UniASR语音识别-粤语简体-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

CoROM文本向量-中文-医疗领域-tiny

基于CoROM-tiny预训练语言模型的电商领域中文文本表示模型，基于输入的句子产出对应的文本向量，文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

DAMOYOLO-高性能通用检测模型-M

DAMOYOLO是一款面向工业落地的高性能检测框架，精度和速度超越当前的一众典型YOLO框架（YOLOE、YOLOv6、YOLOv7）。基于TinyNAS技术，DAMOYOLO能够针对不同的硬件算力，进行低成本的模型定制化搜索。这里仅提供DAMOYOLO-M模型，更多模型请参考README。

LongShortNet实时视频目标检测-自动驾驶领域

UniASR语音识别-英语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

CSANMT连续语义增强机器翻译-英中-通用领域-base

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

人体关键点检测-通用领域-3D

输入一段单人视频，实现端到端的3D人体关键点检测，输出视频中每一帧的3D人体关键点坐标。

语音合成-韩语-通用领域-16k-发音人kyong

韩语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT，将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式

SPACE预训练对话模型-英文-base

实时手机检测-通用

本模型为高性能热门应用系列检测模型中的实时手机检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有手机的坐标信息，并可用于打电话检测等后续应用场景。更多具体信息请参考Model card。

UniASR语音识别-中文-通用-16k-离线-large

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

StructBERT行业分类-中文-外呼-tiny

本模型基于StructBERT-tiny模型，使用外呼场景下的对话行业分类数据集训练得到。

OFA-MMSpeech语音识别-中文-aishell1-large

对比SOTA，MMSpeech字错误率降低了48.3%/42.4%，效果达到1.6%/1.9%，远超SOTA 3.1%/3.3%（benchmark为AIShell1 dev/test）。

异常图像检测

基于mobilenet-v2的简化版网络，检测图像是否为花屏、绿屏或者正常图像。

Paraformer语音识别-中文-aishell1-16k-离线

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

实时交通标识检测-自动驾驶领域

本模型为高性能热门应用系列检测模型中的交通标识检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有交通标识的坐标信息。更多具体信息请参考Model card。

StructBERT辱骂风险识别-中文-外呼-tiny

本模型基于StructBERT-tiny模型，使用外呼场景下的辱骂风险识别数据集训练得到。

语音合成-英式英文-通用领域-16k-发音人Luna

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

OFA通过描述定位图像物体-英文-通用领域-蒸馏33M

视觉定位任务：给定一张图片，一段描述，通过描述找到图片对应的物体。

视频单目标跟踪-通用领域-L

CAM++说话人转换点定位-两人-中文

基于CAM++说话人特征提取模型和transformer转换点定位模型，可以对两人场景下的说话人转换点进行准确定位

GPT-3预训练生成模型-中文-large

3亿参数量的中文GPT-3文本生成模型

CoROM文本向量-中文-电商领域-tiny

基于CoROM-tiny预训练语言模型的电商领域中文文本表示模型，基于输入的句子产出对应的文本向量，文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

全身关键点检测-通用领域-2D

输入一张人物图像，端到端检测全身133点关键点，输出人体框和对应的全身关键点，包含68个人脸关键点、42个手势关键点、17个骨骼关键点和6个脚步关键点。

RaNER命名实体识别-英语-通用领域-large

该模型是基于检索增强(RaNer)方法在MultiCoNER领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

GPT-3 SFT微调模型-中文-1.3B

在中文GPT-3 1.3B预训练模型的基础上，通过有监督的sft数据微调训练得到的模型，具有更好泛化性的通用生成能力

RaNER命名实体识别-中文-银行领域-base

该模型是基于检索增强(RaNer)方法在中文Bank数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

语音合成-美式英文-通用领域-16k-多发音人

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

LSTM命名实体识别-中文-新闻领域

本方法采用char-BiLSTM-CRF模型

YOLOX-PAI手部检测模型

输入一张图像，并对其中手部区域进行检测，输出所有手部区域检测框、置信度和标签。

StructBERT文本相似度-中文-电商-base

StructBERT中文电商域文本相似度模型是在structbert-base-chinese预训练模型的基础上，用电商域标注数据训练出来的相似度匹配模型。

基础视觉模型高效调优-Prompt

Segformer-B5实时语义分割

Neurips2021文章SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers在COCO_Stuff164K数据集上的复现。官方源码暂没有提供COCO_Stuff164K的相关实现。本模型

DUT-RAFT视频稳像

文本指导的图像分割-英文-通用领域

vitl backbone，输入英文文本描述和图像，根据英文描述对图像进行语义分割

图像画质损伤分析

GEMM生成式多模态表征模型-英文-large

GEMM是在4亿公开英文图文数据训练的多模态模型。视觉encoder采用vit-large-patch14结构，文本encoder采用bert-base结构。模型在图像分类、图文检索等数据集上进行了zero-shot效果测试。

PolyLM-文本生成模型-多语言-13B

达摩院自研多语言文本生成模型，涵盖1.7B和13B两个版本，模型能够很好地处理英文、中文、西语、法语、德语、俄语、葡萄牙语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等。

uhdm图像去摩尔纹

图像去摩尔纹

UniASR语音识别-中文-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

动作识别-2D手势-通用领域

2D手势动作识别，共支持14种手势的语义识别

CAM++说话人日志-对话场景角色区分-通用

基于分段-聚类（segmentation-clustering）模块化的通用说话人日志框架，可以自动的识别音频中的对话人数并对其进行区分，适合用于客服对话、会议讨论、采访等场景

RaNER命名实体识别-中文-社交媒体领域-base

该模型是基于检索增强(RaNer)方法在中文Weibo数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

人脸属性识别模型FairFace

给定一张带人脸的图片，返回其性别和年龄范围。

实时目标检测-通用领域-移动端

通用实时检测超轻量级模型

UniASR语音识别-英语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

UniASR语音识别-日语-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

OFA文字识别-中文-网络场景-base

基于OFA模型的finetune后的OCR文字识别任务，可有效识别网络场景的文字内容。

国画Diffusion模型

这是在国画上训练的微调Stable Diffusion模型

PST动作识别模型-tiny

Patch Shift Transformer（PST）是把2D Transformer 模型在不增加参数量的情况下转换成适应视频多帧输入的动作识别模型

RaNER命名实体识别-中文-金融领域-base

该模型是基于检索增强(RaNer)方法在CCKS2021中文金融案件要素抽取数据训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

统一的翻译质量评价模型-多语言-新闻领域-large

Kendall's Tau on WMT'19 Metrics Shared Task dataset

RealBasicVSR视频超分辨率

长期传播会在轻度退化的情况下提高性能，但严重的退化可能会通过传播被放大，从而损害输出视频的质量。为了平衡细节合成和退化抑制之间的权衡，RealBasicVSR引入了图像预清理模块，在质量和效率上都优于现有方法。

BERT文本分割-英文-通用领域

该模型基于wiki-en公开语料训练，对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

OFA图像分类-数据集imagenet1k-large

ImageNet-1K图片分类任务：给定一张图片，要求模型从1K个候选类别中正确给出图片分类标签。

孟子T5预训练生成模型-中文-base-多任务

孟子T5多任务模型在mengzi-t5-base的基础上，进一步使用27个数据集和301种prompt进行了多任务的混合训练。不仅可以实现“一个模型完成多个任务”，还具备极强的泛化能力，无需大量标注数据就可以完成新任务适配，在应用上能够让模型研发和部署维护更加轻量化。

Paraformer语音识别-中文-通用-16k-实时-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

读光-文字检测-单词检测模型-英文-通用领域

本模型是以自底向上的方式，先检测文本块和文字行之间的吸引排斥关系，然后对文本块聚类成行，最终输出单词的外接框的坐标值。

AIRDet-高性能检测模型-S

AIRDet高性能检测模型是基于Tiny-NAS技术设计出的卷积神经网络，具有精度高、速度快的特点，这里只提供S模型。借助Tiny-NAS技术能够实现针对硬件算力的最优模型搜索能力，更多模型请参考README获取。

CoROM语义相关性-中文-通用领域-tiny

基于ROM-tiny预训练模型的通用领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

PALM 2.0天气播报模型-中文-base

达摩PALM 2.0中文天气播报base模型

图像显著性目标检测

给定一张输入图像，输出视觉显著注意力程度图。

二郎神-RoBERTa-110M-情感分类

RaNER命名实体识别-中文-文学领域-base

该模型是基于检索增强(RaNer)方法在中文Literature数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

本方法采用char-BiLSTM-CRF模型

NextViT实时图像分类-中文-日常物品

采用基于Transformer的第一个实现工业TensorRT实时落地的Next-ViT模型结构，对自建1300类常见物体标签体系进行分类。

FSMN远场唤醒-双麦-16k-你好米雅

远场唤醒模型，输入为双麦克风阵列的双通道音频加一路音箱播放的参考音频，适用于智能音箱、故事机等智能设备场景。此demo使用开源数据训练，唤醒词为“你好米雅”，用户可使用我们提供的训练套件基于自有数据训练新唤醒词。

RaNER命名实体识别-中文-游戏领域-base

该模型是基于检索增强(RaNer)方法在中文游戏领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

FastInst快速实例分割

统一的翻译质量评价模型-英语-新闻领域-large

翻译质量评价，即对翻译文本进行质量评估，在给定源端输入、目标端参考答案、或两者均有提供的情况下，算法用于评估所生成文本的质量。本单一模型可同时支持提供源端输入（src-only）、目标端参考译文（ref-only）、或者两者均有（src-ref-combined）三种评价场景。模型由一个预训练语言

OFA文字识别-中文-印刷体-base

基于OFA模型的finetune后的OCR文字识别任务，可有效识别印刷体文字。

轻量级SRResNet视频超分辨率

基于SRResNet改进结构的超分模型，将特征图分辨率降低后再放大，极大提高计算效率。

语音识别-英语-后处理- ITN模型

英语文本反正则化。Inverse Text Processing for English.

LSTM词性标注-中文-新闻领域

OFA视觉问答模型-英文-通用领域-huge

视觉问答任务：给定一张图片和一个关于图片的问题，要求模型正确作答。

DIRECT商品评价解析-中文-电商-base

MGeo地址地点WhereWhat切分-中文-地址领域-base

模型提供将一条地址切分为门址+POI描述的功能。当一条地址包含多个地点描述时，通常需要对其进行切分，将原始地址切为where和what两部分。

二郎神-RoBERTa-110M-文本相似度

NAFNet图像去模糊压缩

NAFNet（Nonlinear Activation Free Network）提出了一个简单的基线，计算效率高。其不需要使用非线性激活函数（Sigmoid、ReLU、GELU、Softmax等），可以达到SOTA性能。

RaNER命名实体识别-中文-简历领域-base

该模型是基于检索增强(RaNer)方法在中文Resume数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

LSTM命名实体识别-中文-通用领域

本方法采用char-BiLSTM-CRF模型

中文StableDiffusion-通用领域

StructBERT预训练模型-中文-base

nlp_structbert_backbone_base_std是由海量高质量中文训练的预训练模型

SiameseAOE通用属性观点抽取-中文-base

MaSTS文本相似度-中文-搜索-CLUE语义匹配-large

MaSTS中文文本相似度-CLUE语义匹配模型是在MaSTS预训练模型-CLUE语义匹配的基础上，在QBQTC数据集上训练出来的相似度匹配模型。在CLUE语义匹配榜上通过集成此模型获得了第一名的成绩。

ULFD人脸检测模型-tiny

1M轻量级人脸检测模型。给定一张图片，返回图片中人脸位置的坐标。ULFD为轻量级人脸检测算法, 基于SSD框架手工设计了backbone结构，是业界开源的第一个1M人脸检测模型。当输入320x240分辨率的图片且未使用onnxruntime加速时，在CPU上跑需要50-60ms，当使用onnxrun

DCANet人群密度估计-多域

采用单一模型就可以同时针对多个不同域的数据进行精确预测，是multidomain crowd counting中经典的方法

实时香烟检测-通用

本模型为高性能热门应用系列检测模型中的实时香烟检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有香烟的坐标信息，并可用于吸烟检测等后续应用场景。更多具体信息请参考Model card。

语音合成-美式英文-通用领域-16k-发音人Annie

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

mPLUG-HiTeA-视频描述-英文-Base

根据用户输入的任意视频，mPLUG-HiTeA AI智能模型能够在数秒内快速写出一句话对视频进行描述，可应用于视频标签与视频简介。

Mtcnn人脸检测关键点模型

给定一张图片，返回图片中人脸区域的位置和五点关键点。MTCNN是工业界广泛应用的检测关键点二合一模型。

语音合成-上海话-通用领域-16k-发音人xiaoda

上海话语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

StructBERT意图识别-中文-外呼-tiny

本模型基于StructBERT-tiny模型，使用外呼场景下的对话意图识别数据进行微调得到的。

BERT情感分析-英文-base-TweetEval数据集

该模型基于bert-base-uncased，在TweetEval数据集上fine-tune得到

基础视觉模型高效调优-UTuning

人物AIGC基础模型

UniASR语音识别-中文方言-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

实时安全帽检测-通用

本模型为高性能热门应用系列检测模型中的实时安全帽（头盔）检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有人头的坐标信息，以及是否佩戴安全帽（头盔）。更多具体信息请参考Model card。

RaNER命名实体识别-英语-电商领域-large

该模型是基于检索增强(RaNer)方法在英语电商query和商品标题数据集训练的模型。本方法采用Transformer-CRF模型，使用xlm-roberta-large作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

StreamYOLO实时视频目标检测-自动驾驶领域

实时视频目标检测模型

语音合成-美式英文-通用领域-16k-发音人Andy

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

M2FP多人人体解析

DFSMN语音降噪-单麦-48k-实时近场

支持音频通话场景和各种噪声环境下语音音频录音的单通道语音智能降噪模型算法。模型输入和输出均为48kHz采样率单通道语音时域波形信号，输入信号可有单通道麦克风直接进行录制，输出为噪声抑制后的语音音频信号，对应pipeline支持PCM流式调用。

OFA文字识别-中文-手写体-base

基于OFA模型的finetune后的OCR文字识别任务，可有效识别手写体文字。

VitDet图像目标检测

输入一张图片，输出图像中较通用目标（COCO-80类范围）的位置及类别。

Mask2Former-SwinL语义分割

基于Mask2Former架构，SwinL为backbone的语义分割模型

行人图像特征表示提取-Market1501

基于图片的行人图像特征表示（image embedding）提取模型。输入图像，可提取并输出图像的特征表示，后续能够利用该特征表示进行后续的相似度计算和图像排序。

实时人头检测-通用

本模型为高性能热门应用系列检测模型中的实时人头检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有人头的坐标信息，并可用于行人计数等后续应用场景。更多具体信息请参考Model card。

ViT图像分类-通用

本模型适用范围较广，支持ImageNet 1000类物体识别，也可作为下游任务的预训练backbone。

Paraformer语音识别-中文-通用-16k-离线-large

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

动物识别-中文-通用领域

本模型是对含有动物的图像进行标签识别，无需任何额外输入，输出动物的类别标签，目前已经覆盖了8K多类的细粒度的动物类别。

LSTM命名实体识别-中文-社交媒体领域

本方法采用char-BiLSTM-CRF模型。

CoROM文本向量-中文-通用领域-tiny

基于CoROM-base预训练语言模型的通用领域中文文本表示模型，基于输入的句子产出对应的文本向量，文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

Mask2Former-R50全景分割

基于Mask2Former架构，resnet50为backbone的全景分割模型。训练数据库为COCO-Panoptic。支持finetune。

UniASR语音识别-中文方言-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

PALM 2.0摘要生成模型-中文-large

PALM 2.0中文摘要生成large模型

DFSMN回声消除-单麦单参考-16k

支持音频通话场景的单通道回声消除模型算法。模型接受单通道麦克风信号和单通道参考信号作为输入，输出回声消除和残余抑制后的音频信号[1]。模型采用Deep FSMN结构，提取原始观测信号以及线性滤波后信号的Fbank特征作为输入，预测输出目标语音的Phase senstive mask。

CoROM语义相关性-中文-医疗领域-base

基于CoROM-Base预训练模型的医疗领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

FBBR人体美型

给定一张单个人物图像（半身或全身），无需任何额外输入，人体美型模型能够端到端地实现对人物身体区域（肩部，腰部，腿部等）的自动化美型处理。

MT5开放域多轮对话改写-中文-通用-base

开放域多轮对话改写模型主要解决开放域对话中的指代和省略问题，输入对话上下文，输出改写后的语义完整的问题。该模型基于google/mt5-base基座在公开数据和业务数据集上finetune而得，适用于开放域对话场景。

StableDiffusionV2图像填充

借助Stable Diffusion强大的生成能力，StableDiffusionv2图像填充模型能够补全缺失的图像区域，生成效果自然而真实；不仅如此，除了自适应填充背景内容外，用户还可以通过指定引导文字在缺失区域生成指定内容，畅享AI生成的乐趣。

读光-车牌检测-通用

ConvNeXt图像分类-中文-垃圾分类

自建265类常见的生活垃圾标签体系，15w张图片数据，包含可回收垃圾、厨余垃圾、有害垃圾、其他垃圾4个标准垃圾大类，覆盖常见的食品，厨房用品，家具，家电等生活垃圾，标签从海量中文互联网社区语料进行提取，整理出了频率较高的常见生活垃圾名称。模型结构采用ConvNeXt-Base结构, 经过大规模数据集

MogFace人脸检测模型-large

Wider Face榜单冠军模型。给定一张图片，检测图片中的人脸区域，支持小脸检测。

OSTrack视频单目标跟踪-通用领域

该模型采用基于OSTrack的Transformer方案，输入视频和对应第一帧的待跟踪目标物体矩形框，可端对端推理得到待跟踪目标物体在每一帧图片的跟踪矩形框。

DCT-Net人像卡通化-扩散模型-漫画

语音合成-广东粤语-通用领域-16k-发音人jiajia

广东粤语语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk

图像天空替换模型

SambertHifigan个性化语音合成-中文-预训练-16k

中文个性化语音合成16k采样率预训练模型

MGeo地址Query成分分析要素识别-中文-地址领域-base

模型用于识别地址query中的区划、路网、POI、户室号、公交地铁、品牌商圈等元素。

M2FP单人人体解析

CascadeMaskRCNN-SwinB图像实例分割

基于Cascade mask rcnn架构，backbone为swin transformer模型。

DCT-Net人像卡通化-扩散模型-插画

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，结合Stable-Diffusion模型进行小样本风格数据生成，从而训练得到高保真、强鲁棒、易拓展的人像风格转换模型。

NAFNet图像去模糊

NAFNet（Nonlinear Activation Free Network）提出了一个简单的基线，计算效率高。其不需要使用非线性激活函数（Sigmoid、ReLU、GELU、Softmax等），可以达到SOTA性能。

OFA图像描述-英文-通用领域-huge

根据用户输入的任意图片，AI智能创作模型3秒内快速写出“一句话描述”，可用于图像标签和图像简介。

人脸识别OOD模型

xvector说话人确认-中文-cnceleb-16k-离线-pytorch

该模型是使用CN-Celeb 1&2以及AliMeeting数据集预训练得到的说话人嵌入码（speaker embedding）提取模型。可以直接用于通用和会议场景的说话人确认和说话人日志等任务。在CN-Celeb语音测试集上EER为9.00%，在AliMeeting测试集上的EER为1.45%。

短视频内容分类模型-中文-通用领域

本模型采用ResNet-50网络结构提取视觉特征，并利用NextVLAD网络对连续视频帧进行特征聚合。本模型是对短视频进行内容分类，输入视频片段，输出视频内容分类，目前已经覆盖了23个一级类目/160个二级类目。

DeOldify图像上色

DeOldify是图像上色领域比较有名的开源算法，模型利用resnet作为encoder构建一个unet结构的网络，并提出了多个不同的训练版本，在效果、效率、鲁棒性等等方面有良好的综合表现。

StructBERT零样本分类-中文-large

该模型使用StructBERT-large在xnli_zh数据集(将英文数据集重新翻译得到中文数据集)上面进行了训练得到。

TinyNAS高性能图像分类网络结构模型

ZenNet 是基于 Tiny-NAS (Zen-NAS) 算法设计出的高效的卷积网络结构。本 demo 只提供 zennet_imagenet1k_latency12ms_res22 backbone，其它网络结构可以从README 中获取。

个性化语音合成-自动标注模型-16k

用于训练个性化语音合成模型的自动标注工具依赖的模型资源

RaNER命名实体识别-中文-小说领域-base

该模型是基于检索增强(RaNer)方法在中文Book9小说领域数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

RaNER命名实体识别-中文-电商领域-base

该模型是基于检索增强(RaNer)方法在中文电商数据集训练的模型。本方法采用Transformer-CRF模型，使用sbert-base作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

读光-表格结构识别-无线表格

用于对无线表格图片进行结构识别，返回单元格的物理坐标与逻辑坐标。

语音合成-四川话-通用领域-16k-发音人chuangirl

四川话语音合成女声16k模型，本模型使用Sambert-hifigan网络结构。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流

Transformer语言模型-中文-通用-pytorch

Transformer-LM基于Transformer模型的decoder架构构建，使用Masked Self-Attention来隐藏下文信息，只使用历史信息对目标进行预测。

ERes2Net说话人确认-中文-通用-200k-Spkrs

ERes2Net-Large是基于卷积神经网络的说话人识别模型。相比于CAM++和ECAPA-TDNN，ERes2Net具有更准确的识别率。该模型可以用于说话人确认、说话人日志、语音合成、说话人风格转化等多项任务。

StructBERT情感分类-中文-电商-base

StructBERT中文情感分类模型是基于百万电商评价数据训练出来的情感分类模型

UniASR语音识别-俄语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

语音合成-中文-多情感领域-16k-发音人Zhizhe

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

BEiTv2图像分类-通用-large

BEiTv2模型先在ImageNet-1k数据集上以自监督的方式进行预训练，并在ImageNet-21k数据集上进行微调，得到的预训练模型在下游ImageNet-1k分类任务上进行微调后，BEiTv2-large在ImageNet-1k验证集上达到了88.4%的top-1精度，同时在其它下游任务上也

春联生成模型-中文-base

春联生成模型是达摩院AliceMind团队利用基础生成大模型在春联场景的应用，该模型可以通过输入两字随机祝福词，生成和祝福词相关的春联。

PLUG预训练生成模型-中文-27B

PLUG是一个270亿参数的大规模中文理解和生成联合预训练模型，由海量高质量中文文本预训练得到，在中文的多个下游理解和生成任务上，该模型效果达到state-of-the-art水平，且具有零样本生成能力。

WeNet-U2pp_Conformer-语音识别-中文-16k-实时

WeNet 是一款面向工业落地应用的语音识别工具包，提供了从语音识别模型的训练到部署的一条龙服务。我们使用 conformer 网络结构和 CTC/attention loss 联合优化方法，统一的流式/非流式语音识别方案，具有业界一流的识别效果；提供云上和端上直接部署的方案，最小化模型训练和产品落

OFA通过描述定位图像物体-英文-通用领域-large

视觉定位任务：给定一张图片，一段描述，通过描述找到图片对应的物体。

FLCM人脸关键点置信度模型

PGL_SUM视频摘要-Web视频领域

视频摘要，输入一段长视频，算法对视频进行镜头切割得到视频片段，评估视频帧的重要性，输出重要视频帧的帧号，根据帧号可以合成一段短视频（摘要视频）。

OFA视觉问答-英文-通用领域-large

视觉问答任务：给定一张图片和一个关于图片的问题，要求模型正确作答。

CoROM语义相关性-英文-通用领域-base

基于CoROM-Base预训练模型的通用领域英文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

YOLOPV2车辆检测车道线分割-自动驾驶领域

YOLOPv2 适用于自动驾驶场景下的实时全景驾驶感知, 同时执行三种不同的任务，分别为车辆检测，可行驶区域分割以及车道线分割。

语音合成-中文-多情感领域-16k-发音人Zhibei

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

孟子T5预训练生成模型-中文-base

基于语言学信息融入和训练加速等方法，我们研发了Mengzi 系列模型。这个模型页面提供了孟子中文T5预训练生成模型，可以用于下游的生成场景。

AAMS图像风格迁移

给定内容图像和风格图像作为输入，风格迁移模型会自动地将内容图像的风格、纹理特征变换为风格图像的类型，同时保证图像的内容特征不变

CoROM文本向量-英文-通用领域-base

基于CoROM-Base预训练语言模型的通用领域英文文本表示模型，基于输入的句子产出对应的连续文本向量，改文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

StructBERT情感分类-中文-通用-large

StructBERT情感分类-中文-通用-large是基于bdci、dianping、jd binary、waimai-10k四个数据集（11.5w条数据）训练出来的情感分类模型

读光-文字识别-行识别模型-中英-自然场景文本领域

给定一张自然场景图片，识别出图中所含文字并输出字符串。

MGeo地址QueryPOI相关性排序-中文-地址领域-base

模型对用户输入的地址query以及候选POI列表（包括每个POI包括POI的地址描述以及POI位置）进行相关性排序。

RaNER命名实体识别-中文-通用领域-base

该模型是基于检索增强(RaNer)方法在中文Ontonotes4.0数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

LSTM分词-中文-新闻领域

char-BiLSTM-CRF中文新闻领域分词模型

RaNER命名实体识别-中文-通用领域-large

该模型是基于检索增强(RaNer)方法在中文数据集MultiCoNER-ZH-Chinese训练的模型。本方法采用Transformer-CRF模型，使用XLM-RoBERTa作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

视频人像抠图模型-通用领域

输入一段视频，返回视频中人像的alpha序列

BAStructBERT分词-中文-电商领域-lite

基于预训练语言模型的电商领域中文分词模型，根据用户输入的中文句子产出分词结果。

读光-文字识别-行识别模型-中英-车牌文本领域

给定一张车牌图片，识别出图中所含文字并输出字符串。

人脸重建模型

单图人脸重建榜单REALY冠军模型，相关论文被CVPR2023收录。

U2Net图像显著性检测

给定一张输入图像，输出视觉显著注意力程度图（归一化至0~255）。

BAStructBERT分词-中文-新闻领域-lite

基于预训练语言模型的新闻领域中文分词模型，根据用户输入的中文句子产出分词结果。

LSTM分词-中文-电商领域

char-biLSTM-CRF中文电商领域分词模型

StyleGAN2人脸生成

StyleGAN是图像生成领域的代表性工作，StyleGAN2在StyleGAN的基础上，采用Weight Demodulation取代AdaIN等改进极大的减少了water droplet artifacts等，生成结果有了质的提升，甚至能达到以假乱真的程度。

商品显著性图像分割-电商领域

商品显著性分割模型，对商品图像提取显著性区域mask

SiameseUIE通用信息抽取-中文-base

mPLUG图像描述模型-英文-large

达摩MPLUG英文图像描述large模型

CoROM文本向量-中文-医疗领域-base

基于ROM-Base预训练模型的医疗领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

CoROM语义相关性-中文-电商领域-base

基于ROM-Base预训练模型的电商领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

UniASR语音识别-中文-通用-16k-实时

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

StructBERT文本相似度-中文-通用-large

StructBERT文本相似度-中文-通用-large是在structbert-large-chinese预训练模型的基础上，用atec、bq_corpus、chineseSTS、lcqmc、paws-x-zh五个数据集（52.5w条数据，正负比例0.48:0.52）训练出来的相似度匹配模型。

CTC语音唤醒-移动端-单麦-16k-小云小云

移动端语音唤醒模型，检测关键词为“小云小云”。模型主体为4层FSMN结构，使用CTC训练准则，参数量750K，适用于移动端设备运行。

RealESRGAN图像超分辨率-x4

RealESRGAN提出了通过多次降质的方式来模拟真实复杂降质，相比较于之前的简单下采样，能够更好处理真实的低分辨率场景。

PALM 2.0商品文案生成-中文-base

达摩PALM 2.0中文商品文案生成base模型

语音合成-中文-多情感领域-16k-发音人Zhitian

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

HRNet人体关键点-2D

输入一张人物图像，实现端到端的人体关键点检测，输出图像中所有人体的15点人体关键点、点位置信度和人体检测框。

mPLUG图像描述模型-英文-base

达摩MPLUG英文图像描述base模型

SambertHifigan语音合成-中文-多人预训练-24k

语音合成中文24k采样率多人预训练模型

CoROM文本向量-中文-电商领域-base

基于CoROM-base预训练语言模型的电商领域中文文本表示模型，基于输入的句子产出对应的文本向量，文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

PALM 2.0摘要生成模型-中文-base

本任务是PALM通用预训练生成模型，在英文CNN/Dail Mail和中文LCSTS上进行finetune的文本摘要生成下游任务。

GPT-3夸夸机器人-中文-large

GPT-3夸夸机器人，主要用于夸夸场景，我们训练的机器人可以针对用户的不同输入进行全方位无死角的夸，同时针对相同的输入重复调用模型会得到不同的夸奖词

二郎神-RoBERTa-330M-情感分类

基于神经窗口全连接CRFs的单目深度估计

单目深度估计是从单张RGB图预测场景深度，是一个很具有挑战性的任务。现在做这个任务的方法大都是设计越来越复杂的网络来简单粗暴地回归深度图，但我们采取了一个更具可解释性的路子，就是使用优化方法中的条件随机场（CRFs）。由于CRFs的计算量很大，通常只会用于计算相邻节点的能量，而很难用于计算整个图模型

Paraformer语音识别-中文-通用-16k-实时-large

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

日常动作检测

输入视频文件，输出该段时间内视频所包含的动作，当前支持9中常见动作识别

OFA文字识别-中文-通用场景-base

基于OFA模型的finetune后的OCR文字识别任务，基于通用数据集训练，比特定数据集finetune效果相差不大。

读光-表格结构识别-有线表格

有线表格结构识别，输入图像，检测出单元格bbox并将其拼接起来得到精准而完整的表格。

OFA文字识别-中文-日常场景-base

基于OFA模型的finetune后的OCR文字识别任务，可有效识别日常场景的文字内容，比如广告牌、店铺名等等

全中文任务支持零样本学习模型v1.5

支持近20中文任务，并具有零样本学习能力。针对理解类任务，如分类、情感分析、抽取等，可以自定义标签体系；针对生成任务，可以进行采样自由生成。使用1000亿中文token（字词级别）进行大规模预训练，累计学习1.5万亿中文token，并且在100+任务上进行多任务学习获得。

RaNER命名实体识别-中文-医疗领域-base

该模型是基于检索增强(RaNer)方法在中文CMeEE数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

读光-文字识别-行识别模型-中英-手写文本领域

给定一张手写体图片，识别出图中所含文字并输出字符串。

读光-文字检测-DBNet行检测模型-中英-通用领域

给定一张图片，检测出图中所含文字的外接框的端点的坐标值。

BART文本纠错-中文-通用领域-large

我们采用seq2seq方法建模文本纠错任务。模型训练上，我们使用中文BART作为预训练模型，然后在Lang8和HSK训练数据上进行finetune。不引入额外资源的情况下，本模型在NLPCC18测试集上达到了SOTA。

实时人体检测-通用

本模型为高性能热门应用系列检测模型中的实时人体检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有人体的坐标信息。更多具体信息请参考Model card。

OFA通过描述定位图像物体-中文-通用领域-large

中文视觉定位任务：给定一张图片，一段描述，通过描述找到图片对应的物体。

目标检测-人脸人体人手-通用领域

通用场景下的，人脸-人体-人手三合一目标检测

CLIP模型-中文-通用领域-base

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。视觉encoder采用vit结构，文本encoder采用roberta结构。模型在多个中文图文检索数据集上进行了效果测试。

StructBERT情感分类-中文-通用-tiny

StructBERT情感分类-中文-通用-tiny是基于bdci、dianping、jd binary、waimai-10k四个数据集（11.5w条数据）训练出来的情感分类模型。

读光-文字识别-行识别模型-中英-文档印刷体文本领域

给定一张文档印刷体图片，识别出图中所含文字并输出字符串。

ViT图像分类-中文-日常物品

自建1300类常见物体标签体系，覆盖常见的日用品，动物，植物，家具，设备，食物等物体，标签从海量中文互联网社区语料进行提取，保留了出现频率较高的常见物体名称。模型结构采用最新的ViT-Base结构。

106点人脸关键点-通用领域-2D

人脸2d关键点对齐模型

全任务零样本学习-mT5分类增强版-中文-base

该模型在mt5模型基础上使用了大量中文数据进行训练，并引入了零样本分类增强的技术，使模型输出稳定性大幅提升。支持任务包含：分类、摘要、翻译、阅读理解、问题生成等等。

BSHM通用抠图

StructBERT零样本分类-中文-base

该模型使用StructBERT-base在xnli_zh数据集(将英文数据集重新翻译得到中文数据集)上面进行了训练得到。

MFCCA多通道多说话人语音识别-中文-AliMeeting-16k-离线

考虑到麦克风阵列不同麦克风接收信号的差异，该模型采用了一种多帧跨通道注意力机制，该方法对相邻帧之间的跨通道信息进行建模，以利用帧级和通道级信息的互补性。此外，还引入了一种多层卷积模块以融合多通道输出和一种通道掩码策略以解决训练和推理之间的音频通道数量不匹配的问题。在ICASSP2022 M2MeT竞

SCRFD人脸检测关键点模型

输入图片，检测其中的人脸区域及5点关键点，支持检测极大/极小脸和任意角度人脸。

GPT-3预训练生成模型-中文-1.3B

1.3B参数量的中文GPT-3文本生成模型

读光-文字识别-CRNN模型-中英-通用领域

CT-Transformer标点-中文-通用-实时

中文标点通用实时模型：可用于语音识别实时场景的标点预测。

OFA图像描述-英文-通用领域-蒸馏33M

根据用户输入的任意图片，AI智能创作模型3秒内快速写出“一句话描述”，可用于图像标签和图像简介。

图像分割-商品展示图场景的商品分割-电商领域

通用商品分割模型，适用于商品展示图场景

SambertHifigan语音合成-中文-多人预训练-16k

元语功能型对话大模型这个模型可以用于问答、结合上下文做对话、做各种生成任务，包括创意性写作，也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

mPLUG视觉问答模型-英文-large

本任务是mPLUG，在英文VQA数据集进行finetune的视觉问答下游任务。给定一个问题和图片，通过图片信息来给出答案。

根据用户输入的任意商品图片，AI智能创作模型3秒内快速写出“商品描述”。

SPACE-T表格问答预训练模型-中文-通用领域-base

SPACE-T表格问答预训练模型-中文-通用领域-base大规模预训练模型，基于transformers架构，在千万级中文表格，亿级中文表格训练数据上进行预训练，在中文跨领域、多轮、Text-to-SQL语义解析等任务上能取得很好的效果。

GPT-3预训练生成模型-中文-base

1亿参数量的中文GPT-3文本生成模型

BAStructBERT分词-中文-电商领域-base

基于预训练语言模型的电商领域中文分词模型，根据用户输入的中文句子产出分词结果。

语音合成-中文-多情感领域-16k-多发音人

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

全中文任务支持零样本学习模型

支持近20中文任务，并具有零样本学习能力。针对理解类任务，如分类、情感分析、抽取等，可以自定义标签体系；针对生成任务，可以进行采样自由生成。使用1000亿中文token（字词级别）进行大规模预训练，累计学习1.5万亿中文token，并且在100+任务上进行多任务学习获得。

BAStructBERT分词-中文-新闻领域-base

基于预训练语言模型的新闻领域中文分词模型，根据用户输入的中文句子产出分词结果。

语音合成-中文-多情感领域-16k-发音人Zhiyan

本模型是一种应用于参数TTS系统的后端声学模型及声码器模型。其中后端声学模型的SAM-BERT,将时长模型和声学模型联合进行建模。声码器在HIFI-GAN开源工作的基础上，我们针对16k, 48k采样率下的模型结构进行了调优设计，并提供了基于因果卷积的低时延流式生成和chunk流式生成机制，可与声学

CAM++说话人确认-中文-通用-200k-Spkrs

CAM++是基于密集连接时延神经网络的说话人识别模型。相比于ResNet34和ECAPA-TDNN，CAM++具有更准确的识别率和更快的推理速度。该模型可以用于说话人确认、说话人日志、语音合成、说话人风格转化等多项任务。

CSRNet图像调色

基于CSRNet实现的图像色彩增强算法，输入待增强图像，输出色彩增强后的图像。CSRNet通过计算全局调整参数并将之作用于条件网络得到的特征，保证效果的基础之上实现轻便高效的训练和推理。

NAFNet图像去噪

NAFNet（Nonlinear Activation Free Network）提出了一个简单的基线，计算效率高。其不需要使用非线性激活函数（Sigmoid、ReLU、GELU、Softmax等），可以达到SOTA性能。

StructBERT FAQ问答-中文-通用领域-base

FAQ问答模型以StructBERT预训练模型-中文-base为基础，使用简单的原型网络，通过小样本meta-learning的方式在海量业务数据预训练(亿级)、微调(百万级)，在多个公开数据上取得了非常好的效果，适用于FAQ问答任务和小样本分类任务；

ABPN人像美肤

人像美肤模型对输入含有人像的图像进行处理，无需任何额外输入，实现脸部皮肤区域匀肤（处理痘印、肤色不均等）、去瑕疵（脂肪粒、斑点、痣等）及全身皮肤区域美白。模型仅对皮肤区域进行处理，不影响其他区域。

GPEN人像增强修复-大分辨率人脸

GPEN通过将预训练的人像生成网络嵌入到Unet网络中联合微调的方式在人像修复任务的多项指标中上达到了sota的结果。

图像质量MOS评估

通过模型预测图像MOS分

StructBERT自然语言推理-中文-通用-tiny

StructBERT自然语言推理-中文-通用-tiny是在structbert-tiny-chinese预训练模型的基础上，用CMNLI、OCNLI两个数据集（45.8w条数据）训练出来的自然语言推理模型

StructBERT情感分类-中文-通用-base

StructBERT情感分类-中文-通用-base是基于bdci、dianping、jd binary、waimai-10k四个数据集（11.5w条数据）训练出来的情感分类模型。

DAMOYOLO-高性能通用检测模型-S

DAMOYOLO是一款面向工业落地的高性能检测框架，精度和速度超越当前的一众典型YOLO框架（YOLOE、YOLOv6、YOLOv7）。基于TinyNAS技术，DAMOYOLO能够针对不同的硬件算力，进行低成本的模型定制化搜索。这里仅提供DAMOYOLO-S模型，更多模型请参考README。

ROM语义相关性-中文-通用领域-base

基于ROM-Base预训练模型的通用领域中文语义相关性模型，模型以一个source sentence以及一个句子列表作为输入，最终输出source sentence与列表中每个句子的相关性得分（0-1，分数越高代表两者越相关）。

SiameseUniNLU零样本通用自然语言理解-中文-base

DDColor图像上色

DDColor 是最新的图像上色算法，输入一张黑白图像，返回上色处理后的彩色图像，并能够实现自然生动的上色效果。

CoROM文本向量-中文-通用领域-base

基于CoROM-base预训练语言模型的通用领域中文文本表示模型，基于输入的句子产出对应的文本向量，文本向量可以使用在下游的文本检索、句子相似度计算、文本聚类等任务中。

读光-文字识别-行识别模型-中英-通用领域

给定一张图片，识别出图中所含文字并输出字符串。

Paraformer语音识别-中文-通用-16k-离线-large-热词版

基于Paraformer-large的热词版本模型，可实现对热词的定制化，基于提供的热词列表对热词进行激励增强，提升模型对热词的召回

BERT文本分割-中文-通用领域

该模型基于wiki-zh公开语料训练，对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

CSANMT连续语义增强机器翻译-英中-通用领域-large

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

RaNER命名实体识别-中文-电商领域-细粒度-base

该模型是基于检索增强(RaNer)方法在中文细粒度电商数据集训练的模型。本方法采用Transformer-CRF模型，使用sbert-base作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

MossFormer语音分离-单麦-8k

基于MossFormer的语音分离模型，可以把混杂在一起的两人语音分离开来，输入为一路混合音频，输出为两路分离后的音频，格式均为8000Hz单通道。

读光-文字检测-行检测模型-中英-通用领域

给定一张图片，检测出图中所含文字的外接框的端点的坐标值。

UniASR语音识别-日语-通用-16k-离线

UniASR是离线流式一体化语音识别系统。UniASR同时具有高精度和低延时的特点，不仅能够实时输出语音识别结果，而且能够在说话句尾用高精度的解码结果修正输出，与此同时，UniASR采用动态延时训练的方式，替代了之前维护多套延时流式系统的做法。

Mask2Former-SwinL全景分割

基于Mask2Former架构，SwinL为backbone的全景分割模型。训练数据库为COCO-Panoptic

OFA图像描述-英文-通用领域-large

根据用户输入的任意图片，AI智能创作模型3秒内快速写出“一句话描述”，可用于图像标签和图像简介。

图像人脸融合

给定一张模板图像和一张用户图像，图像人脸融合模型能够自动地将用户图中的人脸融合到模板人脸图像中，生成一张包含用户图人脸特征的新图像。

BSHM人像抠图

人像抠图对输入含有人像的图像进行处理，无需任何额外输入，实现端到端人像抠图，输出四通道人像抠图结果。

CT-Transformer标点-中文-通用-onnx

为FunASR runtime-SDK，中文离线文件转写服务使用的标点模型

GPEN人像修复增强

GPEN将预训练好的StyleGAN2网络作为decoder嵌入到人像修复模型中，并通过finetune的方式最终实现修复功能，在多项指标上达到行业领先的效果。

RetinaFace人脸检测关键点模型

给定一张图片，返回图片中人脸区域的位置和五点关键点。RetinaFace为当前学术界和工业界精度较高的人脸检测和人脸关键点定位二合一的方法，被CVPR 2020 录取。该方法的主要贡献是: 引入关键点分支，可以在训练阶段引入关键点预测分支进行多任务学习，提供额外的互补特征，inference去掉关键

Paraformer语音识别-中文-通用-16k-离线

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍

人体检测-通用-Base

给定一张输入图像，输出图像中人体的坐标。

Paraformer语音识别-中文-通用-16k-离线-large-onnx

为FunASR runtime-SDK，中文离线文件转写服务使用的ASR模型

FSMN语音端点检测-中文-通用-16k-onnx

为FunASR runtime-SDK，中文离线文件转写服务使用的VAD模型

FRCRN语音降噪-单麦-16k

支持音频通话场景和各种噪声环境下语音音频录音的单通道语音智能降噪模型算法。模型输入和输出均为16kHz采样率单通道语音时域波形信号，输入信号可有单通道麦克风直接进行录制，输出为噪声抑制后的语音音频信号[1]。

StructBERT文本相似度-中文-通用-base

StructBERT文本相似度-中文-通用-base是在structbert-base-chinese预训练模型的基础上，用atec、bq_corpus、chineseSTS、lcqmc、paws-x-zh五个数据集（52.5w条数据，正负比例0.48:0.52）训练出来的相似度匹配模型。由于lic

GPT-3预训练生成模型-中文-2.7B

2.7B参数量的中文GPT-3文本生成模型

DCT-Net人像卡通化-素描

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像素描风格转换模型。

DCT-Net人像卡通化-艺术

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像艺术风格转换模型。

卡证检测矫正模型

输入一张图片，检测其中是否出现卡证，如有则返回卡证的矩形框和角点，以及矫正后的卡证图像。

DCT-Net人像卡通化-手绘

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像手绘风格转换模型。

DCT-Net人像卡通化-3D

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像3D风格转换模型。

MGeo地址相似度匹配实体对齐-中文-地址领域-base

模型判断两条地址是否指代同一道路、村庄、POI等。将两条地址的关系分为完全对齐、部分对齐、不对齐。该任务是构建地理信息知识库的核心技术。

CSANMT连续语义增强机器翻译-中英-通用领域-large

基于连续语义增强的神经机器翻译模型以有限的训练样本为锚点，学习连续语义分布以建模全局的句子空间，并据此构建神经机器翻译引擎，有效提升数据的利用效率，显著改善模型的泛化能力和鲁棒性。

CLIP模型-中文-通用领域-large-336分辨率

本项目为CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。视觉encoder采用vit结构，文本encoder采用roberta结构。模型在多个中文图文检索数据集上进行了效果测试。

Paraformer语音识别-中文-通用-16k-离线-large-长音频版

Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳

rot_bgr

RaNER命名实体识别-中文-新闻领域-base

该模型是基于检索增强(RaNer)方法在中文MSRA数据集训练的模型。本方法采用Transformer-CRF模型，使用StructBERT作为预训练模型底座，结合使用外部工具召回的相关句子作为额外上下文，使用Multi-view Training方式进行训练。

万物识别-中文-通用领域

本模型是对包含主体物体的图像进行标签识别，无需任何额外输入，输出主体物体的类别标签，目前已经覆盖了5W多类的物体类别，几乎囊括了日常所有物体。

CT-Transformer标点-中文-通用-pytorch

中文标点通用模型：可用于语音识别模型输出文本的标点预测。

Monotonic-Aligner语音时间戳预测-16k-离线

输入语音与对应文本，生成文本中token的起止位置时间戳预测。

FSMN语音端点检测-中文-通用-8k

FSMN-Monophone VAD模型，可用于检测长语音片段中有效语音的起止时间点。

mPLUG图像描述模型-中文-base

mPLUG中文图像描述base模型

DCT-Net人像卡通化

该模型采用全新的DCT-Net（Domain-Calibrated Translation）域校准图像翻译模型，利用小样本的风格数据，即可得到高保真、强鲁棒、易拓展的人像风格转换模型。

MGeo门址地址结构化要素解析-中文-地址领域-base

模型用于识别门址地址中的常见要素，例如：行政区划信息、路网信息、POI (兴趣点)、楼栋号、户室号等。

LaMa图像填充

针对自然图片进行填充恢复，支持高分辨率图像的输入，同时支持在线refinement，使得高分辨率图片恢复出更加真实的内容细节

FSMN语音端点检测-中文-通用-16k

FSMN-Monophone VAD模型，可用于检测长语音片段中有效语音的起止时间点。

人脸质量模型FQA

DamoFD人脸检测关键点模型-0.5G

给定一张图片，返回图片中人脸区域的位置和五点关键点。DamoFD-0.5G为Damo自研的sota轻量级人脸检测器，针对如何设计可以预测stage-level表征能力的精度预测器，DamoFD从刻画network expressivity的角度出发，提出了SAR-score来无偏的刻画stage-w

实时口罩检测-通用

本模型为高性能热门应用系列检测模型中的实时口罩检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，仅需要输入一张图像，便可以获得图像中所有人脸的坐标信息，以及是否佩戴口罩。更多具体信息请参考Model card。

Paraformer语音识别-中文-通用-16k-离线-large-pytorch

Paraformer是一种非自回归端到端语音识别模型。非自回归模型相比于目前主流的自回归模型，可以并行的对整条句子输出目标文字，特别适合利用GPU进行并行推理。Paraformer是目前已知的首个在工业大数据上可以获得和自回归端到端模型相同性能的非自回归模型。配合GPU推理，可以将推理效率提升10倍