Falcon-7B-Instruct 是 TII 在 Falcon-7B的基础上建立的7B参数因果解码器专用模型,并在chat/instruct数据集的混合中进行了微调。它是在Apache 2.0许可下提供的。
Paper coming soon 😊.
💬 这是一个指导性的模型,对于进一步的微调可能并不理想。 如果你有兴趣建立你自己的指示/聊天模型,我们建议从猎鹰-7B开始.
🔥 想找一个更强大的模型吗? Falcon-40B-Instruct 是Falcon-7B-Instruct的大哥!
from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
pipe = pipeline(task=Tasks.text_generation, model='AI-ModelScope/falcon-7b-instruct', model_revision='v1.0.1', device='cuda')
query="Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:"
result = pipe(query)
print(result)
💥 Falcon LLMs require PyTorch 2.0 for use with transformers
!
猎鹰-7B-Instruct已经在指示和聊天数据集的混合中进行了微调。
在没有充分评估风险和缓解措施的情况下进行生产使用;任何可能被认为是不负责任或有害的使用情况。
Falcon-7B-Instruct主要是在英语数据上训练的,不会适当地推广到其他语言。此外,由于它是在代表网络的大规模语料库上训练的,它将带有网上常见的定型观念和偏见。
我们建议Falcon-7B-Instruct的用户制定护栏,并对任何生产使用采取适当的预防措施。
Falcon-7B-Instruct在250M tokens混合的指示/聊天数据集上进行了微调。
Data source | Fraction | Tokens | Description |
---|---|---|---|
Bai ze | 65% | 164M | chat |
GPT4All | 25% | 62M | instruct |
GPTeacher | 5% | 11M | instruct |
RefinedWeb-English | 5% | 13M | massive web crawl |
The data was tokenized with the Falcon-7B/40B tokenizer.
Paper coming soon.
See the OpenLLM Leaderboard for early results.
请注意,这个模型变体没有针对NLP基准进行优化。
有关预训练的更多信息, 请见Falcon-7B.
Falcon-7B-Instruct is made available under the Apache 2.0 license.