## 1. ERNIE-ViLG模型简介 ERNIE-ViLG是一个知识增强跨模态图文生成大模型,将文生成图和图生成文任务融合到同一个模型进行端到端的学习,从而实现文本和图像的跨模态语义对齐。可以支持用户进行内容创作,让每个用户都能够体验到一个低门槛的创作平台。[点击此处进入体验页面](https://wenxin.baidu.com/moduleApi/ernieVilg) ## 2. 模型原理介绍 百度文心ERNIE-ViLG 模型提出统一的跨模态双向生成模型,通过自回归生成模式对图像生成和文本生成任务进行统一建模,更好地捕捉模态间的语义对齐关系,从而同时提升图文双向生成任务的效果。文心 ERNIE-ViLG 在文本生成图像的权威公开数据集 MS-COCO 上,图片质量评估指标 FID(Fréchet Inception Distance)远超 OpenAI 的DALL-E等同类模型,并刷新了图像描述多项任务的最好效果。此外,文心ERNIE-ViLG还凭借强大的跨模态理解能力,在生成式视觉问答任务上也取得了领先成绩。 ## 3. 模型快速使用 ### 接口说明 ERNIE-ViLG跨模态文生图:基于文心ERNIE-ViLG大模型,根据用户输入的文本,自动创作图像。 * 温馨提示: 每个账户每日免费请求ERNIE-ViLG API服务的上限为100条输入,免费请求额度共500条输入。如需提额或者商务合作请在[合作咨询](https://wenxin.baidu.com/wenxin/apply)的需求描述里填写您的购买需求或者合作需求。 ### 获取API Key 您可以登录大模型开放API获取您的专属获取您的专属 API Key(AK)和Secret Key(SK),点击[链接](https://wenxin.baidu.com/moduleApi/key)查看您的AK和SK。请注意保护您的密钥信息,避免泄露。您可以通过删除已泄露的密钥来保护您的账户安全。  ### 调用方式 #### 在本地Python环境调用接口