随着百度的发布,中文互联网充斥着各种关于能力的质疑,其实文心一言发布之前百度很早就上线了专门用于图像生成的模型。笔者亲测同样会闹文心一言一样的笑话。而这些笑话大部分都是给模型的输入只是一个词语,特别很多是成语,我相信这和训练模型的样本有着巨大的差异,文本转图像模型(text2image)设计的初衷就不是用于把一个词语或者成语转化为图像的,而是根据文本描述来生成图像,描述越细致图像生成越精准。网上广为好评的 能够生成各种惊艳的作品,也是和对应的分不开的。
只要有合适的 你可以扩展一幅名画。
MidJourney扩展了梵高的星空
接下我会简单对比同样的prompt下文心一格,MidJourney,4()生成的。
第1轮比较
prompt – “a robot working on a laptop, retro, illustrated, comic style”
一台在笔记本电脑上工作的,复古,插画,风格
a robot working on a laptop, retro, illustrated, comic style
文心一格在同样的提示下生成的:
一台在笔记本电脑上工作的,复古,插画,风格
4(new bing 多模态)
a robot working on a laptop, retro, illustrated, comic style
三个模型都能够按照提示生成图片,的理解更到位一些。
第2轮比较
Midjourney prompt – “logo design for a food truck business, Psychedelic style”
“食品卡车业务的标志设计,迷幻风格”
logo design for a food truck business, Psychedelic style
文心一格在同样的提示下生成的图片:
食品卡车业务的标志设计,迷幻风格
GPT4(new bing 多模态)
logo design for a food truck business, Psychedelic style
GPT4效果差一些,其他两个模型基本可以非常好的完成prompt提出的任务。通过上面的简单的对比,。我觉得大部分人都误会了文心一言。
为了进一步验证,我把郑智化的一首歌《我这样的男人》的歌词转化成Prompt,用文心一格生成的图片制作了一个。
我这样的男人https://www.zhihu.com/video/1622815680855855104
大家可以看一下,文心一格生成的图片和歌词还是十分贴切的。
Prompt engineering 是一门新兴的学科,它涉及到如何设计和优化系统的输入和输出。prompt engineering 的目的是让系统能够更好地理解人类的需求和意图,以及更有效地传达信息和建议。prompt engineering 包括了多个方面,例如选择合适的数据集、构建合理的查询、评估系统的性能和可靠性等。而中文的Prompt Engineering研究还才起步一定会面临很多挑战,需要大家沉下心来多做研究,多一点耐心少点浮躁。
下面一些参考