微软做了一个“绘画机器人”,可以通过文字生成图片

好奇心日报1月21日消息,微软公布了一项新人工智能进展,可以通过输入的文字生成图片。

这项技术被研究人员称作是“绘画机器人”(drawing bot),当你输入文字后,机器会根据文字先生成一张模糊的图片,然后再反复识别文字的意思,逐个像素地补充图片细节。

500

根据“this bird is red with white and has a very short beak”生成图片的过程

目前这个“绘画机器人”可以生成的图片种类不限。

但对常见文字生成的图片速度和质量都较高,对不太符合常规逻辑或不常见的文字生成结果则不会太准确。

例如输入“一辆红色的双层巴士漂浮在湖面上”,会得到一个像是有着两层甲板的巴士飘在群山环绕的湖面上的模糊图像。

这个“绘画机器人”用到的核心机器学习技术是生成对抗网络(GAN),简单来说,就是有两个模型一起工作,一个根据文本生成图像,另一个则会根据文本鉴别生成图像的真实性,二者一同作用,让生成的图片更符合文本描述。

这项新进展来自微软的“视觉和语言智能”项目团队,团队创建于 2017 年 6 月,但“绘画机器人”的相关技术积累从五年前就开始了。

2015 年微软曾发布过一个“图说机器人”(CaptionBot)平台,机器可以给用户上传的图片配一句简单的描述性文字。

之后还发布过一项“SeeingAI”的应用,可以根据图片回答问题,即上传一张图片后,输入关于图片内容发生的地址或物品属性的问题,机器会给出答案。

目前“绘画机器人”还没有公开对普通用户使用,只能从论文中看到。

研究人员表示,他们希望这项技术未来可以根据电影剧本生成动画影片,不过可能要先从可以帮助影视工作人员制作脚本开始实现。 

全部专栏