我也尝试过使用模型去做一些学术用的示意图,结果发现还不如自己手动画
【本文来自《免费图像编辑生成模型测试》评论区,标题为小编添加】
- 印加节度使
愿意,但是看法并不好……只有去水印、去背景(还不一定保证对)、对我已经手画到非常完备的画进行简单补全(比如将一块原本我留白的地方补全成天空),这种工作的质量我一般可以接受。还有一种可接受的没什么用的工作是把我自己的照片修脸、换发型换衣服改成洛裙(汉服都不行,汉服一定会出低级历史错误)或男的。除此之外,目前LLM的生图至少以我的标准下限可以说什么都干不了,反而写水文章还有用。
问题不在画风,一般可调到想要的,只要假以时日抽大量的卡,总有机会撞出可用的成品来(豆包不行)。问题在于LLM对提示词对应画面的理解实在太差了。我不想要他浪费算力生一堆无用的备选项,我想要他一次把我的小学生难度的提示词给执行准;但实际上现在不要说你第六幅这种复杂镜面投影了(我完全想象不出基于Transformer架构的LLM能如何理解这种工程计算要求,根本不报任何希望),大多数时候连要他水平翻转画面、同时保持图片内嵌的文字不翻转,或者要他把对一个静物的左前方视角转到右前方、或者要他把左侧背景和右侧背景对称颠倒这种操作都不能理解……不要说LLM了,即梦的理解力都是极低的,真正做有用工作需要用ConfyUI之类专业工具像你们工科的人跑电路仿真一样拉一堆系统图出来才能准确复现(而不是耗费大量时间抽卡撞)我想要的效果。除非做视频,如果做单张插图什么的,其麻烦程度远不如我自己画……
话说你这个第二幅画的背景大理石裂纹穿模到金箔上了,第三幅画人脸有强烈的PS感、窗框样式没能稳定或符合逻辑(随机生成了一些分框)、山水画上汉字不可读什么的是固有bug无所谓了、但光影也让我看不懂(都有问题但这幅极其过分,PS感的重要来源之一),第四幅前景和背景感觉时代差了两三百年(背景感觉像是文艺复兴前的),第五幅这个带彩色玻璃像是门的结构明显不可开(六根铁条钉死了)、三把锁(但其中一把的位置显然会压碎玻璃),难道是某种封印入口?另外虽然高跟鞋应该是你给的提示词,但确实与这些古典场景很不协调,这些时代高跟鞋即使有也是给男人穿的。不过你都给她们穿天鹅绒旗袍了也无所谓了……
谢谢你提供给出了很多细节性的描述的评论。我同意现在做图像生成的大语言模型做做去水印、换背景效果、画风等还可以。当然,如果要求非常高的保真度,估计需要来回修改不少轮,很容易就会超过每天可以免费使用的次数配额了。话说我也尝试过在文中的图片编辑中让模型给换上汉服,不过我觉得就上面使用的模特们,还是旗袍更适合一些,否则违和感更强。如果你的应用希望用模型给换上汉服,我建议不要直接使用大量的提示词进行描述,而是直接上传你需要的由人穿着的汉服款式照片,让模型进行人物替换,效果会比采用提示词描述更好。
话说,我也尝试过使用模型去做一些学术用的示意图,结果是除非是可以用代码完成的流程图之类的,否则还不如手动自己画。



物理学博士



