
使用Llama3增强高质量图像生成
Llama 3是Meta推出的大型语言模型(LLM)。在特定条件下可以免费商用(每月最多7亿次请求)。Meta Llama 3的版本从8B到400B不等,超过了谷歌的Gemma/Gemini、Mistral和Claude 3 Sonnet等可比模型,能够在4GB GPU上高效运行。
导读
本文介绍:如何使用Llama 3来增加图像的生成的质量和效果?
STABLE DIFFUSION
Llama 3引发了新一波丰富用户Prompt的应用。
流行的AI生成工具,如ComfyUI和Automatic1111/Forge现在无缝集成了Llama 3。这使得提示增强变得更加容易,无需复杂的操作,这要归功于配套的插件
什么是Llama 3?
Llama 3是Meta推出的大型语言模型(LLM)。在特定条件下可以免费商用(每月最多7亿次请求)。Meta Llama 3的版本从8B到400B不等,超过了谷歌的Gemma/Gemini、Mistral和Claude 3 Sonnet等可比模型,能够在4GB GPU上高效运行。
安装Ollama
Ollama 用作安装 Llama 3 的辅助工具。您可以从下面的链接下载与您的操作系统兼容的版本。
下载Ollama
在启动 Ollama 后,在终端中执行以下命令以下载 llama3_ifai_sd_prompt_mkr_q4km。它大约占用 4.9GB 的存储空间。
ollama run impactframes/llama3_ifai_sd_prompt_mkr_q4km
该模型将 Llama 3 与 5000 个高质量的稳定扩散提示结合在一起,以确保优越的提示性能和质量。
下载完成后,您可以与 Llama 3 进行对话。它专门设计用于提示。如果我向 Llama 3 输入 1girl,它将详细描述提示,并提供关于 1girl 概念的详细见解。
提示:可爱、充满活力的年轻女孩,灿烂的微笑,卷曲的棕色头发,独自站在郁绿的森林林地上,脖子上戴着鲜艳的花环,用闪亮的眼睛直视着观众,周围开满了盛开的野花,阳光透过树木洒落下来。
安装扩展
每次手动复制提示都是不切实际的,按照指南安装 ComfyUI 节点和 Automatic1111 StableDiffusionWebUI/Forge 扩展,以简化 Llama 3 的使用。
自动稳定扩散 WebUI/Forge 扩展
WebUI 和 Forge 版本共享相同的扩展和安装过程,如下所述。
导航到 Extensions > Available,然后点击 Load from,然后搜索 IF_prompt_MKR 以找到并安装它。
扩展设置
- 安装后,转到 设置 > 未分类 > iF_prompt_MKR 并将生成提示的 API 选择设置为 Ollama。
-
然后在脚本部分,选择 iF_prompt_MKR。
-
在文本模型中,选择字符作为 iF_prompt_MKR。
-
选择文本模型为 impactframes/llama3_ifai_sd_prompt_mkr_q4km:latest。
-
您可以在输入提示字段中输入一个简单的提示。
-
请注意,启用扩展将使用 iF_prompt_MKR 生成的提示替换原始提示框。
- 在样式(可选)下,自定义和设置提示的样式。选择的样式将显示用于立即修改提示的样式。
在前缀和嵌入以及后缀和洛拉中,如果需要,选择嵌入模型和洛拉模型。尽管这些是可选的。
选择负面提示将在文本字段中显示选项。我选择了 simple_negative。
我使用 Juggernaut XL Lightning 作为检查点模型。如果不使用 Lightning 或 Turbo 模型,请调整步骤和 CFG 比例。
使用此扩展时,终端会提供提示的指南和建议供参考。
比较测试
在 iF_prompt_MKR 文本模型中,将女孩,蓝天背景作为提示输入。样式选择为史诗和摄影,负面提示为简单负面。
在没有 Llama 3 支持的情况下生成相同提示的图像。
虽然两组图像都描绘了一个女孩站在蓝天背景下,但使用 Llama 3 提示生成的图像更丰富,具有更多的细节和背景内容。Llama 3 显著增强了提示,特别是当原始提示缺乏具体性时。
ComfyUI
安装 Ollama 后,使用 ComfyUI 管理器搜索 ComfyUI-IF_AI_tools 并安装它。
然后在以下链接中下载工作流程:
使用 Llama 3 为 ComfyUI 生成提示
我配置它来比较常规提示和 Llama 3 增强提示。在 IF Prompt to Prompt 部分,我使用toy cat作为提示。
-
我选择了 Juggernaut XL Lightning 作为检查点模型,如果不使用 Lightning Model,则调整 steps 和 cfg。
-
样式装饰提示设置为 Epic,样式提示设置为 DigitalArt,负面提示设置为 simple_negative。
在 IF Display Text 中,观察 Llama 3 生成的提示与原生提示的不同之处,顶部显示 prompts,底部显示 negative prompts。
Llama 3 增强的提示结果在背景内容上更丰富和详细。
结论
与 Llama 3 一起使用的扩展极大地简化了增强提示的过程。尽管在增强后偶尔会出现偏差,但总体测试结果非常令人满意,特别是当初始提示缺乏详细的背景描述时。
Llama 3 提供的补充上下文显著增强了图像,使其成为 Stable Diffusion 提示生成武器库中不可或缺的元素。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)