Category Archives: AIGC

AIGC

Midjourney常用参数备忘

–v,选择模型版本
–aspect/–ar,出图宽高比,如 –ar 16:9
–stylize/–s,样式化程度,即更偏艺术风格还是更接近现实,0~1000,默认100
–quality/–q,图像质量,0.25/0.5/1/2,数值越大清晰度越高,时间也越长
–seed,指定种子,保证一致性
–chaos/–c,图像生成的随机性,0~100,数值越高,图像变化越大
–no,排除指定元素,如 –no water
–tile,创建可无缝拼接的重复图案,可用于壁纸、地板
–niji,使用专门动漫和漫画风格设计的版本生成图片,如 –niji 6
–iw,使用单张或多张参考图作为生图的参考,结合提示词生图,0~3,值越大参考程度越大,如 https://xxx/图片url A woman xxx, –iw 1.5
–cref,角色一致性,可与–cw配合使用,可设定生产图片的风格和参考图片的风格相似度,cw越大、可排斥生产图片和参考图片五官、服饰基本一样,如 Science ficton warrior…, –cref https://xxxx/参考图片地址 –cw 100
–sref,参考风格图像,如 –sref retro sculpture, –sref https://xxx/图片地址 –sw 500

AIGC 业界杂谈

AI谱曲与舞蹈

本文介绍两个好玩的AI工具,都是今年上半年新推出的,都是国外的的网站,趁现在不用魔法就能白嫖,有兴趣的可以试试:
第一个是AI作曲网站,suno.com,这是我用它谱的曲子,歌词是用chatgpt写的,大家可以听听效果
春之歌 >>
操作不复杂,只要在create页面,上传歌词、设定曲风就可以了
第二个是AI合成舞蹈,viggle.ai,这个用起来相对复杂一些,要选择一个舞蹈动作模版,再选一张四肢清晰的正脸照片,就可以了。这是它的官方宣传视频,

需要注意的是,一定要选正脸照片,否则AI可以能给换张脸^_^;一定要选四肢清晰的照片,不能是穿裙子之类的衣服,否则AI区分不出四肢,出来动作会很奇怪
——over
转载请注明出处: 昆仑的山头

AIGC

使用GPT-SoVITS克隆声音

GPT-SoVITS是一个集模型训练、声音合成于一体的开源AI声音处理项目,项目地址:https://github.com/RVC-Boss/GPT-SoVITS,感兴趣的可以照项目主页readme里的安装方法安装。这个安装难度不高,比较麻烦的python版本的匹配,可以通过conda为其单独开安装一个python版本:conda create –name py39 python=3.9
项目安装完以后,需要到项目目录内看一下是否自动下载了模型(包括models和Weights),模型地址见readme。我这边实际测试,windows版本自动安装了模型,但mac版本的就没有自动安装模型,需要手动下载、再按要求放入指定目录
GPT-SoVITS的使用分简单和复杂两种办法,简单方法是使用项目自带模型。具体做法是,启动webui后,选择“1-GPT-SoCITS-TTS”-“1c-推理”,然后点选项目的“是否开启TTS推理WebUI”,待自动打开新页面后,选择系统的GPT模型和SoVITS模型,上传准备好的参考音频、输入参考音频文本内容,参考音频需要控制在3~10秒;然后输入要合成的文体,点击“合成语音”,但是这种合成出来效果并不好,而且容易出错,大家可以感受一下
示例音频
文本:“小草偷偷地从土地里钻出来,嫩嫩的,绿绿的。园子里,田野里,瞧去,一大片一大片满是的。坐着,躺着,打两个滚,踢几脚球,赛几趟跑,捉几回迷藏。风轻悄悄的,草软绵绵的”
合成音频
更推荐的做法,是自己训练模型,也不算复杂,首先,要先找一段3~5分钟尽量感觉干净无噪声、无背景音乐的人声音频,然后按如下步骤操作:
1. 使用“前置数据集获取工具”,在“0b-语音切分工具”内,选择音频输入输出路径后,点击“开启语音切割”,将语音切割成多个小段
2. 将上一步的分段语音输出路径,拷贝到下面的“0c-中文批量离线ASR工具”内,点击“开启离线批量ASR”,将语音自动识别为文字文本

3. 使用“0c-语音文本校对标注工具”,点击“开启打标webUI”,在新页面内校对语音文本(嫌webui不好用,可以自己找到上一步生成的opt文件,然后用自己习惯的文本编辑器修改)

4. 切换到“1-GPT-SoVITS-TTS”选项卡,在第一行输入你想要的模型名称
5. 在“1A-训练集格式化工具”内,输入切分音频.list路径,和打标opt文件路径,点击最下方“一键三连”,开始格式化进程,输出内容会放在项目路径下logs目录内


6. 切换到“1B-微调训练”,依次“开启SoVITS训练”和“开启GTP训练”,开始训练模型。这一步看电脑配置,配置低或者CPU运行的话,会很慢
模型训练完成后,重复本文开始的步骤:切换到“1C-推理”,点击“开启webui”,点击“刷新模型路径”,找到自己训练的GTP和SoVITS模型,再试一下刚才的语音,感觉音色好了不少:
但董佳耀的语音太冲,所以重新用更舒缓的语音训练了一个模型,效果还不错:
舒缓语音参考音频
舒缓语音训练结果:
——over
转载请注明出处: 昆仑的山头
———-
一周后补充:
“鄙视小帅、理解小帅、曾经小帅”
比较了GPT-SoVITS,和其他渠道的音频合成效果,最终还是选择了自己曾经鄙视的“解说小帅”,理由很简单:清晰! O(∩_∩)O哈哈~

AIGC

玩转StableDiffusion.10——老照片放大、上色

今天来说一个StableDiffusion的实用技术:老照片放大上色。StableDiffusion里有不少功能都能对图片做放大,但是对比下来,针对不同的照片类型,效果还是差异很大的,这里就介绍一种对小尺寸、但相对清晰的黑白照片的处理过程。分两步,先放大、再上色。
第一步,进入“后期处理”选项卡(有些版本也翻译成“附加功能”),按下图所示做设置、对图片做放大

如果放大效果不理想,可以调整放大算法多尝试几次。关于各种放大算法的差异,可以参阅这篇知乎文章:https://zhuanlan.zhihu.com/p/672717691
第二部,将放大后的图片导入到图生图,然后按如下方式,使用ControlNet的控制类型:Recolor
因为要上色,所以这里重绘幅度设置较大。来看一下处理前后的对比

除了上面提到的图片给放大的方法,针对模糊、褪色的老照片,还可以综合采用ControlNet的其他类型,以及脚本里的“Ultimate SD upscale”,尝试对照片做处理。手头有多年前用手机隔着相框拍的黑白旧照片,模糊、还有麻点,等我找到了修复这种照片的方法,会再写一篇blog o(* ̄︶ ̄*)o
对了,补充一下Recolor模型的下载地址:https://huggingface.co/lllyasviel/sd_control_collection/blob/main/ioclab_sd15_recolor.safetensors
——over
转载请注明出处: 昆仑的山头

AIGC

玩转StableDiffusion.9——把文字和logo隐藏进图片

先上几幅“秀色可餐”的美图

效果还不错吧 ^_^,这种图片隐藏文字的方式,很适合做海报、节日主题图。下面就来说说具体做法:
需要用到ControlNet的qrcode、brightness模型,下载地址:https://huggingface.co/lllyasviel/control_v11p_sd15_scribble/tree/main,大模型推荐realisticVisionV40_V4OVAE,或者其他写实模型,正反向关键词参考:“winter,snowstorm,night,((nobody)),”、“deformed iris, deformed pupils, semi-realistic,cgl,3d,render,sketch, cartoon, drawing, anime”,ControlNet两个单元配置如下


点击生成:
换个logo图试试

——over
转载请注明出处: 昆仑的山头