Genpicam-生成的AI相机
生成的AI(Genai)是一种人工智能,可以创建各种图像,视频和文本。为了加速机器人起义,我将两个Genai模型链接在一起,以构建一个相机,该摄像机用单词描述当前场景,然后使用第二个模型来创建新生成的风格化图像。让我介绍基于Raspberrypi的genpicam,它用Genai重新构想了世界。
使用基于机器学习的图像生成器,Midjourney处理了该项目的重型处理和真正的智能。 Genpicam使用两个Midjourney功能
在这两个步骤之间,我允许一定的创意输入,因此Genpicam相机具有调整最终图像样式的拨号。从本质上讲,这成为了过滤器,并增加了一种动漫,流行音乐或未来派影响生成的图像。
我很无聊 - 我能得到视频吗?
肯定是2分钟的摘要
摄影过程
最初的照片图像是使用Raspberry Pi摄像头模块拍摄的。当按下时,外部摄像头快门(按钮连接到Raspberry Pi Gpio引脚)拍摄静止图像,并将照片保存为JPEG图像。
照片上传到Midjourney,该照片从现有照片开始,并为图像创建文本描述提示。对于好奇的是,我使用一些与Pyautogui的非常不高的机器人交互来控制鼠标和键盘(因为没有API)。
MidJourney的描述工具将图像作为输入,然后生成文本提示。这是一项非常聪明的服务,通过进行反面,从照片开始,然后提取文本来描述图像的本质,从而逆转了文本的通常过程。这是下雪的,但是Midjouney具有更具表现力的描述。
黑猫躺在黄色毯子下,以berrypunk的风格,Inridescent,闪烁,未抛光,对称,圆形,Chinapunk -AR 4:3
描述函数实际上基于图像返回四个描述,但Genpicam任意选择第一个描述。
现在是有趣的部分。我们可以提取该文本提示,并使用它来创建带有生成AI的全新图像,并带有对Midjouney Imagine的新呼吁。这是从上一个文本提示中生成的图像。
中生成的图像genpiCam具有选择开关,可通过风格说明更新提示。
这是连接到Raspberry Pi Gpio引脚的12条旋转开关。通过阅读当前的艺术选择genpiCam将在文本提示中添加诸如“ Retro Pop Art Style Ixplulation” 之类的前缀。其他一些样式提示包括
-
动漫风格
-
过于逼真的,异想天开的帽子和气球,
-
模糊笔触,
-
未来派,在空间站,超级现实
让我们看到雪地的前后流行图像。
最终图像是使用Pillow Python成像库创建的,由
组成-
Raspberry Pi摄像头模块拍摄的初始照片,大小在左侧
-
最终的Midjouney图像 - 选择了四个图像中的第一张图像中的第一张图像,合成
-
文本提示 - 彩色背景和图标表示样式模式
在这里是相同的过程,但是添加文本 *过度现实,异想天开,搭配五颜六色的帽子和气球。 *
即使右边的图像是生成AI的创造,但仍然会通过雪人的判断力而感到失望。
生成的AI图像学习
我非常有趣地构建了genpicam摄像头,这是探索促使生成AI的工程的有趣途径。更好的照片是具有简单构图的图像本质上很容易插话。例如,这个场景很容易用颜色和确定的对象描述。
但是,在描述更独特的场景的同时,有一些非常奇怪的结果。我发现了经典澳大利亚布线的描述创造了一个不寻常的图像。
我最喜欢的重新构图之一是识别我的激光鼠标。事实证明,激光鼠标具有多个含义,导致了惊人的结果。
硬件
Genpicam最不时尚的部分是我匆忙组装的硬件。如果您想构建自己的现实扭曲相机,则需要以下内容。
RaspberryPi 4 running Raspberry Pi OS
-
可充电电池组
这不是最美丽的构建
摘要,代码和积分
GenpiCam一直是探索生成AI,将照片转化为风格化(有时令人惊讶)图像的有趣方式。
学分
-
Ned Letcher首先通过炫耀Midjourney来启发我的灵感,并提供了重新创建图像的概念
-
How to Create a Discord Bot to Download Midjourney Images撰写的迈克尔·金(Michael King)的一篇很棒的文章显示了与Midjourney互动的Python自动化以及Discord Bot配置。
-
Midjourney - bot频道的midjourney命令语法
-
discord.py - python api包装器。