Genpicam-生成的AI相机
#python #raspberrypi #generativeai

Genpicam-生成的AI相机

生成的AI(Genai)是一种人工智能,可以创建各种图像,视频和文本。为了加速机器人起义,我将两个Genai模型链接在一起,以构建一个相机,该摄像机用单词描述当前场景,然后使用第二个模型来创建新生成的风格化图像。让我介绍基于Raspberrypi的genpicam,它用Genai重新构想了世界。

Before and after images created by GenPiCam 由genpiCam创建的图像

使用基于机器学习的图像生成器,Midjourney处理了该项目的重型处理和真正的智能。 Genpicam使用两个Midjourney功能

  • Describe以现有照片开头,并为图像创建文本说明提示。

  • Imagine将自然语言提示转换为图像

在这两个步骤之间,我允许一定的创意输入,因此Genpicam相机具有调整最终图像样式的拨号。从本质上讲,这成为了过滤器,并增加了一种动漫,流行音乐或未来派影响生成的图像。

我很无聊 - 我能得到视频吗?

肯定是2分钟的摘要

摄影过程

最初的照片图像是使用Raspberry Pi摄像头模块拍摄的。当按下时,外部摄像头快门(按钮连接到Raspberry Pi Gpio引脚)拍摄静止图像,并将照片保存为JPEG图像。

Taking still images of wildlife in the garden 在花园里拍摄野生动物的静止图像

照片上传到Midjourney,该照片从现有照片开始,并为图像创建文本描述提示。对于好奇的是,我使用一些与Pyautogui的非常不高的机器人交互来控制鼠标和键盘(因为没有API)。

MidJourney的描述工具将图像作为输入,然后生成文本提示。这是一项非常聪明的服务,通过进行反面,从照片开始,然后提取文本来描述图像的本质,从而逆转了文本的通常过程。这是下雪的,但是Midjouney具有更具表现力的描述。

Snowy the cat — laying on bed under yellow blanket … 雪地猫躺在床上的黄色毯子下

黑猫躺在黄色毯子下,以berrypunk的风格,Inridescent,闪烁,未抛光,对称,圆形,Chinapunk -AR 4:3

描述函数实际上基于图像返回四个描述,但Genpicam任意选择第一个描述。

现在是有趣的部分。我们可以提取该文本提示,并使用它来创建带有生成AI的全新图像,并带有对Midjouney Imagine的新呼吁。这是从上一个文本提示中生成的图像。

Midjouney imagine generated image from text prompt *Midjouney想象从文本提示 *

中生成的图像

genpiCam具有选择开关,可通过风格说明更新提示。

Scene selector 场景选择器

这是连接到Raspberry Pi Gpio引脚的12条旋转开关。通过阅读当前的艺术选择genpiCam将在文本提示中添加诸如“ Retro Pop Art Style Ixplulation” 之类的前缀。其他一些样式提示包括

  • 动漫风格

  • 过于逼真的,异想天开的帽子和气球,

  • 模糊笔触,

  • 未来派,在空间站,超级现实

让我们看到雪地的前后流行图像。

Final image with before and after photos along with text prompt *最终图像带有照片前后的照片以及文本提示 *

最终图像是使用Pillow Python成像库创建的,由

组成
  • Raspberry Pi摄像头模块拍摄的初始照片,大小在左侧

  • 最终的Midjouney图像 - 选择了四个图像中的第一张图像中的第一张图像,合成

  • 文本提示 - 彩色背景和图标表示样式模式

在这里是相同的过程,但是添加文本 *过度现实,异想天开,搭配五颜六色的帽子和气球。 *

即使右边的图像是生成AI的创造,但仍然会通过雪人的判断力而感到失望。

生成的AI图像学习

我非常有趣地构建了genpicam摄像头,这是探索促使生成AI的工程的有趣途径。更好的照片是具有简单构图的图像本质上很容易插话。例如,这个场景很容易用颜色和确定的对象描述。

A green stuffed animal and white keyboard 一种绿色的动物和白色键盘

但是,在描述更独特的场景的同时,有一些非常奇怪的结果。我发现了经典澳大利亚布线的描述创造了一个不寻常的图像。

Australian cloths line 澳大利亚布线

我最喜欢的重新构图之一是识别我的激光鼠标。事实证明,激光鼠标具有多个含义,导致了惊人的结果。

Laser mouse 激光鼠标

硬件

Genpicam最不时尚的部分是我匆忙组装的硬件。如果您想构建自己的现实扭曲相机,则需要以下内容。

The inner workings of GenPiCam genpicam的内部工作

这不是最美丽的构建

Boot image for GenPiCam camera genpiCam摄像头的启动图像

摘要,代码和积分

GenpiCam一直是探索生成AI,将照片转化为风格化(有时令人惊讶)图像的有趣方式。

Photo of author on the left — and a stylised version of Simon on the right 左侧作者的照片和右侧的Simon的风格化版本

学分

代码

https://github.com/saubury/GenPiCam