當前位置: 妍妍網 > 碼農

這個 AI 生成圖片開源計畫真好玩!

2024-02-26碼農

本期推薦開源計畫目錄:

1. 一個好玩的影像生成計畫

2. 虛擬服裝試穿工具

3. 基於 AI 的檔型別檢測工具

4. 谷歌開源的 Gemma

01

一個好玩的影像生成計畫

這個開源計畫叫做 GLIGEN GUI,是一個使用 ComfyUI 作為後端的直觀圖形化使用者介面。GLIGEN 是一種新穎的方式,你可以框出一個區域然後指定這個區域的內容,生成更符合自己意願的影像。

比如你在一個白色的畫布不同的位置框了7個框,並在不同的框設定了內容:窗戶、玫瑰、青蛙、帽子等等,最終根據你標註的位置和提示,會生成如下的圖片。

如果你想使用 LORAs,也支持選擇 LORA 模型並調整其強度,你可以添加多個LORAs。最後,按Queue Prompt 將提示送出給ComfyUI,一旦影像生成,它將出現在畫布上。

這個工具讓使用者可以控制生成影像的大小、位置和元素之間的空間關系,比如將一只穿著宇航服的貓放在畫面中央,讓它占據主要部份。

開源地址:https://github.com/mut-ex/gligen-gui

02

虛擬服裝試穿工具

這個開源計畫叫做 OOTDiffusion,是由 Yuhao Xu、Tao Gu、Weifeng Chen和 Chengcai Chen 共同開發的。

它是一種高度可控的虛擬服裝試穿工具,可以根據不同性別和體型自動調整,和模特非常貼合。使用者可以選擇半身模型進行上半身服裝試穿,適合T恤、襯衫等上身服裝;也可以選擇全身模型進行全身服裝試穿,包括上身、下身和連衣裙等服裝型別。

OOTDiffusion的核心功能是基於潛在擴散的裝備融合,利用潛在擴散模型(latent diffusion models)的先進技術,OOTDiffusion實作了高品質的服裝影像生成和融合,確保試穿效果自然且逼真。

開源地址:https://github.com/levihsu/OOTDiffusion

03

基於 AI 的檔型別檢測工具

這個開源計畫叫做 Magika,是由 Google 開發的。Magika 是一個基於深度學習的檔型別檢測工具,它利用了深度學習的最新進展來提供準確的檢測。

Magika 使用了一個客製的、高度最佳化的 Keras 模型,該模型只有大約 1MB 的大小,即使在單個 CPU 上執行,也能在毫秒級別內精確地辨識檔型別。

在對超過 100 種內容型別(包括二進制和文字檔案格式)的超過 100 萬個檔進行評估後,Magika 達到了 99% 以上的精確度和召回率。

Magika 被大規模地用於提高 Google 使用者的安全性,透過將 Gmail、Drive 和 Safe Browsing 的檔路由到適當的安全和內容策略掃描器。

Magika 是開源的,並且 Google 透過開源 Magika,旨在幫助其他軟體提高他們的檔辨識準確性,並為研究人員提供一種可靠的方法來大規模辨識檔型別

開源地址:https://github.com/google/magika

04

谷歌開源的 Gemma

這個開源計畫叫做 Gemma,是由 Google 建立,開源一周獲得了 3.4K 的 Star。它是一個基於 PyTorch 的官方實作,具有以下特性:

Gemma 是一系列輕量級、最先進的開放模型,由用於建立 Google Gemini 模型的研究和技術構建。

它們是文本到文本、僅解碼器的大型語言模型,提供英語版本,具有開放權重、預訓練變體和指令調優變體。

提供了使用 PyTorch 和 PyTorch/XLA 的模型和推理實作,並支持在 CPU、GPU 和 TPU 上執行推理。

該開源計畫提供了使用 Docker 在 CPU、GPU 上執行 Gemma 推理的方法

開源地址:https://github.com/google/gemma_pytorch

歷史盤點

逛逛 G itHub 每 天推薦一個好玩有趣的開源計畫。 歷史推薦的開源計畫已經收錄到 GitHub 計畫,歡迎 Star:

地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo

推薦閱讀

1.

2.

3.

4.