01

一個好玩的影像生成計畫

這個開源計畫叫做 GLIGEN GUI，是一個使用 ComfyUI 作為後端的直觀圖形化使用者介面。GLIGEN 是一種新穎的方式，你可以框出一個區域然後指定這個區域的內容，生成更符合自己意願的影像。

比如你在一個白色的畫布不同的位置框了7個框，並在不同的框設定了內容：窗戶、玫瑰、青蛙、帽子等等，最終根據你標註的位置和提示，會生成如下的圖片。

如果你想使用 LORAs，也支持選擇 LORA 模型並調整其強度，你可以添加多個LORAs。最後，按Queue Prompt 將提示送出給ComfyUI，一旦影像生成，它將出現在畫布上。

這個工具讓使用者可以控制生成影像的大小、位置和元素之間的空間關系，比如將一只穿著宇航服的貓放在畫面中央，讓它占據主要部份。

開源地址：https://github.com/mut-ex/gligen-gui

02

虛擬服裝試穿工具

這個開源計畫叫做 OOTDiffusion，是由 Yuhao Xu、Tao Gu、Weifeng Chen和 Chengcai Chen 共同開發的。

它是一種高度可控的虛擬服裝試穿工具，可以根據不同性別和體型自動調整，和模特非常貼合。使用者可以選擇半身模型進行上半身服裝試穿，適合T恤、襯衫等上身服裝;也可以選擇全身模型進行全身服裝試穿，包括上身、下身和連衣裙等服裝型別。

OOTDiffusion的核心功能是基於潛在擴散的裝備融合，利用潛在擴散模型（latent diffusion models）的先進技術，OOTDiffusion實作了高品質的服裝影像生成和融合，確保試穿效果自然且逼真。

開源地址：https://github.com/levihsu/OOTDiffusion

基於 AI 的檔型別檢測工具

這個開源計畫叫做 Magika，是由 Google 開發的。Magika 是一個基於深度學習的檔型別檢測工具，它利用了深度學習的最新進展來提供準確的檢測。

Magika 使用了一個客製的、高度最佳化的 Keras 模型，該模型只有大約 1MB 的大小，即使在單個 CPU 上執行，也能在毫秒級別內精確地辨識檔型別。

在對超過 100 種內容型別（包括二進制和文字檔案格式）的超過 100 萬個檔進行評估後，Magika 達到了 99% 以上的精確度和召回率。

Magika 被大規模地用於提高 Google 使用者的安全性，透過將 Gmail、Drive 和 Safe Browsing 的檔路由到適當的安全和內容策略掃描器。

Magika 是開源的，並且 Google 透過開源 Magika，旨在幫助其他軟體提高他們的檔辨識準確性，並為研究人員提供一種可靠的方法來大規模辨識檔型別

開源地址：https://github.com/google/magika

谷歌開源的 Gemma

這個開源計畫叫做 Gemma，是由 Google 建立，開源一周獲得了 3.4K 的 Star。它是一個基於 PyTorch 的官方實作，具有以下特性：

Gemma 是一系列輕量級、最先進的開放模型，由用於建立 Google Gemini 模型的研究和技術構建。

它們是文本到文本、僅解碼器的大型語言模型，提供英語版本，具有開放權重、預訓練變體和指令調優變體。

提供了使用 PyTorch 和 PyTorch/XLA 的模型和推理實作，並支持在 CPU、GPU 和 TPU 上執行推理。

該開源計畫提供了使用 Docker 在 CPU、GPU 上執行 Gemma 推理的方法

開源地址：https://github.com/google/gemma_pytorch

歷史盤點

逛逛 G itHub 每天推薦一個好玩有趣的開源計畫。歷史推薦的開源計畫已經收錄到 GitHub 計畫，歡迎 Star：

地址：https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo