Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."
{"32": {"inputs": {"vae_name": "ae.safetensors"}, "class_type": "VAELoader", "_meta": {"title": "Load VAE"}}, "34": {"inputs": {"clip_name1": "ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors", "clip_name2": "t5xxl_fp16.safetensors", "type": "flux", "device": "default"}, "class_type": "DualCLIPLoader", "_meta": {"title": "DualCLIPLoader"}}, "187": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["569", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate - Gh\u00e9p \u1ea3nh tham chi\u1ebfu"}}, "189": {"inputs": {"clip_name": "sigclip_vision_patch14_384.safetensors"}, "class_type": "CLIPVisionLoader", "_meta": {"title": "Load CLIP Vision"}}, "190": {"inputs": {"style_model_name": "flux1-redux-dev.safetensors"}, "class_type": "StyleModelLoader", "_meta": {"title": "Load Style Model"}}, "192": {"inputs": {"strength": 1, "strength_type": "multiply", "conditioning": ["195", 0], "style_model": ["190", 0], "clip_vision_output": ["581", 0]}, "class_type": "StyleModelApply", "_meta": {"title": "Apply Style Model"}}, "193": {"inputs": {"noise_mask": false, "positive": ["192", 0], "negative": ["198", 0], "vae": ["32", 0], "pixels": ["199", 1], "mask": ["199", 2]}, "class_type": "InpaintModelConditioning", "_meta": {"title": "InpaintModelConditioning"}}, "194": {"inputs": {"unet_name": "flux1-fill-dev.safetensors", "weight_dtype": "fp8_e4m3fn"}, "class_type": "UNETLoader", "_meta": {"title": "Load Diffusion Model"}}, "195": {"inputs": {"guidance": 30, "conditioning": ["197", 0]}, "class_type": "FluxGuidance", "_meta": {"title": "FluxGuidance"}}, "196": {"inputs": {"strength": 1, "model": ["582", 0]}, "class_type": "DifferentialDiffusion", "_meta": {"title": "Differential Diffusion"}}, "197": {"inputs": {"text": "32K UHD, ultra-high resolution, extremely sharp, intricate details, masterpiece, realistic, Clothes wrinkle naturally", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "N\u1ebfu \u1ea3nh ra kh\u00f4ng \u0111\u01b0\u1ee3c nh\u01b0 \u00fd => H\u00e3y m\u00f4 t\u1ea3 th\u00eam"}}, "198": {"inputs": {"text": "", "clip": ["34", 0]}, "class_type": "CLIPTextEncode", "_meta": {"title": "CLIP Text Encode (Prompt)"}}, "199": {"inputs": {"context_expand_pixels": 10, "context_expand_factor": 1, "fill_mask_holes": true, "blur_mask_pixels": 0, "invert_mask": false, "blend_pixels": 32, "rescale_algorithm": "bicubic", "mode": "ranged size", "force_width": 1024, "force_height": 1024, "rescale_factor": 1.2, "min_width": 512, "min_height": 512, "max_width": 1536, "max_height": 1536, "padding": 32, "image": ["187", 0], "mask": ["224", 0], "optional_context_mask": ["225", 0]}, "class_type": "InpaintCrop", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Crop node)"}}, "203": {"inputs": {"samples": ["234", 0], "vae": ["32", 0]}, "class_type": "VAEDecode", "_meta": {"title": "VAE Decode"}}, "204": {"inputs": {"rescale_algorithm": "bislerp", "stitch": ["199", 0], "inpainted_image": ["203", 0]}, "class_type": "InpaintStitch", "_meta": {"title": "(OLD \ud83d\udc80, use the new \u2702\ufe0f Inpaint Stitch node)"}}, "206": {"inputs": {"expand": 10, "incremental_expandrate": 0, "tapered_corners": true, "flip_input": false, "blur_radius": 2, "lerp_alpha": 1, "decay_factor": 1, "fill_holes": false, "mask": ["518", 1]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur (\u0111i\u1ec1u ch\u1ec9nh m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "210": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["219", 0], "image2": ["356", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate (gh\u00e9p t\u1ea1o m\u1eb7t n\u1ea1 trang ph\u1ee5c)"}}, "219": {"inputs": {"width": ["504", 1], "height": ["504", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "220": {"inputs": {"width": ["569", 1], "height": ["569", 2], "batch_size": 1, "color": 0}, "class_type": "EmptyImage", "_meta": {"title": "EmptyImage"}}, "221": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["222", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "222": {"inputs": {"mask": ["232", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "223": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["221", 0], "image2": ["220", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate m\u1eb7t n\u1ea1 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "224": {"inputs": {"channel": "red", "image": ["223", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "225": {"inputs": {"channel": "red", "image": ["210", 0]}, "class_type": "ImageToMask", "_meta": {"title": "Convert Image to Mask"}}, "232": {"inputs": {"expand": 15, "incremental_expandrate": 0.0, "tapered_corners": false, "flip_input": false, "blur_radius": 4.0, "lerp_alpha": 1.0, "decay_factor": 1.0, "fill_holes": true, "mask": ["371", 0]}, "class_type": "GrowMaskWithBlur", "_meta": {"title": "Grow Mask With Blur"}}, "234": {"inputs": {"seed": 629966258210641, "steps": 20, "cfg": 1, "sampler_name": "euler", "scheduler": "simple", "denoise": 1, "model": ["196", 0], "positive": ["193", 0], "negative": ["193", 1], "latent_image": ["193", 2]}, "class_type": "KSampler", "_meta": {"title": "KSampler"}}, "279": {"inputs": {"prompt": ["578", 0], "threshold": 0.3, "sam_model": ["280", 0], "grounding_dino_model": ["281", 0], "image": ["405", 0]}, "class_type": "GroundingDinoSAMSegment (segment anything)", "_meta": {"title": "GroundingDinoSAMSegment (segment anything)"}}, "280": {"inputs": {"model_name": "sam_vit_h (2.56GB)"}, "class_type": "SAMModelLoader (segment anything)", "_meta": {"title": "SAMModelLoader (segment anything)"}}, "281": {"inputs": {"model_name": "GroundingDINO_SwinT_OGC (694MB)"}, "class_type": "GroundingDinoModelLoader (segment anything)", "_meta": {"title": "GroundingDinoModelLoader (segment anything)"}}, "293": {"inputs": {"value": 1536}, "class_type": "SimpleMathInt+", "_meta": {"title": "1536 Resolution"}}, "296": {"inputs": {"any_02": ["293", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "356": {"inputs": {"mask": ["206", 0]}, "class_type": "MaskToImage", "_meta": {"title": "Convert Mask to Image"}}, "368": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/021e43c9-0966-41ca-9c95-8f86a71b951e.webp", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh trang ph\u1ee5c"}, "is_changed": NaN}, "371": {"inputs": {"any_01": ["279", 1], "any_02": ["405", 1]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "404": {"inputs": {"images": ["487", 0]}, "class_type": "PreviewImage", "_meta": {"title": "Xem tr\u01b0\u1edbc m\u1eb7t n\u1ea1 t\u00e1ch \u0111\u1ed3 tr\u00ean ng\u01b0\u1eddi m\u1eabu"}}, "405": {"inputs": {"image": "https://s3.prod.nordy.ai/media/raw/622c097e-e328-4291-b194-111942a0b5b1.png", "choose file": "image", "File Direct Upload": "image"}, "class_type": "LoadImage", "_meta": {"title": "T\u1ea3i \u1ea3nh ng\u01b0\u1eddi m\u1eabu"}, "is_changed": NaN}, "487": {"inputs": {"direction": "left", "match_image_size": true, "image1": ["504", 0], "image2": ["221", 0]}, "class_type": "ImageConcanate", "_meta": {"title": "Image Concatenate"}}, "504": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["405", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "518": {"inputs": {"torchscript_jit": "default", "image": ["570", 0]}, "class_type": "InspyrenetRembg", "_meta": {"title": "Inspyrenet Rembg"}}, "534": {"inputs": {"width": ["504", 1], "height": ["504", 2], "position": "top-right", "x_offset": 0, "y_offset": 0, "image": ["204", 0]}, "class_type": "ImageCrop+", "_meta": {"title": "\ud83d\udd27 Image Crop"}}, "539": {"inputs": {"any_01": ["534", 0], "any_02": ["534", 0]}, "class_type": "Any Switch (rgthree)", "_meta": {"title": "Any Switch (rgthree)"}}, "559": {"inputs": {"filename_prefix": "ComfyUI", "images": ["539", 0]}, "class_type": "SaveImage", "_meta": {"title": "Save Image"}}, "560": {"inputs": {"seed": 1083186878674920}, "class_type": "Seed Everywhere", "_meta": {"title": "Seed Everywhere"}}, "569": {"inputs": {"width": 0, "height": ["504", 2], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "570": {"inputs": {"width": 0, "height": ["296", 0], "interpolation": "lanczos", "method": "keep proportion", "condition": "always", "multiple_of": 0, "image": ["368", 0]}, "class_type": "ImageResize+", "_meta": {"title": "\ud83d\udd27 Image Resize"}}, "577": {"inputs": {"upscale_method": "lanczos", "width": 1216, "height": 0, "crop": "disabled", "image": ["368", 0]}, "class_type": "ImageScale", "_meta": {"title": "Upscale Image"}}, "578": {"inputs": {"text": "Bikini"}, "class_type": "ttN text", "_meta": {"title": "text"}}, "580": {"inputs": {"lora_name": "Migration_Lora_cloth.safetensors", "strength_model": 0, "model": ["194", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}, "581": {"inputs": {"crop": "center", "clip_vision": ["189", 0], "image": ["577", 0]}, "class_type": "CLIPVisionEncode", "_meta": {"title": "CLIP Vision Encode"}}, "582": {"inputs": {"lora_name": "comfyui_subject_lora16.safetensors", "strength_model": 1, "model": ["580", 0]}, "class_type": "LoraLoaderModelOnly", "_meta": {"title": "LoraLoaderModelOnly"}}}
Stable Diffusion ist ein Text-zu-Bild-Modell von StabilityAI. Stable Diffusion ist ein leistungsstarkes KI-Modell, das anhand von Textbeschreibungen hochwertige Bilder generiert. Es wurde 2022 von Stability AI in Zusammenarbeit mit verschiedenen akademischen Forschungseinrichtungen und gemeinnützigen Organisationen entwickelt und erstellt aus einem Text ein Bild, das der Beschreibung möglichst genau entspricht. Das Modell lässt sich in vielfältigen Anwendungen einsetzen, darunter Bilderstellung, Bildbearbeitung und sogar Bildübersetzung anhand von Textvorgaben. Die der Stable Diffusion zugrunde liegende Technologie ist ein Deep-Learning-Netzwerk, das als latentes Diffusionsmodell bekannt ist. Der Prozess beginnt mit der Komprimierung des Bildes vom Pixelraum in einen niedrigdimensionalen latenten Raum mithilfe eines Variational Autoencoders (VAE). Anschließend wird das komprimierte Bild mit Gaußschem Rauschen versehen und mithilfe eines U-Net-Blocks bereinigt, um das Bild in seine ursprüngliche Form zurückzuversetzen. Das endgültige Bild wird durch die Rücktransformation der Repräsentation in den Pixelraum erzeugt. Stable Diffusion zeichnet sich durch seine Fähigkeit aus, auf Text, Bilder oder andere Datentypen zu reagieren. So kann es beispielsweise Bilder anhand einer vorgegebenen Texteingabe generieren oder bestehende Bilder entsprechend anpassen. Im Gegensatz zu Vorgängern wie DALL-E und Midjourney stellt Stable Diffusion seinen Quellcode und die Modellgewichte öffentlich zur Verfügung und ist damit für einzelne Entwickler und Forscher zugänglich. Trotz seiner beeindruckenden Fähigkeiten weist Stable Diffusion einige Einschränkungen auf. Bei bestimmten Bildtypen, wie beispielsweise menschlichen Gliedmaßen und Gesichtern, hat es aufgrund unzureichender Trainingsdaten Schwierigkeiten und benötigt erhebliche Rechenleistung, um mit neuen Daten trainiert zu werden. Zudem ist anzumerken, dass das Modell hauptsächlich mit Bildern trainiert wurde, die englische Beschreibungen enthielten, was zu einer Verzerrung hin zu westlichen Perspektiven und Kulturen führen kann. Trotz dieser Herausforderungen stellt Stable Diffusion einen bedeutenden Fortschritt im Bereich der KI-Modelle zur Text-zu-Bild-Konvertierung dar. Es eröffnet Künstlern, Entwicklern und Forschern gleichermaßen vielfältige Möglichkeiten und erlaubt ihnen, Bilder auf eine Weise zu generieren und zu bearbeiten, die zuvor nur mit großem menschlichem Aufwand und Fachwissen möglich war. Stable Diffusion bietet zudem einzigartige Funktionen, die in früheren Text-zu-Bild-Modellen wie DALL-E und Midjourney nicht vorhanden sind. Dazu gehört die Verwendung von Textinversionen und LoRAs (Latent Optimizers over Randomly Initialized Architectures). Textinversionen ermöglichen es Nutzern, „Einbettungen“ aus einer eigenen Bildersammlung zu erstellen. Dadurch kann das Modell Bilder generieren, die den Bildern in der Sammlung ähneln, sobald bestimmte Wörter oder Phrasen in einer Texteingabe verwendet werden. Diese Funktion kann genutzt werden, um Verzerrungen im ursprünglichen Modell zu reduzieren oder bestimmte visuelle Stile nachzuahmen. LoRAs hingegen sind eine Technik, die das Modell in Richtung bestimmter Ausgabetypen lenkt, beispielsweise um den Stil eines bestimmten Künstlers zu imitieren. Ein weiteres spannendes Merkmal von Stable Diffusion ist die Möglichkeit für Nutzer, ihre eigenen, feinabgestimmten Modelle zu trainieren. Dadurch können sie das Modell so anpassen, dass es Bilder für spezifische Anwendungsfälle generiert und so Ergebnisse liefert, die ihren individuellen Bedürfnissen und Präferenzen besser entsprechen. Techniken wie ControlNet und DreamBooth erweitern diese Funktionalität zusätzlich. ControlNet ist eine neuronale Netzwerkarchitektur, die Diffusionsmodelle durch die Einbeziehung zusätzlicher Bedingungen verwaltet und dabei die Integrität des ursprünglichen Modells bewahrt, während sie neue Bedingungen lernt. DreamBooth hingegen ist ein Feinabstimmungsmodell, das präzise, personalisierte Ausgaben generiert, die ein bestimmtes Thema anhand einer Bilderserie darstellen. Diese Funktionen machen Stable Diffusion zu einem äußerst anpassungsfähigen Werkzeug, das individuell gestaltet werden kann, um basierend auf Texteingaben eine breite Palette von Bildausgaben zu generieren
"Create a stunning landscape using Stable Diffusion for image generation. Capture the essence of stability and beauty in your artwork. Explore the intricate details and clarity that Stable Diffusion brings to your creative process. Let your imagination run wild and craft a masterpiece like never before."