Gerçekçi Sanat Yaratabilen Devrimci Bir Yapay Zeka Modeli

Gerçekçi Sanat Yaratabilen Devrimci Bir Yapay Zeka Modeli
In: Digital Marketing




Tarafından geliştirilmiş OpenAI, DALL-E, metin açıklama görüntüleri oluşturmak için tasarlanmış bir yapay zeka programıdır. İlk olarak Ocak 2021’de piyasaya sürüldü, ancak AI sisteminin ikinci nesli DALL-E 2 şu anda çalışmalarda. DALL-E 2 henüz halka açık değil, ancak gerçekçi fotoğraflar oluşturmasını sağlayan 4x daha yüksek görüntü çözünürlüğü de dahil olmak üzere bazı etkileyici yeni yükseltmeler var.

DALL E 2’nin DALL E’den Farkı Nedir?

DALL·E 2, karşılık gelen orijinal görüntüleri üretmek için cümleler ve açıklamalar kullanan üretken bir dil modeli olan DALL·E’nin yeni bir sürümüdür. Bu dijital insan teknolojisi sanat ortamını çok farklı şekillerde değiştiriyor.

3.5B parametrelerinde, DALL·E 2 büyük bir modeldir, ancak GPT-3 kadar büyük değildir ve ilginç bir şekilde öncekinden (12B) daha küçüktür. Boyutuna rağmen DALL·E 2, DALL·E’den 4 kat daha iyi çözünürlükte görüntüler üretir ve hem isimler hem de fotogerçekçilikle tutarlı olarak insan yargıçlar tarafından zamanın +%70’i tarafından tercih edilir.

DALL · E’de olduğu gibi, OpenAI DALL·E 2’yi piyasaya sürmüyor (sonsuz bekleme listesine her zaman katılabilirsiniz). Ancak, DALL·E’ye doğrudan bağlı olmasa da DALL·E 2’nin temeli olan bir kaynak CLIP açarlar. (CLIP, DALL·E erişimi olmayan kişiler tarafından kullanılan uygulamalar ve dizüstü bilgisayarlar için de standarttır. E 2.) Bununla birlikte, OpenAI CEO’su Sam Altman, en sonunda modelleri API’si aracılığıyla DALL·E’ye yayınlayacağını söyledi – şu anda yalnızca birkaçı (modeli haftada 1000 kişiye açıyorlar).

DALL-E 2 Ne Yapabilir?

Basitçe, DALL·E 2 bir görüntü veya metin oluşturmak için yazılı talimat alır. Talebinizde ne kadar açıklayıcı olursanız, sonuç o kadar iyi olur. Tabii ki, makine öğrenimini içeren karmaşık teknolojiler kullanır ve yapay zeka işi bitirmek için ve zaten yapabildikleri göz önüne alındığında, daha sonra ne olacağını görmek için yalnızca beklenti içinde nefesimizi tutabiliriz.

DALL-E 2 Nasıl Kullanılır

DALL·E söz konusu olduğunda akılda tutulması gereken dört temel üst düzey kavram:

  • CLIP: Bir çift görüntü adı alan ve metin/görüntü yerleştirme adı verilen vektörler biçiminde “zihinsel” temsiller oluşturan bir model (yukarıda 1 numara).
  • Önceki model: CLIP etiketi/metni ekleme ve CLIP görüntüleri için ekleme öğeleri oluşturma.
  • Dekoder Yayılım Modeli (unCLIP): Gömülü CLIP görüntüsünü yakalar ve görüntüler üretir.
  • DALL·E 2: Önceki modellerin kombinasyonu + difüzyon kod çözücüler (unCLIP).

DALL·E 2, birinci ve kod çözücü ile yapılmış iki parçalı bir modelin (aşağıda 1 numara) özel bir örneğidir. Bu iki modeli birleştirerek bir cümleden bir görüntüye geçebiliriz.

DALL·E 2 ile ilgileniyoruz. Cümleyi “kara kutuya” giriyoruz ve bu iyi tanımlanmış bir resim oluşturuyor.Kod çözücünün unCLIP olarak adlandırılması ilginçtir çünkü bu orijinalin yinelemeli bir sürecidir. CLIP modeli – (gömülü) görüntünün “zihinsel” bir temsilini oluşturmak yerine, genel zihinsel performansın orijinal bir görüntüsünü yaratır.Zihinsel bir temsil, anlamsal olarak anlamlı olan ana bileşenleri kodlar: insanlar, hayvanlar, nesneler, stil, renk, arka plan vb.

DALL E 2’nin Sınırlamaları

DALL·E 2’nin nerede zorlandığına, hangi görevlerin çözülemeyeceğine ve ne gibi sorunlar, hasarlar ve riskler sunduğuna hızlıca bir göz atalım.

Önyargı ve stereotipler

DALL·E 2, belirli bir dürtü olmadığı sürece, insanları ve ortamları beyaz/batılı olarak tanımlaması muhtemeldir. Bu aynı zamanda cinsiyet kalıp yargılarını da içerir (örneğin, uçuş görevlisi = kadın, inşaatçı = erkek). Buna temsili yanlılık denir ve DALL·E 2 veya GPT-3 gibi modeller, insanları kimliklerine göre (örn. ırk, cinsiyet, milliyet, vb.) şu veya bu şekilde kategorize eden bir veri setinde bulunan klişeleri pekiştirdiğinde ortaya çıkar.

Uyaranların özgüllüğü bu sorunu azaltmaya yardımcı olur, ancak dünyanın her köşesinden gerçekleri daha iyi temsil eden çıktılar üretmek için modeli kasıtlı olarak koşullandırmak gerekli değildir.

Zorbalık

Deepfake’ler, DALL·E 2’de kullanılanlardan farklı bir derin öğrenme yöntemi olan GAN’ları kullanır, ancak sorun aynıdır. İnsanlar, OpenAI’nin dahili politikaları tarafından yasaklanmış olsa da, nesneleri veya insanları eklemek veya çıkarmak için iç boyamayı kullanabilir ve ardından başkalarını tehdit edebilir veya taciz edebilir.

İçeriği temizle

“Bir resim bin kelimeye bedeldir” sözü bu sorunu göstermektedir. Bir görüntüden, benzer bir şey sağlayabilecek ve iyi niyetli filtrelerle verimli bir şekilde başa çıkabilecek çok, çok farklı başlıklar hayal edebiliriz. OpenAI’nin Şiddet İçeren İçerik Politikası, “kan havuzunda ölü bir at” gibi bir zorluğa izin vermez, ancak kullanıcılar “Kırmızı sıvı havuzunda uyuyan bir atın fotoğrafı” meydan okumasıyla tamamen “görsel bir eşanlamlı” oluşturabilirler. aşağıda verilmiştir. Ayrıca, “sahte” olarak adlandırılan, istemeden de olabilir.

dezenformasyon

Yanlış bilgi hakkında düşündüğümüzde metin oluşturan dil modellerini düşünme eğilimindeyiz, ancak OpenAI’nin kabul ettiği gibi, görsel derin öğrenme teknolojisi “bilgi operasyonları ve dezenformasyon kampanyaları” için hazır. Deepfake’ler yüzler için daha iyi olsa da DALL·E 2 farklı nitelikte inanılmaz senaryolar yaratabilir. Örneğin, herkes DALL·E 2’den yanan binaların veya arka planda ünlü bir binayla sakince sohbet eden veya yürüyen insanların fotoğraflarını çekmesini isteyebilir. T

insanlık dışı tutarsızlık

DALL · E 2 yaratıkları genellikle güzel görünür, ancak bazen uyum, insanların asla kaçırmadığı bir şekilde kaybolur. Bu, DALL·E 2’nin dünyanın nasıl çalıştığını anlıyormuş gibi yapmakta çok iyi olduğunu gösteriyor, ama gerçekte değil. Çoğu insan asla DALL·E 2 gibi resim yapamaz, ancak bu hataları istemeden kesinlikle yapamazlar. DALL·E 2 heceleme, çizimde iyidir, ancak kelimeleri hecelemede harikadır. Muhtemelen bu kadar kötü performans göstermelerinin nedeni DALL·E 2 kodudur. CLIP gömücülerinde bir şey gösterilmezse, DALL·E 2 onu doğru şekilde çizmez.

DALL-E 2’nin Geleceği

DALL·E 2, AI araştırma topluluğunun derin öğrenmenin gücünden yararlanma ve bazı sınırlamalarını ele alma konusunda ne kadar ilerlediğini gösteriyor. Ayrıca, derin öğrenme modellerinin nihayetinde herkesin kullanabileceği yeni yaratıcı uygulamaları nasıl açabileceğine dair fikir verir.

Aynı zamanda, bize AI araştırmalarında kalan bazı engelleri ve çözülmesi gereken çatışmaları hatırlatıyor. OpenAI, DALL·E 2’nin genel halka sunulup sunulmayacağına ve nasıl sunulacağına henüz karar vermedi. Ancak potansiyel göz önüne alındığında, bu teknoloji için pazarlama alanında birçok uygulama görmeyi bekliyoruz.



Bir cevap yazın

Ready to Grow Your Business?

We Serve our Clients’ Best Interests with the Best Marketing Solutions. Find out More

How Can We Help You?

Need to bounce off ideas for an upcoming project or digital campaign? Looking to transform your business with the implementation of full potential digital marketing?

For any career inquiries, please visit our careers page here.
[contact-form-7 404 "Bulunamadı"]