Beberapa bulan yang lalu, jika Anda ingin membuat gambar dari sesuatu, Anda harus bisa membuat sketsa, melukis, atau menggunakan salah satu alat photoshopping yang terus dibicarakan orang lain. Namun, setelah tahun 2022, semuanya berubah, semua berkat AI—ya, seperti dalam "kecerdasan buatan".
Alih-alih mencoba mendominasi dunia, alat AI yang cenderung artistik dapat mengubah apa pun yang Anda gambarkan kepada mereka menjadi sebuah gambar.
Ikutlah dengan kami saat kami memasuki dunia visualisasi teks bertenaga AI, dan lihat bagaimana Anda dapat menggunakan alat tersebut untuk mengubah pikiran Anda menjadi gambar nyata hanya dengan mengetik apa yang ada dalam pikiran Anda.
Dall-E: Sisi Artistik GPT-3 OpenAI
Alat bertenaga AI pertama yang menjadi populer didasarkan pada GPT-3 OpenAI. Salah satu alasannya adalah keterbukaan proyek terhadap akses eksternal, yang menghasilkan beberapa saran bahwa GPT-3 adalah masa depan karya kreatif.
Hari ini Anda dapat menggunakan alat resmi yang dapat Anda temukan di
Situs beta OpenAI atau solusi pihak ketiga yang memanfaatkan kekuatan super linguistiknya. Misalnya, Anda dapat meminta GPT-3 untuk membuat draf untuk posting, menjawab pertanyaan sederhana, atau bahkan merevisi atau menerjemahkan beberapa teks.Pada tahun 2022 OpenAI mengungkapkan bahwa GPT-3 sama baiknya dalam membuat gambar. Proyek DALL-E, plesetan dari film WALL-E Pixar dan nama Dali, menggunakan GPT-3 bukan untuk bekerja dengan teks tetapi sebagai mesin pembuat gambar.
Sama seperti dengan GPT-3 dan teks, DALL-E bukanlah seorang jenius yang kreatif, mewujudkan gambar dari udara tipis. Sebaliknya, itu telah "dilatih" pada jutaan gambar yang sudah ada secara online. Kekuatan AI-nya terletak pada menganalisis gambar-gambar itu, mengambil elemen darinya, mengubah, mengubah, menyesuaikan, dan akhirnya menggabungkannya menjadi citra baru.
Setidaknya, itulah versi sederhana dari apa yang terjadi di latar belakang. Kebanyakan orang hanya akan peduli dengan apa yang mereka lihat di depan mereka, dan itu adalah kotak teks tempat Anda dapat mengetik sesuatu dan melihatnya berubah menjadi gambar setelah beberapa menit.
Jawaban Gambar Google
Google adalah salah satu dari tiga "pemain" teratas dalam penelitian AI. Namun, kemajuan mereka tidak mudah terlihat, juga implementasinya ke dalam produk tidak dapat diakses seperti penawaran OpenAI.
Salah satu implementasi Google AI pertama yang tersedia secara luas adalah di Google Documents dan Gmail, dalam bentuk pelengkapan otomatis dan saran yang lebih cerdas, yang dikenal sebagai Smart Compose. Kami tidak akan membahas detailnya karena kami telah membahasnya sebelumnya Smart Compose (dan bagaimana Anda dapat menggunakannya).
Saat fitur tersebut aktif, aplikasi web Google membandingkan apa yang diketik pengguna dengan apa yang ditulis jutaan orang lain di masa lalu. Kemudian, itu menunjukkan apa yang mereka ketik sesudahnya.
Ini adalah bukti bahwa terlepas dari apa yang kami percayai, kami tidak jauh berbeda. Jika 99 dari 100 orang mengetik "nanti" setelah "sampai jumpa", mungkin itu yang akan kami ketik juga.
Kita semua telah menggunakan beberapa bentuk pelengkapan otomatis, bahkan dari sistem teks prediktif T9 era "dumbphone". Itu sebabnya alat AI Google tampaknya tidak secerdas GPT-3 OpenAI. Mereka tidak merasa lebih banyak digunakan daripada sistem T9 yang lebih baik yang ditingkatkan untuk abad ke-21. Dan itu juga mengapa pengungkapan Imagen sedikit mengejutkan.
Seperti DALL-E pada steroid, Imagen adalah alat visualisasi teks. Berdasarkan apa yang tersedia saat ini, Imagen dapat menghasilkan citra yang "lebih bersih" dan lebih jelas sambil juga mengetahui cara menangani fitur-fitur canggih seperti difusi dan transparansi.
Sayangnya, pada saat penulisan, akses ke Imagen tetap dibatasi, jadi kami tidak dapat mencobanya.
DALL-E Mini and Friends: Terbuka untuk Bisnis
Anda belum dapat mengakses DALL-E dan Imagen secara bebas—belum. Namun, banyak alternatif sudah tersedia jika Anda ingin bermain-main dengan pembuatan gambar tekstual bertenaga AI.
Mengingat bahwa itu masih awal, dan hasil atau pengalaman pengguna yang mereka tawarkan mungkin jauh dari optimal, masih ada baiknya untuk memeriksa beberapa hal berikut.
Membuat Meme Dengan Dall-E Mini
Berkat kombinasi hasil yang lebih dari cukup dan antarmuka yang ramah pengguna, tetapi yang lebih penting, ketersediaannya yang luas, DALL-E mini menjadi salah satu visualisator teks AI paling populer.
Jauh dari sempurna, terkadang hasil DALL-E mini bisa lebih abstrak dari yang diharapkan.
Di lain waktu mungkin gagal untuk menciptakan apa yang Anda pikirkan tetapi bisa menjadi sangat dekat.
Setelah ledakan popularitasnya, pencipta DALL-E mini memindahkannya ke rumah baru dengan merek baru. Sekarang Anda dapat menemukan versi terbaru DALL-E mini sebagai Craiyon di situsnya sendiri.
Menggunakan Craiyon saat ini semudah mencari gambar yang ada secara online. Anda dapat mengunjungi situsnya, ketik deskripsi gambar Anda di bidang teksnya, dan tekan Enter. Setelah beberapa saat, Anda akan melihat hasilnya di layar Anda.
Yang mencolok adalah betapa bagusnya Craiyon dan alat serupa dalam meniru gaya visual. Misalnya, kami memintanya untuk menyulap gambar anak anjing di atas skateboard:
Kemudian, kami menggunakan frasa yang tepat tetapi menambahkan "gaya Pixar" setelahnya. Setelah beberapa saat, Craiyon menunjukkan kisi-kisi lebih banyak gambar "kartun", lebih dekat dengan apa yang kami anggap sebagai grafik ray-trace Pixar di film-film kesayangan mereka.
Craiyon memberi kami hasil yang lebih baik lagi saat kami mengganti "gaya Pixar" dengan "gaya anime" dalam perintah yang sama.
Anime lebih bergaya dalam penampilannya daripada citra Pixar yang lebih realistis, yang tampaknya telah membantu Craiyon menghasilkan beberapa gambar yang hampir siap digunakan.
Bermain-main Dengan Difusi Laten
Model Difusi Laten yang dilatih pada dataset LAION-400M adalah visualisator teks AI lain yang menarik. Namun, itu juga lebih rumit dalam penggunaannya. Anda harus menjalankannya secara online di mesin virtual dan bermain dengan berbagai parameternya alih-alih hanya mengetik di bidang teks. Tetap saja, ini lebih mudah daripada kedengarannya.
- Mengunjungi Ruang colab Google Latent Diffusion itulah rumahnya saat ini.
- Gulir sedikit ke bawah dan perhatikan Mengingatkan bidang di bawah Parameter. Ganti prompt default dengan apa yang Anda ingin gambar Anda gambarkan.
- Memilih Jalankan Semua dari Waktu tayang menu, atau tekan CTRL + F9.
- Jika Anda ingin dapat mengekspor gambar yang dihasilkan langsung dari dalam alat, jawablah dengan positif ketika ditanya apakah Anda ingin menautkannya dengan akun Google Drive Anda. Alat ini membutuhkan beberapa saat untuk menyelesaikan konfigurasinya dan perlu mengunduh beberapa file selama proses.
Meningkatkan nilai untuk Langkah, Iterasi, dan Samples_in_parallel, dapat menghasilkan hasil yang lebih detail. Namun, alat ini sangat menuntut sumber daya di server Google. Akibatnya, mungkin macet jika Anda meningkatkan nilai tersebut terlalu banyak, atau proses pembuatan gambar tertentu menjadi lebih rumit dari yang diharapkan.
Alternatif Menarik
Kami telah menghabiskan banyak waktu untuk menguji DALL-E mini dan Latent Diffusion. Metode ilmiah kami terdiri dari dua bagian yang berbeda. Pertama, kami harus menemukan konsep yang dapat secara akurat digambarkan sebagai orang gila. Kemudian, minta visualisator AI tersebut untuk mengubahnya menjadi gambar. Lebih sering dari yang diharapkan, mereka berhasil, mendekati pengaturan umum yang kami bayangkan.
Kami juga telah mencoba beberapa alternatif yang tersedia untuk artikel ini. Kami masih menunggu akses ke yang lain. Beberapa yang layak untuk dicoba adalah (tanpa urutan tertentu):
- tengah perjalanan
- MindsEye versi beta
- StarryAI
- Mimpi
- Difusi Disko
Akankah Seni yang Dihasilkan AI Menggantikan Seni Visual?
Kelimpahan dan popularitas yang terus meningkat dari alat-alat bertenaga AI yang menghasilkan gambar membuat banyak orang menyimpulkan bahwa seni visual akan segera mati. Apa gunanya menginvestasikan waktu dan energi untuk mempelajari cara menggambar atau menggunakan perangkat lunak yang rumit untuk memvisualisasikan hal-hal ketika AI dapat melakukannya lebih cepat (dan segera lebih baik) daripada Anda?
Jika Anda perhatikan, semua alat itu "terlatih pada kumpulan data". Dalam bahasa Inggris yang sederhana, ini berarti bahwa mereka melakukan apa yang mereka lakukan berkat manusia yang telah melakukan hal yang sama sebelumnya.
Itulah petunjuk mengapa alat-alat itu tidak dapat menggantikan seni, kreativitas, dan kecerdikan manusia. Mereka meniru, replikator pintar. Tanpa dokumen asli yang diproduksi secara manusiawi di mana mereka dilatih, mereka tidak akan dapat menghasilkan output apa pun.
Tetap saja, itulah saat ini, dan kami akui kami tidak tahu apa yang akan terjadi di masa depan. Untuk saat ini, seniman visual dapat tidur dengan aman. Namun, pada tingkat AI berkembang, banyak spesialis pada topik ini setuju bahwa itu bukan masalah apakah itu akan menggantikan pekerjaan orang-orang seperti Anda. Ini hanya masalah kapan.
Tapi hei, itu tidak semua malapetaka dan kesuraman. Sementara Skynet bersiap untuk mengambil pekerjaan kami, setidaknya kami dapat mencerahkan suasana hati kami dengan mudah membuat gambar anak anjing di skateboard!