【最速】昨日リリースされた新しいMidjourneyを試してみた

こちらのトピックス“生成AI最前線「IKIGAI lab.」”は、学び合うことを目的としたオンラインビジネスコミュニティ「OUTPUT CAMP meets AI」のメンバーで運営しています。

私、伊藤は普段、生成AIの導入・活用支援を行い、親子向けの生成AI体験イベントを開催しています。生成AIの情報を常にキャッチアップし、新しいツールに興味があれば実際に使ってみるのが私のスタイルです。

今回は緊急企画です！

やっと出ました！12月21日の16時頃にリリースされた「Midjourney V6」について、その進化と使い方に焦点を当てて、どこよりも早くレポートします。

イラストなども比較しつつ、特に写真画像の生成についてフォーカスします。

リリースされたのが本当にうれしいです…全ての仕事をリスケして誰とも連絡を取らず3日間ずっと触っていたいくらいです。

ちなみに前回記述した生成AI EXPO in 犬山のレポートなどは今度こそ次回に掲載します。

子育て世帯は生成AIとどう向き合うか

こちらのトピックス“生成AI最前線「IKIGAI lab.」”は、学び合うことを目的としたオンラインビジネスコミュニティ「OUTPUT CAMP meets AI」のメンバーで運営しています。私、伊...

newspicks.com

前回の書いた記事はこちらから。

はじめに~改めてMidjourney（ミッドジャーニー）とは~

このはじめの画面がかっこいい！

Midjourneyは、テキストから画像を生成するAIです。特筆すべきは、有料会員になることで商用利用が可能になる点です。これにより、企業や個人がMidjourneyを使用して、ビジネス目的での画像作成を行えるようになります。

私が最も使っている画像生成ツールもMidjourneyです。

最近は自分の中だけですが、Midjourneyを使っている人の事を「みっどじゃーにゃー」と呼ぶようにしています。

MidjourneyはDiscordで使うことができます。

Discordは「スラッシュコマンド（「/」を使います）」というものを使ってMidjourney botを呼びます。

ちなみに、プライベートなサーバーを作ってたくさんフォルダ分けすると使いやすいです。

画像生成するときは「/imagine」と入力して選択した後に「prompt」と表示されるのでその後にプロンプトを入力します。

生成プロセスの変化と利用制限

Midjourneyの画像生成は、従来Discordを介して行われていましたが、最近ではウェブサイト上から直接生成できるようになりました。

ただし、この機能は現在、Midjourneyで10,000枚以上の画像を生成した一部のユーザーに限られています。

私のこれまでの枚数を確認したら、12月21日の段階でまだ5,000枚ほどでした（昨日で200枚くらいは増えた）。

これは「/info」で確認できます。

Midjouneryの費用について

Midjouneryの費用は年間96ドル（月当たり8ドル）のBasic Planから利用できます。

無料では利用できません。

最近はStandardにしようか考え中です…

少しオマケのTIPS

「 --ar 」について

プロンプトの最後に「 --ar 16:9」を入れると画像の比率が変わります。

Midjourneyは比率の指定をしないと真四角で画像が生成されます。ちなみに「ar」は「Aspect Ratio」の略から来ています。

数字を変えれば比率が変わります。上記で言えば「16」が横、「9」が縦になります。

3:2　一眼レフの横写真
4:3　オリンパスのカメラと同じ横写真の比率、デジタルカメラの一般的な比率、中判（645）カメラの横写真比率
16:9　ビデオと同じ比率

2:3　一眼レフの縦写真
3:4　オリンパスのカメラと同じ横写真の比率、デジタルカメラの一般的な比率、中判（645）カメラの縦写真
9:16　Tiktokなど縦動画の比率

91:55　日本の名刺サイズ

「 --s 」について

スタイライズを意味する「 --s 」です。画像のクオリティが上がります。

0～1000までで調整ができるようになっており、数字が高ければ高いほどシャープで絵が細かくなります。

特に指定しない場合はスタイライズの数値は「0」です。

0と250ではそれなりに差があるように感じます。800と1000くらいだとあまり変化が無いような気もします。

これは私感ですがイラストや写真についてもスタイライズが高いとMidjourney固有の表現が強くなる気がします。

これは言語化がなかなか難しいのですが、「日本人女性」と入れても日本人にならなかったり、ポージングを表現するプロンプトを入れてもあまり反映されなかったりする傾向にある気がしています。

Midjourney V6の新機能と進化

V6では、画像生成速度の向上、画質の改善、テキスト理解能力の向上が実現されています。

重要な点は、V5.2では利用可能だった「Region機能」がV6では現状使えないことです。
しかし、文字の再現性が向上し、テキストが入った画像をつくることができるようになりました。

さあ！お待たせしました！

新しいMidjourney V6とV5.2の比較です！

📍Midjourney V3で出したやつを改めて出してみた

Streets lined with cyberpunk Japanese houses

違いが分かりますか？！

もしかしたらなかなか分かりづらいかもしれませんね。

今回、実は最初の時点でこれまでとは明らかに違う良い違和感があったんです。

どんどんいきますよ！！

📍目の周りをロボティックにしたかった

目の描写が5.2より細かい！スタイライズはやってません。

こちらだとどうでしょうか。

注目してほしいのは虹彩の部分です。

もともと「machine eye」などと入れているので変わった眼になるようにしているのですが、虹彩の描写がグッと上がっているのが分かります。

📍にじジャーニーで出したやつをだしてみた

こちらはもともと「にじジャーニー」というツールで使っていたプロンプトをMidjourneyでやってみたらどうなるかなと思ってやってみたものです。

エフェクトがかかるようにプロンプトでは出していましたが、V6になるとそのエフェクトはやや控えめに。

「 --s 800」を入れてスタイライズを強めにかけています。

ちなみに、にじジャーニーで出した画像はこんな感じです。

似たプロンプトだとこのような感じでした。

📍私のロゴを創ってみた

ジンベエザメとネットワークを絡み合わせたロゴデザイン

私の立ち上げたstudio vecoという会社のロゴを創ったものです。

veco（べこ）は娘が3歳の時に、ジンベエザメの小さいぬいぐるみを持つようになってから私が「『ジンベエザメの子ども』で『べこちゃん』だね」と言ったらそこから、そう呼ぶようになりました。

そこから我が家ではジンベエザメは「べこちゃん」で通っています。

そのべこちゃんのロゴなのですが、V5.2ではWhale Shark（ジンベエザメ）がなかなか通じなかったんです。

ところがV6になってからだいぶいい感じに認識するようになりました。
「だいぶジンベエザメに近づいてる」と娘からもお墨付きをいただきました。

Midjourneyでは理想通りのものが出なかったので、DALL・E-3にて出力したものをロゴにしています。

ちなみに、ロゴをジンベエザメにしているのは大きな海で優雅に泳ぐ、大きな体で大らかで、大きなお口で吸い込んで必要なモノだけ取り込んで後は吐き出すその生き方に仕事の美学をなんとなく感じたからです。

📍プロンプトは「AI」

上記の画像のプロンプトはタイトルの通り。それ以外はありません。
ここに今回のV6の答えがなんとなくあるような気がします。

📍Orpheus（オルフェウス）を出してみた

オルフェウスはギリシャ神話に登場する音楽家で、いろんな神の子とも言われています。諸説あるので端折りますが、長じて吟遊詩人となりました。

オルフェウスの最も有名なエピソードは蛇に咬まれて死んだ妻エウリュディケを連れ戻すために冥府へ下るという物語であるそうです。

それで作ってみたのですが…

V5.2ではかっこいい感じに対して、V6はどこかシンプルな感じがあります。

緑をベースカラーに生成したオルフェウスのイメージがなぜか女性になっているのは置いておいて、V5.2とV6のある種の決定的な方向性の違いを見せつけられた気がします。

📍自分で撮った夜景写真をi2iしてみた

A brightly illuminated salmon-pink spiral steel structure stands out in a nighttime scene. This structure prominently showcases lattice-like designs and parts. Beyond, a blue-glowing large Ferris wheel can be seen with the time "5:50" displayed at its center. In the furthest distance, sporadic city lights and buildings shimmer.fireworks, --ar 16:9

どうですか?!決定的に違いませんか?!

実は私が撮った夜景写真をベースに生成しています。

なぜこのようなプロンプトにしたかは忘れましたが、確かGPT-4に読ませたか、Describeして読ませたかのどちらかです。

ちなみに元の写真はこれです。

ここでお気付きになった方もいるのではないでしょうか。

私の仮説が正しければ、今回のMidjourney V6は

「現実的な美しさを再現する事ができるようになってきた」

という風に考えられます。

これは「観覧車とジェットコースターとその周りに建物がある」とそれぞれのオブジェクトを認識して生成する際にそれぞれの要素を分解して生成していると考えられるのです。

お気に入りの夜景写真をremixして自分だけのオリジナル写真を生成できるのはなんとも嬉しい話です。

📍映える写真を生成してみた

Photo, Inverted landscape in a glass ball, background blurred, mountains and lake at sunset, water surface reflecting, --ar 16:9

「さすがですよV6さん！」と素直に思った生成結果です。

なぜそう思ったのか。

それは構図を理解していると感じられるからです。

この手のものはなぜか中央に持ってくることばかり考えており、日の丸構図になっていました。

そのため、あえて日の丸構図で映える写真生成をしていましたが、これからは構図にもチャレンジできそうです。

今回はあえて何も構図は指定していないのですが、勝手に空気を読んでくれました。

📍往年のフィルムを再現してみた

kodachrome 25を再現してみた！どうでしょうか？

以前、noteで「フィルムの再現をやってみた」の記事を書いたのですが、その時はできるものとできないものがある認識でした。

フィルム好きの皆様！いかがでしょうか。

Kodachrome 25を再現できているように感じませんか？！

今となってはKodachrome25で撮られた写真はあまり見かけなくなりました。記憶だけが頼りになっているのですが、このような青色だったと記憶しています。

📍夜景写真を生成してみた

レトロフューチャーな建物に夜、花火が上がっているシチュエーションを再現してみたのですが、V6はレトロフューチャーを無視しているようにも感じます。

大阪や東京にありそうな街並みを再現していました。

プロンプトに確かに「大阪」とは入れましたけど…

📍おしゃれな写真を出してみたかった

この画像では大きな帽子とフェザーが特徴のプロンプトになっています。

黒で全体を占めるような内容にしたにもかかわらず、なぜかV6は白色の要素を多く入れてきました。

横を向く写真が生成される割合も増えた気がします。

ちなみににじジャーニーでは日本の着物の画像を生成すると高確率で横顔が生成されます。

これは菱川師宣の「見返り美人図」が影響を与えているような気がしなくもないです。

📍Midjourney V5で出した画像をベースにしてみた

https://s.mj.run/EWu8jmvShug fashion model , dynamic pose ,Cute and beautiful japanese girl 24old, Slightly droopy big puffy eyes, long eyelashes, black hair medium hair, elegance style clothes , in Daylight in the town,full body front face, α7r4 sigma 35mm f1.4 art , named arisa , --ar 9:16 --v 6.0

これもまたi2iの産物です。

私がV5の世代で出力した画像をベースにして最近出力したものと、V6のものを比較してみました。

V5で出した画像はこちらです。

ちなみに左のV5.2で確信したのですが、実は

時期によって生成される人の服は衣替えします。

同じプロンプトで、定点観測的にシーズン毎にやってみたのですが、夏に出した時と服が明らかに変わっているのです。

これはベースモデルかMidjourneyのバージョンが時間を認識し、季節を把握していると考えられます。

画像を学習した際にDBのタグ付けか何かがその季節感を言わなくても出すようにしているのかもしれません。

ちなみにこれがV5.2で夏に出した画像です。

衣服の違いは明確ですよね。もちろん同じプロンプトです。

「お正月に出したら着物着てた…」なんてあったら面白いですが、きっとそんなことはないでしょう。

📍単純にキレイな女性を生成してみた

snap photo , cute and beautiful japanese girl 24old,in room,front face,afternoon 8k ultra ,named arisa , --ar 16:9 --v 6.0

いよいよこれではっきりするのですが、女性などの生成の時は

V5.2は「美しさをそのまま出力する」に対して
V6は「リアルの中にある美しさを出力する」という大きな違いがあります。

これはより、リアルな写真表現が可能になったといえます。

また、特に指定していないのもありますが、V6は振り向いた写真が多いです。

写真を撮る目線で見た時に、プロンプトに「snap photo」と入れていたとしても、あくまで美しく出すV5.2に対して、V6は「snap photo」特有の一瞬のチャンスを撮ったような写真を生成するのです。

振り向きざまに撮る写真のような雰囲気があります。

つまるところ、モデルを立たせてキレイな写真が撮れればOKではなく、「瞬間」と言う世界観を生成（写し撮って）しているといえます。

おなじプロンプト

またこの女性の写真生成は結構気に入っています。

V6からは肌の質感が格段に上がったのです。

正確には「よりリアルになった」が正しいかもしれません。

ほくろやそばかすなどがあるのです。これは嬉しい。

生成AIを使うと「人とは何か」を考える機会があります。Chatbotを創るとそのあたりは深く考える機会があります。

画像生成もテーマを持って突き詰めていくと、それは顕著に現れます。

「完璧ではないものにこそ人間らしさがある」という一つの解をもたらす写真生成の結果であると考えています。

📍物質的な不気味の谷を越えてみたかった

イケメンの男性がカメラを持っている写真。ありますよね。

あれをV5.2で再現しようとすると「カメラはカメラらしき何かを持っている」になってしまっていたんですね。

オブジェクトとしてカメラをしっかり認識できていなかったように思います。カメラガチ勢からするとよく分かると思います。

これは人間がリアルに再現できていたとしても、「持っている何か」「写っている何か」で確信を持って「AIである」と判断できてしまうものでした。

しかし、V6についてはきちんと「レンジファインダーカメラ」の形をしているのです。
レンズもしっかりMマウントかLマウントのレンズを模しています。

あとはレンジファインダー特有の三角測距の窓とファインダーあるのが非常によくできています（多少のモヤモヤした感じはありますが）。

ここまでくると、いよいよ物質的な不気味の谷を越えてきた感じがします。

ただ、写っている人もカメラも背景の景色も実在しないというのは改めて考えてみると面白いですね。

📍ただただイケメンのおしゃれ写真を出してみたかった

Midjourneyはキレイな画像を生成するのはかんたんですが、キレイではない画像の生成は意外に難しいのです。

ただ、このスナップ写真のようなテイストは「キレイではない」というのとは、また違う別の美しさがあります。

私がこの生成結果を見て感心したところが

「主観ではなく、客観的な写真になっている」という事です。

このV6で出す距離感、絶妙なんですよね。

この距離感は今まではV5.2で出す場合は「Zoom Out」を使っていたのですが、一発でできるのは嬉しいです。

📍いざ、1970年代にタイムスリップしてみた

1970年代のファッションを再現するために出力した画像生成です。

V5.2では日本の年代のファッションは「どんなファッションだったのか」を指定しないと出ないのですが、V6はそのまま「1970s」と年代を入れればいい感じに出してくれます。

これは嬉しい。

そして更に嬉しいのは色、ファッション、景観もそうなんですが、被写体自体がカメラ目線じゃないんです。

むしろこんなによそ見している！

こんなにうれしい事はありません。

もちろん、プロンプトに「Snap Photo」を入れているからです。日常の一瞬をしっかり切り取っています。

📍ファッションの再現！1970年の理想のファッションは再現できるのか

さきほど、年代を入れればいい感じに出してくれると言う事を書きましたが、それはあくまで一部のファッションに限った話になります。

例えばこの比較のようにレトロフューチャーを彷彿とさせる写真を生成できるかと言うとこれが意外に難しいのです。

ここに初めて、「V6よりもV5.2の方が良いかな」と思う要素が出てきました。

V5.2は「美しさをそのまま出力する」のに対して
V6は「リアルの中にある美しさを出力する」と言う大きな違いがあります。

単純にキレイな女性を生成してみた

これがそのままイメージギャップになって表れているように思います。

上記のV5.2のイメージは1970年の大阪万博をイメージした写真を創りたかったのです。

ところがV6ではそうはいかない。

このイメージギャップをどう乗り越えるのかが課題になりそうです。（私だけの）

📍カサネドリしてみた

fashion photo,dynamic pose,beautiful stunning double exposure , cute and beautiful japanese girl 24old, multiple birds flapping their wings ,half body shot, cityscape,afternoon, 8k ultra ,by Nikon FM2 and Ai-s 35mm f1.4, Film used fujifilm sensia 100,Shooting conditions F2.5 ISO 100 Shutter Speed 1/1000 , --ar 16:9 --v 6.0

これ完全に好み別れるやつじゃないですか?!

もはや、「どっちが良いとかはなくて、見る人によるな」と生成してみて思いました。
ちなみに私がイメージしていたのはV5.2でした。

しかし「これは映像的な美しさなんだな」と、V6の画像を比較してみて思いました。

V6の方が多重露出もしているし、鳥もばっさばっさ飛んでるし、そういう意味ではこれもまたイメージ通りです。

最近のCMにありそうな感じですよね。

📍ILFORDを再現してみた

fashion photo,dynamic pose,high contrast,low key,cute and beautiful japanese girl 24old,half body shot, cityscape,afternoon,by Nikon FM2 and Ai-s 35mm f1.4, Film used ilford delta 400,Shooting conditions F10 ISO 400 Shutter Speed 1/80 ,motion blur, --no text --ar 16:9 --v 6.0

私のプロンプトはかなり癖があると感じています。

「きっとこんな感じかな？」と思う撮影条件を入れているからです。

恐らく外れているんでしょうけど、近い撮影条件になっていると信じています。

本題ですが、この画像生成には「motion blur」と言うプロンプトが入っています。

V5.2ではしっかり反応していますが、V6はいまいち反応が鈍いようです。

もしかしたら、「撮影条件を汲んでくれている？！」と少し思いましたが、恐らくそんなことはないと思います。

また、ILFORDと入れているおかげで「monochrome」と入れてないのにちゃんとモノクロと認識しています。

フィルムとしての再現性はけっこういい感じだと思いますがいかがでしょうか。

📍光跡を出してみたかった

nightview photo,Polar colors to the point where red is saturated,vivid red love, dynamic pose,cute and beautiful japanese girl 24old, cityscape,motion blur, light trail, 8k ultra ,by Nikon FM2 and Ai-s 35mm f3.5, Film used AGFA ultra color 100,Shooting conditions F4.5 ISO 100 Shutter Speed 1/10 , --ar 16:9 --v 6.0

V6で画像生成した方は、被写体と光の当たり方と表情を優先して選びました。

見ていただきたいのはV5.2との決定的な違いです。

V5.2はプロンプトには書いていないのに夜景シンクロのようになっています。

そういう意味ではV5.2は「不自然な光だな」という感じがします。

しかし、一般的にはこちらの方が良い感じと判断されるのではないかと思います。

ところが、実際に写真をちゃんと撮るとわかるのですが、V6の方が自然な光の当たり方をしているのです。

それと、心情に訴えかける光の描写をしています。改めてこの言葉がしっくりきます。

V5.2は「美しさをそのまま出力する」のに対して
V6は「リアルの中にある美しさを出力する」と言う大きな違いがあります。

単純にキレイな女性を生成してみた

改めて光跡が写っているV6の画像生成ですが、こちらの方がリアルだと感じます。

テールライトがガッツリ写り込んでいるのでこの女性は何十秒もずっと立っている事になります。

よほど呆然とすることがあったのでしょうね。

ちなみに光跡は「light trail」になります。

📍望遠レンズを出してみた

Portrait photo,Polar colors to the point where red is saturated,vivid red love, dynamic pose,cute and beautiful japanese girl 24old,Telephoto zoom shot, cityscape,afternoon, 8k ultra ,by Nikon FM2 and Ai-s 200mm f3.5, Film used AGFA ultra color 100,Shooting conditions F4.5 ISO 100 Shutter Speed 1/800 , --ar 9:16 --v 6.0

望遠レンズは英語で「Telephoto lens」と言います。

このプロンプトでは「望遠ズームで撮った」の意を込めて「Telephoto zoom shot」を入れています。

レンズ情報を入れているのですが、恐らく認識しないだろうと保険をかけた感じです。

ポートレートは望遠で撮るのがおススメです。

V6はここでも、リアルの中にある美しさをしっかりと生成してくれています。

📍フィルムでポートレートやってみた

fashion photo,dynamic pose,cute and beautiful japanese girl 24old,half body shot, english garden,afternoon, 8k ultra ,by Nikon FM2 and Ai-s 35mm f1.4, Fujifilm reala ace 100,Shooting conditions F3.5 ISO 100 Shutter Speed 1/800 , --ar 16:9 --v 6.0

これで最後です！
（ほんとはあと倍くらい検証しています…）

ポージングは控えめですが、けっこういい感じの光の入り方になっていて、どちらもお気に入りの一枚です。

特にV6は肌の質感、影の入り方、緑の美しさが絶妙です。

また、緑と赤色の葉が透き通った光になってとてもいい感じになっています。