アルゴリズムや機械学習が大騒ぎになっているにもかかわらず、非可逆画像圧縮に関しては、計算は人間には到底太刀打ちできないと主張されている。
スタンフォード大学のコンピュータサイエンスの研究者と、米国サンフランシスコ・ベイエリアの3つの高校の学生インターンが、画像を圧縮する際に、コンピュータが解釈するコード命令と人間が解釈するテキスト命令の違いを評価するシステムを考案しました。ここでの「圧縮」という言葉は、あまり厳密には使われていません。
研究者であるアシュトシュ・ボーン、ソーハム・ムケルジー、ショーン・ヤン、シュバム・チャンダック、イレーナ・フィッシャー・ファン、ケダール・タトワワディ、ツァチー・ワイスマンは、既存のアルゴリズムでは人間の知覚を十分に考慮しておらず、ぼやけたり不自然に見える結果を生み出す傾向があるため、非可逆画像圧縮技術(圧縮するためにデータが減算され、画像の画質が劣化する)に焦点を当てた。
彼らは、「人間は今でも最高の非可逆画像圧縮装置である」と題する論文で自らの研究成果を説明しています。
「例えば、一部の圧縮方法は、人間の視覚は色の違いよりも強度の違いの影響を受けやすいという事実を利用し、強度空間よりも粗く色空間を量子化することで、より良い圧縮性能を実現している」と論文では説明している。
画像処理アルゴリズムを人間の知覚にもっと従わせるにはどうしたらよいのかを理解しようと、科学者たちは、説明者が Skype のテキスト チャットとオンライン リソースへのリンクを介して、画像編集ツールの PhotoScape X を使用して画像のファイル サイズを縮小するように再構成者に指示するシステムを構築しました。
あるいは、エッグヘッドが言うように:
このインタラクションの結果は、Amazon Mechanical Turkの作業員によって視覚的な美しさの点で評価されました。この目的は、アルゴリズムに頼るのではなく、ある人が別の人に画像の複雑さとサイズを減らす編集方法を説明させることです。描画する人は、公開画像やその他のオンラインリソースを取得し、元の画像を見た人からの指示に従って、それらをつなぎ合わせて元の画像に近づけます。
これは、大雑把に言えば画像を圧縮するものです。テキストによる指示や画像へのURLはそれほど多くのストレージ容量を消費しません。とはいえ、直接的な変換というよりは、比較的近い近似値です。最終的な結果は奇妙に見えるかもしれませんが、ある種の圧縮であることは確かです。
この実験のもう一つの目的は、再現性を確保することです。記述者と画像再構成者間のチャット記録は、写真編集アプリの操作に適用された値がキャプチャされない場合に可能な限り、画像処理を再現できる会話コードを表しています。
以下にサンプルの抜粋を示します。
それが終わったらこれらを見てください https://public-media.smithsonianmag.com/filer/32/f2/32f24473-b380-43f5-9 4df-da0e58644439/16301090250_acf80be87f_o.jpg https://img.purch.com/w/192/aHR0cDovL3d3dy5saXZlc2NpZW5jZS5jb20v aW1hZ2VzL2kvMDAwLzA2OC8wOTQvaTMwMC9naXJhZmZlLmpwZz8x NDA1MDA4NDQy もちろん キリンを編集している間 斑点が暗すぎる 他のジラージと同じように見えるようにします… 右を左より大きくする 頭を水平にする 待ってください 左側を元の位置に戻します 良い 今度は右のキリンを左に動かして首を交差させます 良い 両方を中央に移動する 二人とも背を高くする 頭は低木の中央線より上にある必要があります…
コードとデータを公開している研究者たちは、Mechanical Turkの作業員たちに、今回の共同作業の結果を、Googleが開発した画像圧縮アルゴリズムWebPで処理した画像と比較するよう依頼した。その結果、人間が作成した画像の方がWebPよりも満足のいく結果が得られたことが判明した。
「データセットの13枚の画像のうち10枚において、人間の画像圧縮はWebPよりも高い評価を得ました」と論文には記されている。「質的に言えば、MTurkの作業員にとって、人間の再構成画像はWebPで圧縮された画像よりも自然で鮮明に見え、それでも約100倍から1000倍という高い圧縮率を達成しています。」
Googleは、巨大なJPEGを美しく小さくするために、私たちのGuetzliになると言っています
続きを読む
しかし、このシステムは自動化アルゴリズムの代替を意図したものではありません。専門家も認めているように、人間による圧縮は時間と労力がかかり、会話による指示が最適化されていないため、現実的ではありません。
彼らは、人間による圧縮スキームがオンライン画像リソースを参照ポイントとして利用していることに注目し、アルゴリズムで同様のことを行うことでより優れた圧縮率を実現できると主張しています。
「私たちは、この研究から得られた知見を活用して、人間の知覚損失に最適化され、公開されているデータベースの形で副次的な情報を利用できる画像圧縮装置を構築する予定です」と研究者らは結論付けている。
しかし、人間が最良の結果を長く生み出せるとは限りません。研究者が指摘するように、機械学習の専門家はGAN(敵対的生成ネットワーク)を用いて、視覚的に魅力的で高度に圧縮された画像を生成できることを実証しています。®