عندما نتحدّث عن أدوات الذكاء الاصطناعي التوليدية، يظهر خطّ فاصل بين ما يمكن أن يكون مفيداً وذا معنى، وبين ما لا يتعدّى كونه محاولات فاشلة مصيرها الحذف. لقد شهدت أدوات توليد الصور مثل "Midjourney" و"DALL·E" قفزة كبيرة خلال السنة الأخيرة؛ فبالرغم من الإبهار في جودة ما تنتجه من صور، لا تزال تتعثّر عند أوّل احتكاك بمعنىً غير اعتيادي. والمعنى هنا هو المنطق الكامن خلف طلب توليد الصورة، بما يحمله من سياق، وطبقات مفهومية معقّدة، يعجز نصّ التوجيه أو الـ prompt حتى الآن عن إيصالها كما ينبغي.
والواقع أنّ ما تنجح فيه هذه الأدوات التوليدية يقف على حافتين، فإمّا يكون شائعاً إلى درجة أنّ عناصر الصورة وخواصّها الفيزيائية مكرّرة في كل مكان، وهذا ما يجعل هامش الخطأ محدوداً، وإمّا يكون خيالياً بالكامل بحيث يتحرّر من أي منطق، كأن نتصوّر قطّة تعتمر خوذة رائد فضاء وتطفو بين النجوم. وإذا حلّلنا عناصر أيّة صورة خيالية يجري توليدها اليوم بالذكاء الاصطناعي، سنجد في الأغلب أنّها ليست أكثر من لصق عناصر اعتيادية جرى جمعها على نحوٍ غير اعتيادي.
فجوة المعنى
تكمن المشكلة الجوهرية في أنّ نماذج الذكاء الاصطناعي الحالية تفتقد إلى فهم الدوافع والطبقات العاطفية والثقافية والاستراتيجية الكامنة خلف مطلب المستخدم، فهي تكتفي بربط الكلمات بأنماط تعلّمتها من بيانات التدريب. ولهذا يبقى التصميم الغرافيكي الجيّد، حتّى هذه اللحظة، خارج زوبعة الذكاء الاصطناعي.
على سبيل المثال، إذا طلبت شركة شعاراً يجسّد الابتكار في مجال الطاقة المتجددة، فإن المصمم البشري سيأخذ في الاعتبار السياق، والهوية البصرية للعلامة، والأحرف الأولى من اسم الشركة، ثم يطوّر الفكرة تدريجياً نحو مفهوم متماسك ومميّز. أمّا النموذج التوليدي، فسيتشبّث غالباً بكلمات مثل "طاقة" أو "متجددة" ويولّد مزيجاً من الصور الشائعة مثل البرق أو الورقة الخضراء، من دون أن يغوص أعمق لاستكشاف فكرة إبداعية لم تخطر ببال أحد من قبل. ليس مستحيلاً أن يولّد الذكاء الاصطناعي "لوغو" مستوفياً للمعايير القياسية، لكنه سيكون في الأغلب شبيهاً بمئات الشعارات الأخرى التي تعلّم منها.
يفتقر الذكاء الاصطناعي إلى الحدس الإبداعي وإلى نيّة التصميم. يمكنه توليد صور جميلة، لكنه لا يفهم فعلياً ما الذي يصنعه أو ما هي غايته. وهذا الغياب للفهم السياقي والدلالي يؤدّي غالباً إلى تصاميم لا تصيب الهدف، خصوصاً عندما يكون التصميم مركّباً وتحتاج عناصره إلى حمل معانٍ متنوعة.
أضف إلى ذلك أنّ الذكاء الاصطناعي لا يمتلك القدرة على التشكيك في مخرجاته، على عكس المصمّمين البشريين الذين يطرحون الأسئلة الصعبة حول أعمالهم، ويلتقطون اللحظة التي يبدو فيها المفهوم غير مريح أو حين يعجز التكوين البصري عن نقل الفكرة كما يجب. ينتج الذكاء الاصطناعي، بثقة كاملة، كل ما يرتبط إحصائياً بمطلب التوليد، ولا يمكنه أن يتنبّأ حتى بسوء فهم طفيف. إن قدرة الإنسان على التقاط اللحظة التي تكون فيها فكرتان غير منسجمتين سياقياً، أو حين تكون خيارات التصميم مهيّأة لإساءة الفهم، ما تزال خارج نطاق ما يمكن للذكاء الاصطناعي القيام به.
القراءة الخاطئة ليست غباءً اصطناعياً
لفهم أسباب خروج الكثير من مخرجات الذكاء الاصطناعي الغرافيكية عن السياق، لا بد من النظر إلى طريقة قراءته لمطلب التصميم. حين يطالع المصمم (البشري) موجزاً غرافيكياً، يعيد بناء صورة ذهنية متكاملة: ما العناصر المطلوبة، أين تتموضع، ما الذي يجب أن يبرز أولاً، وما الهدف النهائي من التصميم. في المقابل، لا يرى نموذج الذكاء الاصطناعي سوى سلسلة كلمات يحاول وصلها بصور سبق أن رآها في بيانات التدريب، فيتعامل مع المطلب كمسألة ترجيح احتمالات: ما الصورة الأكثر شيوعاً عندما ترد كلمة "برق"؟ ما الشكل الغالب عندما ترد كلمة "مقبس"؟ ثم يخلط هذه الأنماط معاً من دون امتلاك قواعد حقيقية لترجمة الجملة إلى مشهد بصري منظّم.
حين نصوغ مطلباً مركباً مثل: صمّم شعاراً يحتوي على صاعقة برق متداخلة مع مقبس كهرباء، يستدعي النموذج عملياً صورة نموذجية لصاعقة، وأخرى لمقبس، ثم يحاول حشرها في تكوين واحد. من هنا تتكرر أنماط معيّنة من الأخطاء، أهمها علاقات مشوّهة بين العناصر، وخصائص لونية وشكلية مضطربة، وعناصر زائدة أو ناقصة، أو مخرجات حرفية لكنها فقيرة فنياً.
فبدلاً من تداخل الصاعقة مع المقبس، قد يضعهما جنباً إلى جنب، أو يجعل أحدهما يطغى على الآخر. قد يظهر لون الصاعقة صارخاً أو باهتاً. وقد يضيف النموذج غيمة أو كلمة إنكليزية فوق الشعار من تلقاء نفسه، أو يتجاهل عنصراً مذكوراً صراحة إذا كان نادراً في بيانات التدريب. وحتى عندما يلتزم بحرفية المطلب، تبدو النتيجة أقرب إلى كولاج من رموز جاهزة منها إلى شعار مصمّم بعناية.
الأبحاث التي تدرس هذه النماذج تشير إلى أنّ المشكلة لا تكمن في "غبائها" بقدر ما تكمن في طريقة تعلّمها. فهي لا تستنتج قواعد صريحة؛ بل تبحث عن أقرب تطابق إحصائي لما يبدو صورة معقولة. وعندما يزدحم المطلب بتفاصيل كثيرة أو يكون الطلب غير مألوف، تميل إلى اختيار الصورة التي تشبه المثال النموذجي في بياناتها، ولو على حساب دقّة التنفيذ لما طلبه المستخدم.
غير صالح للاستخدام
إلى جانب سوء تفسير المطالب، تصطدم أدوات الذكاء الاصطناعي التوليدية بحدود بنيوية في نوعية المخرجات الغرافيكية نفسها. يتجلّى ذلك تحديداً في تصميم الشعارات، حيث تتطلّب العملية وضوحاً عالياً، وقابلية للاستخدام على أحجام مختلفة، ونصوصاً تحمل اسم العلامة. النماذج الشائعة مثل "Stable Diffusion" و"Midjourney" تعجز في الغالب عن توليد نص مقروء داخل الصورة، فهي لم تُدرّب على الإملاء بقدر ما تعرّفت إلى أشكال الحروف بصرياً، فتنتج خلطات من أحرف عشوائية غير مقروءة تشبه الكلمات من بعيد. بالنسبة إلى المصمّم البشري، تعدّ الطباعة وقابلية القراءة عنصراً أساسياً في الشعار، في حين ما تزال هذه الزاوية تمثّل "منطقة عمياء" للذكاء الاصطناعي، بالرغم من محاولات بعض النماذج اليوم تحسين جودة النصوص داخل الصور المولّدة.
إضافة إلى ذلك، تميل الشعارات المولّدة آلياً إلى نمطية مملّة، لأن النموذج يعيد تركيب أكثر الأشكال شيوعاً في بياناته، لا لابتكار فكرة بصرية فريدة. فيخرج لوغو شركة كهرباء مثلاً على شكل صاعقة داخل دائرة تشبه مئات الشعارات الموجودة سلفاً، من دون أيّة قفزة إبداعية حقيقية. وغالباً ما تخرق هذه المخرجات أبسط مبادئ التصميم: شعارات معقّدة الأشكال والألوان، غير قابلة للتصغير أو الطباعة، وتكوينات لا تستجيب لمتطلبات العلامة ولا لسهولة الاستخدام على المنصّات المختلفة.
باختصار، ما زال الذكاء الاصطناعي التوليدي يتعثّر في التعامل مع المطالب الغرافيكية لأنه لا يفهم فعلياً ما الذي نريده ولا ما يجعل التصميم ناجحاً. يمكن لهذه الأدوات أن تساهم في إنتاج تصوّرات سريعة أو اقتراحات أولية أو كلمات مفتاحية تعزز المفهوم، لكنها تعاني من ثغرات جوهرية في سياق التصميم الحقيقي. فهي لا تتعامل بثقة مع النص، وتخطئ كثيراً في العلاقات بين العناصر، ولا تمتلك القدرة على تقييم عملها أو تحسينه.
يمكن لتجربة تصميم شعار واحد بالذكاء الاصطناعي أن تتحوّل إلى ساعات من إعادة صياغة المطالب، وتصاعد اليأس من النتائج الخاطئة المتتالية، وربما الصراخ في وجه الشاشة لأنه لا يفهم ما نريد. وربما لحسن الحظ، ما زال حضوره في هذا المجال محدوداً.
