AnGeL
صاحب الامتياز
عندما تم إطلاق ChatGPT في نوفمبر 2022، شكل عام 2023 نقطة تحول في مجال الذكاء الاصطناعي. شهد العام الماضي تطورات ملحوظة، من منظار مفتوح المصدر نشط إلى نماذج متعددة الوسائط متطورة، وقد وضعت هذه التطورات الأساس لتقدم كبير في مجال الذكاء الاصطناعي.
ومع ذلك، بينما ما زال الذكاء الاصطناعي التوليدي يثير اهتمام العالم التقني، فإن المواقف تصبح أكثر تعقيدًا ونضجًا مع تحول تركيز المؤسسات من التجريب إلى المبادرات العملية في الواقع. تعكس اتجاهات هذا العام تعمقًا في الدقة والحذر في استراتيجيات تطوير ونشر الذكاء الاصطناعي، مع مراعاة الأخلاق والسلامة والمنظومة التنظيمية المتطورة.
إليك أهم 10 اتجاهات في مجال الذكاء الاصطناعي وتعلم الآلة للتحضير لها في عام 2024.
ومع ذلك، بينما ما زال الذكاء الاصطناعي التوليدي يثير اهتمام العالم التقني، فإن المواقف تصبح أكثر تعقيدًا ونضجًا مع تحول تركيز المؤسسات من التجريب إلى المبادرات العملية في الواقع. تعكس اتجاهات هذا العام تعمقًا في الدقة والحذر في استراتيجيات تطوير ونشر الذكاء الاصطناعي، مع مراعاة الأخلاق والسلامة والمنظومة التنظيمية المتطورة.
إليك أهم 10 اتجاهات في مجال الذكاء الاصطناعي وتعلم الآلة للتحضير لها في عام 2024.
1. Multimodal AI
الذكاء الاصطناعي متعدد الوسائط يتجاوز المعالجة التقليدية للبيانات وضع الواحد ليشمل أنواع متعددة من الإدخال، مثل النصوص والصور والأصوات - خطوة نحو تقليد القدرة البشرية على معالجة المعلومات الحسية المتنوعة.
قال مارك تشين، رئيس بحوث الجبهات في OpenAI، في عرضه في نوفمبر 2023 خلال مؤتمر EmTech MIT: "واجهات العالم متعددة الوسائط. نريد من نماذجنا أن ترى ما نرى وتسمع ما نسمع، ونريدها أيضًا أن تولد محتوى يستهوي أكثر من حاسة واحدة لدينا."
تمكنت القدرات متعددة الوسائط في نموذج GPT-4 من OpenAI البرمجيات من الاستجابة للإدخالات البصرية والصوتية. في حديثه، أعطى تشين مثالًا على التقاط صور لداخل الثلاجة وطلب من ChatGPT أن يقترح وصفة استنادًا إلى المكونات في الصورة. يمكن أن يشمل التفاعل حتى عنصرًا صوتيًا إذا تم استخدام وضع صوت ChatGPT لطرح الطلب بصوت مرتفع.
"على الرغم من أن معظم مبادرات الذكاء الاصطناعي التوليدي اليوم تعتمد على النصوص، إلا أن "القوة الحقيقية لهذه القدرات ستظهر عندما يتمكنون من دمج النص والمحادثة مع الصور والفيديو، وتقاطع كل ثلاثة منها، وتطبيقها على مجموعة متنوعة من الأعمال"، كما قال مات بارينغتون، قائد التكنولوجيا الناشئة في الأمريكتين في EY.
تطبيقات الذكاء الاصطناعي متعددة الوسائط في العالم الحقيقي متنوعة ومتزايدة. في مجال الرعاية الصحية، على سبيل المثال، يمكن للنماذج متعددة الوسائط تحليل الصور الطبية في ضوء تاريخ المريض والمعلومات الجينية لتحسين دقة التشخيص. على مستوى وظيفي، يمكن للنماذج متعددة الوسائط توسيع قدرات الموظفين المختلفين من خلال توسيع القدرات التصميمية والبرمجية الأساسية للأفراد بدون خلفية رسمية في تلك المجالات.
"لا يمكنني رسم شيء لإنقاذ حياتي"، قال بارينغتون. "حسنًا، الآن أستطيع. أنا جيد باللغة، لذلك ... يمكنني الاستفادة من قدرة مثل [إنشاء الصور]، وبعض تلك الأفكار التي كانت في رأسي والتي لم أستطع رسمها يدويًا، يمكن للذكاء الاصطناعي أن يقوم بها."
بالإضافة إلى ذلك، يمكن أن تعزز قدرات متعددة الوسائط النماذج من خلال توفير بيانات جديدة للتعلم. "مع تحسن نماذجنا في نمذجة اللغة وبدء تحقيق الحدود فيما يمكنها تعلمه من اللغة، نريد أن نوفر للنماذج مدخلات خامة من العالم بحيث يمكنها إدراك العالم بمفردها واستخلاص استنتاجاتها الخاصة من أشياء مثل الفيديو أو البيانات الصوتية"، قال تشين.
قال مارك تشين، رئيس بحوث الجبهات في OpenAI، في عرضه في نوفمبر 2023 خلال مؤتمر EmTech MIT: "واجهات العالم متعددة الوسائط. نريد من نماذجنا أن ترى ما نرى وتسمع ما نسمع، ونريدها أيضًا أن تولد محتوى يستهوي أكثر من حاسة واحدة لدينا."
تمكنت القدرات متعددة الوسائط في نموذج GPT-4 من OpenAI البرمجيات من الاستجابة للإدخالات البصرية والصوتية. في حديثه، أعطى تشين مثالًا على التقاط صور لداخل الثلاجة وطلب من ChatGPT أن يقترح وصفة استنادًا إلى المكونات في الصورة. يمكن أن يشمل التفاعل حتى عنصرًا صوتيًا إذا تم استخدام وضع صوت ChatGPT لطرح الطلب بصوت مرتفع.
"على الرغم من أن معظم مبادرات الذكاء الاصطناعي التوليدي اليوم تعتمد على النصوص، إلا أن "القوة الحقيقية لهذه القدرات ستظهر عندما يتمكنون من دمج النص والمحادثة مع الصور والفيديو، وتقاطع كل ثلاثة منها، وتطبيقها على مجموعة متنوعة من الأعمال"، كما قال مات بارينغتون، قائد التكنولوجيا الناشئة في الأمريكتين في EY.
تطبيقات الذكاء الاصطناعي متعددة الوسائط في العالم الحقيقي متنوعة ومتزايدة. في مجال الرعاية الصحية، على سبيل المثال، يمكن للنماذج متعددة الوسائط تحليل الصور الطبية في ضوء تاريخ المريض والمعلومات الجينية لتحسين دقة التشخيص. على مستوى وظيفي، يمكن للنماذج متعددة الوسائط توسيع قدرات الموظفين المختلفين من خلال توسيع القدرات التصميمية والبرمجية الأساسية للأفراد بدون خلفية رسمية في تلك المجالات.
"لا يمكنني رسم شيء لإنقاذ حياتي"، قال بارينغتون. "حسنًا، الآن أستطيع. أنا جيد باللغة، لذلك ... يمكنني الاستفادة من قدرة مثل [إنشاء الصور]، وبعض تلك الأفكار التي كانت في رأسي والتي لم أستطع رسمها يدويًا، يمكن للذكاء الاصطناعي أن يقوم بها."
بالإضافة إلى ذلك، يمكن أن تعزز قدرات متعددة الوسائط النماذج من خلال توفير بيانات جديدة للتعلم. "مع تحسن نماذجنا في نمذجة اللغة وبدء تحقيق الحدود فيما يمكنها تعلمه من اللغة، نريد أن نوفر للنماذج مدخلات خامة من العالم بحيث يمكنها إدراك العالم بمفردها واستخلاص استنتاجاتها الخاصة من أشياء مثل الفيديو أو البيانات الصوتية"، قال تشين.
2. Agentic AI
يمثل الذكاء الاصطناعي الوكالي تحولًا كبيرًا من الذكاء الاصطناعي الردِّي إلى الذكاء الاصطناعي الاستباقي. تعتبر وكلاء الذكاء الاصطناعي نظمًا متقدمة تظهر الاستقلالية والاستباقية والقدرة على التصرف بشكل مستقل. على عكس الأنظمة الذكاء الاصطناعي التقليدية، التي تستجيب بشكل رئيسي لمدخلات المستخدم وتتبع البرمجة المحددة مسبقًا، فإن وكلاء الذكاء الاصطناعي مصممة لفهم بيئتها، وتحديد الأهداف، والعمل لتحقيق تلك الأهداف دون تدخل بشري مباشر.
على سبيل المثال، في مجال مراقبة البيئة، يمكن تدريب وكيل ذكاء اصطناعي على جمع البيانات، وتحليل الأنماط، وبدء الإجراءات الوقائية استجابة للمخاطر مثل علامات مبكرة عن حريق في الغابات. وبالمثل، يمكن لوكيل ذكاء اصطناعي مالي إدارة محفظة استثمارية بنشاط باستخدام استراتيجيات تكييفية تتفاعل مع تغيرات السوق في الوقت الفعلي.
"كان عام 2023 عامًا للتحدث مع الذكاء الاصطناعي"، كتب عالم الحاسوب بيتر نورفيج، الزميل في معهد الذكاء الاصطناعي الموجه نحو الإنسان في جامعة ستانفورد، في تدوينة مدونة حديثة. "في عام 2024، سنرى القدرة على إنجاز المهام من خلال الوكلاء لأجلك. حجز مواعيد، تخطيط لرحلة، الاتصال بخدمات أخرى."
بالإضافة إلى ذلك، يمكن أن يفتح الجمع بين الذكاء الاصطناعي الوكيل والمتعدد الوسائط إمكانيات جديدة. في العرض المذكور أعلاه، قدم تشين مثالًا على تطبيق مصمم لتحديد محتوى صورة مرفوعة. في السابق، كان يتعين على شخص يرغب في بناء تطبيق من هذا القبيل أن يقوم بتدريب نموذج تعرف الصور الخاص به ومن ثم معرفة كيفية نشره. ولكن مع النماذج متعددة الوسائط والوكيلة، يمكن تحقيق كل ذلك من خلال الحوار الطبيعي باللغة.
"أعتقد حقًا أن المتعدد مع GPTs سيفتح أبواب تطوير تطبيقات الرؤية الحاسوبية بدون كود، بنفس الطريقة التي فتح بها الحوار الطبيعي أبواب تطوير العديد من التطبيقات القائمة على النصوص بدون كود"، قال تشين.
على سبيل المثال، في مجال مراقبة البيئة، يمكن تدريب وكيل ذكاء اصطناعي على جمع البيانات، وتحليل الأنماط، وبدء الإجراءات الوقائية استجابة للمخاطر مثل علامات مبكرة عن حريق في الغابات. وبالمثل، يمكن لوكيل ذكاء اصطناعي مالي إدارة محفظة استثمارية بنشاط باستخدام استراتيجيات تكييفية تتفاعل مع تغيرات السوق في الوقت الفعلي.
"كان عام 2023 عامًا للتحدث مع الذكاء الاصطناعي"، كتب عالم الحاسوب بيتر نورفيج، الزميل في معهد الذكاء الاصطناعي الموجه نحو الإنسان في جامعة ستانفورد، في تدوينة مدونة حديثة. "في عام 2024، سنرى القدرة على إنجاز المهام من خلال الوكلاء لأجلك. حجز مواعيد، تخطيط لرحلة، الاتصال بخدمات أخرى."
بالإضافة إلى ذلك، يمكن أن يفتح الجمع بين الذكاء الاصطناعي الوكيل والمتعدد الوسائط إمكانيات جديدة. في العرض المذكور أعلاه، قدم تشين مثالًا على تطبيق مصمم لتحديد محتوى صورة مرفوعة. في السابق، كان يتعين على شخص يرغب في بناء تطبيق من هذا القبيل أن يقوم بتدريب نموذج تعرف الصور الخاص به ومن ثم معرفة كيفية نشره. ولكن مع النماذج متعددة الوسائط والوكيلة، يمكن تحقيق كل ذلك من خلال الحوار الطبيعي باللغة.
"أعتقد حقًا أن المتعدد مع GPTs سيفتح أبواب تطوير تطبيقات الرؤية الحاسوبية بدون كود، بنفس الطريقة التي فتح بها الحوار الطبيعي أبواب تطوير العديد من التطبيقات القائمة على النصوص بدون كود"، قال تشين.
3. Open source AI
بناء نماذج لغوية كبيرة ونظم ذكاء اصطناعي توليدي قوية أمر مكلف يتطلب كميات هائلة من الحوسبة والبيانات. ومع ذلك، يمكن لاستخدام نموذج مفتوح المصدر أن يمكّن المطورين من بناء على أعمال الآخرين، مما يقلل من التكاليف ويوسّع الوصول إلى التقنية. تكون تقنية الذكاء الاصطناعي مفتوحة المصدر متاحة للجمهور عمومًا، عادة مجانًا، مما يتيح للمؤسسات والباحثين المساهمة في وبناء الشفرات القائمة.
تشير بيانات GitHub من العام الماضي إلى زيادة ملحوظة في انخراط المطورين مع التقنيات الذكاء الاصطناعي، وخاصة التقنيات التوليدية. في عام 2023، دخلت مشاريع الذكاء الاصطناعي التوليدي إلى قائمة أكثر عشرة مشاريع شعبية عبر منصة استضافة الشفرات لأول مرة، مع مشاريع مثل Stable Diffusion وAutoGPT التي جلبت الآلاف من المساهمين لأول مرة.
في بداية العام، كانت النماذج التوليدية مفتوحة المصدر محدودة في العدد، وأداؤها كان غالبًا ما يتخلف عن الخيارات الخاصة مثل ChatGPT. ولكن توسّعت الساحة بشكل كبير خلال عام 2023 لتشمل منافسين مفتوحين المصدر قوية مثل نماذج Llama 2 لشركة Meta ونماذج Mixtral لشركة Mistral AI. قد يؤدي هذا إلى تغيير ديناميات المشهد الذكاء الاصطناعي في عام 2024 عن طريق توفير الوصول للكيانات الصغيرة وذات الموارد المحدودة إلى نماذج وأدوات ذكاء اصطناعي متطورة كانت في السابق خارج متناولها.
"إنه يمنح الجميع وصولًا سهلًا وديمقراطيًا نسبيًا، وهو رائع للتجريب والاستكشاف"، قال بارينغتون.
النهج مفتوح المصدر يمكن أيضًا أن يشجع على الشفافية والتطوير الأخلاقي، حيث أن وجود عدد أكبر من الأعين على الشفرة يعني احتمالًا أكبر للكشف عن التحيزات والأخطاء وثغرات الأمان. ومع ذلك، عبر الخبراء عن قلقهم بشأن سوء استخدام التقنيات المفتوحة المصدر في إنشاء المعلومات الخاطئة والمحتوى الضار الآخر. بالإضافة إلى ذلك، يعتبر بناء وصيانة المشاريع مفتوحة المصدر أمرًا صعبًا حتى للبرمجيات التقليدية، ناهيك عن النماذج الذكاء الاصطناعي المعقدة والتي تتطلب حوسبة مكثفة.
تشير بيانات GitHub من العام الماضي إلى زيادة ملحوظة في انخراط المطورين مع التقنيات الذكاء الاصطناعي، وخاصة التقنيات التوليدية. في عام 2023، دخلت مشاريع الذكاء الاصطناعي التوليدي إلى قائمة أكثر عشرة مشاريع شعبية عبر منصة استضافة الشفرات لأول مرة، مع مشاريع مثل Stable Diffusion وAutoGPT التي جلبت الآلاف من المساهمين لأول مرة.
في بداية العام، كانت النماذج التوليدية مفتوحة المصدر محدودة في العدد، وأداؤها كان غالبًا ما يتخلف عن الخيارات الخاصة مثل ChatGPT. ولكن توسّعت الساحة بشكل كبير خلال عام 2023 لتشمل منافسين مفتوحين المصدر قوية مثل نماذج Llama 2 لشركة Meta ونماذج Mixtral لشركة Mistral AI. قد يؤدي هذا إلى تغيير ديناميات المشهد الذكاء الاصطناعي في عام 2024 عن طريق توفير الوصول للكيانات الصغيرة وذات الموارد المحدودة إلى نماذج وأدوات ذكاء اصطناعي متطورة كانت في السابق خارج متناولها.
"إنه يمنح الجميع وصولًا سهلًا وديمقراطيًا نسبيًا، وهو رائع للتجريب والاستكشاف"، قال بارينغتون.
النهج مفتوح المصدر يمكن أيضًا أن يشجع على الشفافية والتطوير الأخلاقي، حيث أن وجود عدد أكبر من الأعين على الشفرة يعني احتمالًا أكبر للكشف عن التحيزات والأخطاء وثغرات الأمان. ومع ذلك، عبر الخبراء عن قلقهم بشأن سوء استخدام التقنيات المفتوحة المصدر في إنشاء المعلومات الخاطئة والمحتوى الضار الآخر. بالإضافة إلى ذلك، يعتبر بناء وصيانة المشاريع مفتوحة المصدر أمرًا صعبًا حتى للبرمجيات التقليدية، ناهيك عن النماذج الذكاء الاصطناعي المعقدة والتي تتطلب حوسبة مكثفة.
4. Retrieval-augmented generation
على الرغم من أن أدوات الذكاء الاصطناعي التوليدية اعتمدت على نطاق واسع في عام 2023، إلا أنها لا تزال تعاني من مشكلة التهلوس: الردود الصوتية التي تبدو معقولة لكنها غير صحيحة بالنسبة لاستفسارات المستخدمين. هذا القيد قد عرقل اعتماد الشركات، حيث يمكن أن تكون التهلوسات في سيناريوهات الأعمال الحرجة أو التي تتعامل مع العملاء كارثية. ظهرت تقنية التوليد المحسن بالاسترجاع (RAG) كوسيلة لتقليل التهلوسات، مما قد يكون له تأثيرات عميقة على اعتماد الذكاء الاصطناعي في المؤسسات.
تجمع تقنية RAG بين توليد النص واسترجاع المعلومات لتعزيز دقة وصلة المحتوى الذي يتم توليده بواسطة الذكاء الاصطناعي. تمكّنها من الوصول إلى المعلومات الخارجية، مما يساعدها على إنتاج ردود أكثر دقة وفهمًا للسياق. كما يقلل تجاوز الحاجة إلى تخزين جميع المعرفة مباشرة في النموذج من حجم النموذج، مما يزيد من سرعته ويقلل التكاليف.
"يمكنك استخدام RAG لجمع الكثير من المعلومات غير المنظمة، مثل الوثائق وما إلى ذلك، وإدخالها إلى نموذج بدون الحاجة إلى ضبط دقيق أو تدريب مخصص للنموذج"، قال بارينغتون.
هذه الفوائد مغرية بشكل خاص لتطبيقات الشركات حيث يكون المعرفة الواقعية المحدثة أمرًا حاسمًا. على سبيل المثال، يمكن للشركات استخدام RAG مع النماذج الأساسية لإنشاء شرائط دردشة ومساعدين افتراضيين أكثر كفاءة وإيضاحًا.
تجمع تقنية RAG بين توليد النص واسترجاع المعلومات لتعزيز دقة وصلة المحتوى الذي يتم توليده بواسطة الذكاء الاصطناعي. تمكّنها من الوصول إلى المعلومات الخارجية، مما يساعدها على إنتاج ردود أكثر دقة وفهمًا للسياق. كما يقلل تجاوز الحاجة إلى تخزين جميع المعرفة مباشرة في النموذج من حجم النموذج، مما يزيد من سرعته ويقلل التكاليف.
"يمكنك استخدام RAG لجمع الكثير من المعلومات غير المنظمة، مثل الوثائق وما إلى ذلك، وإدخالها إلى نموذج بدون الحاجة إلى ضبط دقيق أو تدريب مخصص للنموذج"، قال بارينغتون.
هذه الفوائد مغرية بشكل خاص لتطبيقات الشركات حيث يكون المعرفة الواقعية المحدثة أمرًا حاسمًا. على سبيل المثال، يمكن للشركات استخدام RAG مع النماذج الأساسية لإنشاء شرائط دردشة ومساعدين افتراضيين أكثر كفاءة وإيضاحًا.