- 2024-03-23
- 461
منذ إطلاقه، كان ChatGPT يثير الجدل في مجال الذكاء الاصطناعي، حيث جذب أكثر من 100 مليون مستخدم في وقت قياسي. يكمن السر في أداء وتنوع ChatGPT المذهل في فن مدسوس برشاقة ضمن برمجياته - هندسة الاستدراج.
تم إطلاق DALL-E وMidJourney وStableDiffusion في عام 2022، مما أبرز الإمكانات المخربة للذكاء الاصطناعي التوليدي. ولكن كان ChatGPT من Open AI الذي حقق نجاحًا كبيرًا في وقت لاحق في عام 2022. وهذه الزخم لم يظهر أي علامات على التباطؤ.
إعلان Google عن Bard وردود فعل Meta's Lamma 2 على ChatGPT من OpenAI قد زاد بشكل كبير من زخم سباق الذكاء الاصطناعي. من خلال توفير هذه النماذج بالمدخلات، نوجه سلوكها وردودها. وهذا يجعلنا جميعًا مهندسين للاستدراج إلى درجة معينة. لقد لفتت الصناعة التكنولوجية الانتباه. رأس المال الاستثماري يتدفق إلى الشركات الناشئة التي تركز على هندسة الاستدراج، مثل Vellum AI. علاوة على ذلك، تقارير مجلة Forbes تشير إلى أن مهندسي الاستدراج يحظون برواتب تتجاوز 300،000 دولار، مما يشير إلى وجود سوق عمل مزدهرة وقيمة.
في هذا المقال، سنكشف أسرار عالم هندسة الاستدراج في سياق ChatGPT. سنستكشف المبادئ الأساسية، ونتعمق في التقنيات، ونفحص تطبيقاتها التجارية.
قبل أن نتعمق في هندسة الاستدراج، دعونا أولاً نفهم كيفية عمل ChatGPT والدور المحوري الذي تلعبه هندسة الاستدراج في هذه العملية. في المقالات القادمة، سنناقش بعض هذه التقنيات المتقدمة بعمق، لذا ترقبوا!
الآلية وراء هندسة الإشارة في ChatGPT:
لقد استطاع ChatGPT أن يحقق نجاحًا باهرًا بفضل قدرته على فهم ومحاكاة التفاصيل الدقيقة للحوار البشري. يتم تدريب النموذج على مجموعة متنوعة من النصوص على الإنترنت، ولكن الأمر المهم بشكل حاسم هو أنه لا يعرف الوثائق أو المصادر المحددة في مجموعة تدريبه، مما يضمن التعميم على التفصيل. تُمكّن هذه الطريقة من التدريب ChatGPT من توليد ردود إبداعية، والتنقل في الحوارات المعقدة، وحتى إظهار نوع من الفكاهة. ومع ذلك، من المهم أن نتذكر أن ChatGPT لا يفهم حقًا أو يمتلك معتقدات؛ فهو يولّد الردود استنادًا إلى الأنماط التي تعلمها أثناء التدريب.
قدرة ChatGPT على فهم والرد على لغة الإنسان بطريقة دقيقة ومدركة للسياق تجعلها أدوات متعددة الاستخدامات بشكل لا يصدق.
تعتمد آليات هذه النماذج على مفهوم "الرموز" - أجزاء منفصلة من اللغة يمكن أن تتراوح من حرف واحد إلى كلمة كاملة. تعمل هذه النماذج مع عدد محدد من الرموز في كل مرة (4096 لـ GPT-3.5-Turbo أو 8192 أو 32768 لـ GPT-4)، حيث يتنبأون بالتسلسل التالي من الرموز المحتملة. تقوم النماذج بمعالجة الرموز باستخدام جبر خطي معقد، متنبئة بالرمز التالي الأكثر احتمالاً.
على سبيل المثال، جملة بسيطة من تسع كلمات يمكن أن تتحول إلى عشر رموز. حتى كلمة واحدة معقدة يمكن أن تتحول إلى عدة رموز، مما يساعد النموذج على فهم اللغة وتوليدها بشكل أفضل. حتى اللغات ذات الهياكل المعقدة للكلمات، مثل الألمانية، يتم التعامل معها من خلال تقسيمها إلى رموز.
تعمل نماذج GPT (Generative Pre-trained Transformer) عن طريق توليد رمز واحد في كل مرة، بدءًا من الرمز الأول ومتابعة حتى الرمز الأخير. بعد توليد كل رمز، يعيد النموذج مراجعة السلسلة بأكملها ومعالجتها مرة أخرى لتوليد الرمز التالي. يستمر هذا العملية التكرارية حتى يتم توليد الرمز النهائي، مما يجعل عملية توليد النص مشابهة لحلقة تكرار كبيرة - for-loop.
تم إطلاق DALL-E وMidJourney وStableDiffusion في عام 2022، مما أبرز الإمكانات المخربة للذكاء الاصطناعي التوليدي. ولكن كان ChatGPT من Open AI الذي حقق نجاحًا كبيرًا في وقت لاحق في عام 2022. وهذه الزخم لم يظهر أي علامات على التباطؤ.
إعلان Google عن Bard وردود فعل Meta's Lamma 2 على ChatGPT من OpenAI قد زاد بشكل كبير من زخم سباق الذكاء الاصطناعي. من خلال توفير هذه النماذج بالمدخلات، نوجه سلوكها وردودها. وهذا يجعلنا جميعًا مهندسين للاستدراج إلى درجة معينة. لقد لفتت الصناعة التكنولوجية الانتباه. رأس المال الاستثماري يتدفق إلى الشركات الناشئة التي تركز على هندسة الاستدراج، مثل Vellum AI. علاوة على ذلك، تقارير مجلة Forbes تشير إلى أن مهندسي الاستدراج يحظون برواتب تتجاوز 300،000 دولار، مما يشير إلى وجود سوق عمل مزدهرة وقيمة.
في هذا المقال، سنكشف أسرار عالم هندسة الاستدراج في سياق ChatGPT. سنستكشف المبادئ الأساسية، ونتعمق في التقنيات، ونفحص تطبيقاتها التجارية.
قبل أن نتعمق في هندسة الاستدراج، دعونا أولاً نفهم كيفية عمل ChatGPT والدور المحوري الذي تلعبه هندسة الاستدراج في هذه العملية. في المقالات القادمة، سنناقش بعض هذه التقنيات المتقدمة بعمق، لذا ترقبوا!
الآلية وراء هندسة الإشارة في ChatGPT:
لقد استطاع ChatGPT أن يحقق نجاحًا باهرًا بفضل قدرته على فهم ومحاكاة التفاصيل الدقيقة للحوار البشري. يتم تدريب النموذج على مجموعة متنوعة من النصوص على الإنترنت، ولكن الأمر المهم بشكل حاسم هو أنه لا يعرف الوثائق أو المصادر المحددة في مجموعة تدريبه، مما يضمن التعميم على التفصيل. تُمكّن هذه الطريقة من التدريب ChatGPT من توليد ردود إبداعية، والتنقل في الحوارات المعقدة، وحتى إظهار نوع من الفكاهة. ومع ذلك، من المهم أن نتذكر أن ChatGPT لا يفهم حقًا أو يمتلك معتقدات؛ فهو يولّد الردود استنادًا إلى الأنماط التي تعلمها أثناء التدريب.
قدرة ChatGPT على فهم والرد على لغة الإنسان بطريقة دقيقة ومدركة للسياق تجعلها أدوات متعددة الاستخدامات بشكل لا يصدق.
تعتمد آليات هذه النماذج على مفهوم "الرموز" - أجزاء منفصلة من اللغة يمكن أن تتراوح من حرف واحد إلى كلمة كاملة. تعمل هذه النماذج مع عدد محدد من الرموز في كل مرة (4096 لـ GPT-3.5-Turbo أو 8192 أو 32768 لـ GPT-4)، حيث يتنبأون بالتسلسل التالي من الرموز المحتملة. تقوم النماذج بمعالجة الرموز باستخدام جبر خطي معقد، متنبئة بالرمز التالي الأكثر احتمالاً.
على سبيل المثال، جملة بسيطة من تسع كلمات يمكن أن تتحول إلى عشر رموز. حتى كلمة واحدة معقدة يمكن أن تتحول إلى عدة رموز، مما يساعد النموذج على فهم اللغة وتوليدها بشكل أفضل. حتى اللغات ذات الهياكل المعقدة للكلمات، مثل الألمانية، يتم التعامل معها من خلال تقسيمها إلى رموز.
تعمل نماذج GPT (Generative Pre-trained Transformer) عن طريق توليد رمز واحد في كل مرة، بدءًا من الرمز الأول ومتابعة حتى الرمز الأخير. بعد توليد كل رمز، يعيد النموذج مراجعة السلسلة بأكملها ومعالجتها مرة أخرى لتوليد الرمز التالي. يستمر هذا العملية التكرارية حتى يتم توليد الرمز النهائي، مما يجعل عملية توليد النص مشابهة لحلقة تكرار كبيرة - for-loop.
تعني كلمة "for-loop" باللغة العربية "حلقة التكرار". وهي تشير في البرمجة إلى هيكلية تكرارية تُستخدم لتنفيذ مجموعة من الأوامر مرارًا وتكرارًا، حيث يُعاد تنفيذ مجموعة الأوامر داخل الحلقة بناءً على شرط معين حتى يتم تحقيق الشرط وتنتهي الحلقة.
ومع ذلك، النقطة الحساسة هنا هي أن جودة هذه الردود تعتمد بشكل كبير على البيانات البادئة التي تتلقاها. تمامًا مثل توجيه محادثة مع إنسان، فإن توجيه حوار مع ChatGPT يتطلب مستوى معينًا من المهارة والفهم. هنا يأتي دور هندسة البيانات البادئة في اللعب.
ما هي هندسة الاستفسارات - What is Prompt Engineering؟
الهندسة التوجيهية للمحفزات هي فن صياغة المحفزات أو المدخلات الدقيقة والفعّالة لتوجيه النماذج الذكاء الاصطناعي (NLP / Vision) مثل ChatGPT نحو إنتاج النواتج الأكثر كفاءة من حيث التكلفة والدقة والفائدة والأمان.
لا تقتصر الهندسة التوجيهية للمحفزات على إنتاج النصوص فقط، بل لها تطبيقات واسعة النطاق في مجال الذكاء الاصطناعي. يتم استخدامها بشكل متزايد في مجالات مثل الروبوتات التلقائية لعمليات العمليات الآلية، والأصول ثلاثية الأبعاد، والنصوص، وتعليمات الروبوتات، وأنواع أخرى من المحتوى ووسائل الإعلام الرقمية. توفر هذه العملية مزيجًا فريدًا من المنطق والبرمجة والفن، وفي بعض الحالات الخاصة، المعدلات الخاصة.
على الرغم من أن البادئة يمكن أن تتضمن نصوص بلغة طبيعية أو صورًا أو أنواعًا أخرى من البيانات الإدخالية، إلا أن الناتج يمكن أن يختلف بشكل كبير بين خدمات وأدوات الذكاء الاصطناعي. لكل أداة معينة مُعدلات خاصة بها تصف وزن الكلمات، والأنماط، والمنظورات، والتخطيط، أو خصائص أخرى للرد المطلوب.
يعد هذا المجال ضروريًا لإنشاء خدمات أفضل تعتمد على الذكاء الاصطناعي والحصول على نتائج فائقة من أدوات الذكاء الاصطناعي التوليدية الحالية. على سبيل المثال، غالبًا ما يستخدم مطورو المؤسسات الهندسة السريعة لتخصيص نماذج اللغات الكبيرة (LLMs) مثل GPT-3 لتشغيل برنامج الدردشة الآلي الذي يواجه العملاء أو التعامل مع المهام مثل إنشاء عقود خاصة بالصناعة.
تعد هذه العملية التكرارية للتحسين الفوري وقياس أداء الذكاء الاصطناعي عنصرًا أساسيًا في تمكين نماذج الذكاء الاصطناعي من توليد استجابات مفيدة وهادفة للغاية في سياقات مختلفة.
أن تصبح مهندسًا سريعًا!
إن براعة نموذج GPT-4 في فهم التعليمات المعقدة وحل المشكلات المعقدة بدقة تجعل منه موردًا لا يقدر بثمن. ومع ذلك، هناك طرق مختلفة للوصول إلى قدرات هذا النموذج، ويمكن أن يكون فهمها أمرًا بالغ الأهمية لدور المهندس الفوري في تحسين الكفاءة وفعالية التكلفة.
هناك طريقتان أساسيتان للتعامل مع نماذج GPT مثل GPT-4. إحدى الطرق هي من خلال واجهة برمجة تطبيقات OpenAI، حيث يتم حساب التكاليف لكل رموز الإدخال والإخراج. في هذا السيناريو، يمكن أن تتقلب التكاليف لكل ألف رمز مميز بناءً على حجم السياق. على سبيل المثال، في سياق أكبر يبلغ 32 كيلو بايت، يمكن أن تصل تكاليف الرموز المدخلة إلى 0.06 دولار لكل رمز، وتكاليف الرموز المخرجة إلى 0.12 دولار لكل رمز. وبالتالي، عند التعامل مع كمية كبيرة من الطلبات، يمكن أن تتراكم تكاليف الاستخدام بسرعة.
بالمقابل، يعتمد ChatGPT، الذي يستفيد من نموذج GPT-4، على نموذج اشتراك مدفوع.
تتضمن المهمة الرئيسية الأخرى في الهندسة السريعة ضبط معلمات النموذج. تتضمن هذه العملية ضبط المتغيرات التي يستخدمها النموذج لإجراء التنبؤات. من خلال ضبط هذه المعلمات، يمكن للمهندسين الفوريين تحسين جودة ودقة استجابات النموذج، مما يجعلها أكثر ملاءمة وإفادة للسياق.
على الرغم من أن العديد من المهندسين الفوريين يأتون من خلفية تقنية، إلا أن الطبيعة المتعددة التخصصات لهذا المجال تجعله في متناول الأفراد من خلفيات مهنية متنوعة. على نحو متزايد، يستفيد الكتاب والباحثون وحتى الفنانون من مهاراتهم الفريدة لتعزيز فعالية نماذج الذكاء الاصطناعي. وينعكس هذا التحول في سوق العمل أيضًا، مع تزايد عدد الشركات التي تبحث عن مهندسين سريعين يتمتعون بمجموعة متنوعة من المهارات والخلفيات.
التصميم والهندسة السريعة في ChatGPT
يلعب التصميم والهندسة الفوريان دورًا حاسمًا في تحسين أداء نماذج اللغة ويتضمن أكثر من مجرد صياغة الأسئلة؛ فهي تتطلب فهمًا عميقًا لنموذج الذكاء الاصطناعي واتباع نهج متكرر ومكرر للغاية.
تصميم التلقين
التصميم الفوري، في جوهره، هو فن وعلم إنشاء الموجه المثالي لنموذج لغة كبير معين (LLM)، مثل ChatGPT، لتحقيق هدف محدد بوضوح. إنه مزيج من:
ما هي هندسة الاستفسارات - What is Prompt Engineering؟
الهندسة التوجيهية للمحفزات هي فن صياغة المحفزات أو المدخلات الدقيقة والفعّالة لتوجيه النماذج الذكاء الاصطناعي (NLP / Vision) مثل ChatGPT نحو إنتاج النواتج الأكثر كفاءة من حيث التكلفة والدقة والفائدة والأمان.
لا تقتصر الهندسة التوجيهية للمحفزات على إنتاج النصوص فقط، بل لها تطبيقات واسعة النطاق في مجال الذكاء الاصطناعي. يتم استخدامها بشكل متزايد في مجالات مثل الروبوتات التلقائية لعمليات العمليات الآلية، والأصول ثلاثية الأبعاد، والنصوص، وتعليمات الروبوتات، وأنواع أخرى من المحتوى ووسائل الإعلام الرقمية. توفر هذه العملية مزيجًا فريدًا من المنطق والبرمجة والفن، وفي بعض الحالات الخاصة، المعدلات الخاصة.
على الرغم من أن البادئة يمكن أن تتضمن نصوص بلغة طبيعية أو صورًا أو أنواعًا أخرى من البيانات الإدخالية، إلا أن الناتج يمكن أن يختلف بشكل كبير بين خدمات وأدوات الذكاء الاصطناعي. لكل أداة معينة مُعدلات خاصة بها تصف وزن الكلمات، والأنماط، والمنظورات، والتخطيط، أو خصائص أخرى للرد المطلوب.
يعد هذا المجال ضروريًا لإنشاء خدمات أفضل تعتمد على الذكاء الاصطناعي والحصول على نتائج فائقة من أدوات الذكاء الاصطناعي التوليدية الحالية. على سبيل المثال، غالبًا ما يستخدم مطورو المؤسسات الهندسة السريعة لتخصيص نماذج اللغات الكبيرة (LLMs) مثل GPT-3 لتشغيل برنامج الدردشة الآلي الذي يواجه العملاء أو التعامل مع المهام مثل إنشاء عقود خاصة بالصناعة.
تعد هذه العملية التكرارية للتحسين الفوري وقياس أداء الذكاء الاصطناعي عنصرًا أساسيًا في تمكين نماذج الذكاء الاصطناعي من توليد استجابات مفيدة وهادفة للغاية في سياقات مختلفة.
أن تصبح مهندسًا سريعًا!
إن براعة نموذج GPT-4 في فهم التعليمات المعقدة وحل المشكلات المعقدة بدقة تجعل منه موردًا لا يقدر بثمن. ومع ذلك، هناك طرق مختلفة للوصول إلى قدرات هذا النموذج، ويمكن أن يكون فهمها أمرًا بالغ الأهمية لدور المهندس الفوري في تحسين الكفاءة وفعالية التكلفة.
هناك طريقتان أساسيتان للتعامل مع نماذج GPT مثل GPT-4. إحدى الطرق هي من خلال واجهة برمجة تطبيقات OpenAI، حيث يتم حساب التكاليف لكل رموز الإدخال والإخراج. في هذا السيناريو، يمكن أن تتقلب التكاليف لكل ألف رمز مميز بناءً على حجم السياق. على سبيل المثال، في سياق أكبر يبلغ 32 كيلو بايت، يمكن أن تصل تكاليف الرموز المدخلة إلى 0.06 دولار لكل رمز، وتكاليف الرموز المخرجة إلى 0.12 دولار لكل رمز. وبالتالي، عند التعامل مع كمية كبيرة من الطلبات، يمكن أن تتراكم تكاليف الاستخدام بسرعة.
بالمقابل، يعتمد ChatGPT، الذي يستفيد من نموذج GPT-4، على نموذج اشتراك مدفوع.
تتضمن المهمة الرئيسية الأخرى في الهندسة السريعة ضبط معلمات النموذج. تتضمن هذه العملية ضبط المتغيرات التي يستخدمها النموذج لإجراء التنبؤات. من خلال ضبط هذه المعلمات، يمكن للمهندسين الفوريين تحسين جودة ودقة استجابات النموذج، مما يجعلها أكثر ملاءمة وإفادة للسياق.
على الرغم من أن العديد من المهندسين الفوريين يأتون من خلفية تقنية، إلا أن الطبيعة المتعددة التخصصات لهذا المجال تجعله في متناول الأفراد من خلفيات مهنية متنوعة. على نحو متزايد، يستفيد الكتاب والباحثون وحتى الفنانون من مهاراتهم الفريدة لتعزيز فعالية نماذج الذكاء الاصطناعي. وينعكس هذا التحول في سوق العمل أيضًا، مع تزايد عدد الشركات التي تبحث عن مهندسين سريعين يتمتعون بمجموعة متنوعة من المهارات والخلفيات.
التصميم والهندسة السريعة في ChatGPT
يلعب التصميم والهندسة الفوريان دورًا حاسمًا في تحسين أداء نماذج اللغة ويتضمن أكثر من مجرد صياغة الأسئلة؛ فهي تتطلب فهمًا عميقًا لنموذج الذكاء الاصطناعي واتباع نهج متكرر ومكرر للغاية.
تصميم التلقين
التصميم الفوري، في جوهره، هو فن وعلم إنشاء الموجه المثالي لنموذج لغة كبير معين (LLM)، مثل ChatGPT، لتحقيق هدف محدد بوضوح. إنه مزيج من:
- فهم LLM: قد تستجيب نماذج اللغة المختلفة بشكل مختلف لنفس الموجه. علاوة على ذلك، قد تحتوي بعض نماذج اللغة على كلمات رئيسية أو مشغلات فريدة، والتي تفسرها بطريقة معينة.
- المعرفة بالمجال: الخبرة في المجال ذي الصلة أمر بالغ الأهمية عند تصميم المطالبات. على سبيل المثال، يتطلب إنشاء مطالبة لاستنتاج تشخيص طبي معرفة طبية.
- النهج التكراري وقياس الجودة: غالبًا ما تتضمن عملية إنشاء الموجه المثالي التجربة والخطأ. ولذلك، فإن وجود طريقة لتقييم جودة المخرجات بما يتجاوز مجرد الحكم الشخصي هو أمر حيوي، خاصة عند استخدام الموجه على نطاق أوسع.
الهندسة السريعة
الهندسة السريعة هي مجال ممتد من التصميم السريع الذي يتضمن العديد من العمليات الهامة:
- تصميم الموجهات على نطاق واسع: تتضمن هذه العملية تصميم المطالبات التعريفية (الموجهات التي تولد مطالبات أخرى) وقوالب المطالبات، وهي عبارة عن مطالبات ذات معلمات يمكن إنشاء مثيل لها في وقت التشغيل.
- تصميم الأدوات وتكاملها: يمكن أن تتضمن المطالبات في بعض الأحيان نتائج من أدوات خارجية، ويعد دمج هذه الأدوات بسلاسة في النظام أمرًا بالغ الأهمية.
- سير العمل والتخطيط والإدارة السريعة: غالبًا ما يتطلب نشر تطبيق LLM، مثل chatbot، إدارة مكتبات المطالبات، وتخطيط المطالبات المناسبة واختيارها، ودمج الأدوات المتنوعة بكفاءة.
- تقييم المطالبات وضمان جودتها: يتضمن هذا الجانب تحديد المقاييس والعمليات لتقييم المطالبات تلقائيًا وبمشاركة بشرية.
- التحسين الفوري: يمكن أن تعتمد التكلفة وزمن الوصول لنموذج الذكاء الاصطناعي على اختيار النموذج وطول المطالبة (عدد الرموز المميزة).
تم تطوير العديد من النهج والأدوات والأطر الآلية لتصميم المطالبات بشكل آلي وبمقياس كبير. ومع ذلك، من المهم فهم أن أي من هذه الأدوات لا يمكن أن يحل محل الفهم الدقيق والحكم والخبرة لدى مهندس التعليمات المجرب.