أرسل رسالة

أخبار

March 11, 2021

الذاكرة الخاصة بالمجال

قد تكون الحوسبة الخاصة بالمجال هي السائدة ، لكنها تتجنب المشكلة الحقيقية.

الشاغل الأكبر هو الذكريات التي تخنق أداء المعالج ، وتستهلك المزيد من الطاقة ، وتشغل أكبر مساحة من الرقائق.تحتاج الذكريات إلى التحرر من الهياكل الجامدة التي تفضلها البرامج الحالية.عندما يتم تصميم الخوارزميات والذاكرة معًا ، تكون التحسينات في الأداء كبيرة ويمكن تحسين المعالجة.

تم الترويج للمعالجة الخاصة بالمجال من خلال محاضرة تورينج لعام 2018 ، "عصر ذهبي جديد لهندسة الكمبيوتر" ، بقلم جون هينيسي وديفيد باترسون.لكن المعالجات كانت مقيدة بالذاكرة لعقود.إن تغيير المعالجة دون إعادة التفكير في التسلسل الهرمي للذاكرة والذاكرة يتجاهل قانون أمدال ، الذي يوفر علاقة رياضية بين التسريع الممكن لنظام ما عند تحسين أجزاء معينة من هذا النظام.تقول بشكل أساسي أنك تحصل على عوائد متناقصة إذا ركزت فقط على جزء واحد من النظام بدلاً من النظر إلى النظام ككل.

فلماذا لا تركز على عنق الزجاجة؟يقول براساد ساجورتي ، مدير تسويق المنتجات في سينوبسيس: "الذاكرة الخاصة بالمجال هي مجرد مصطلح جديد ، لكن المعماريين يقومون بهذه الأنواع من التحسينات لفترة طويلة"."وإذا لم يفعلوا ذلك ، فإنهم يفوتون حيلة لأن معظم الناس كانوا يفعلونها."

يتفق الآخرون."تذكر ذكريات الفيديو - DRAM مع سجلات التحول المضمنة؟"يسأل مايكل فرانك ، الزميل ومهندس النظام في Arteris IP."ربما GDDR [1-5] ، ذكريات بطاقة ذاكرة التخزين المؤقت الخاصة ، أو ذكريات ارتباطية تعود إلى أيام TTL؟لم ينج الكثير من هؤلاء لأن وظائفهم كانت محددة للغاية.لقد استهدفوا جهازًا فريدًا.أنت بحاجة إلى مجال كبير بما يكفي ، وتكافح التكلفة المنخفضة للذاكرة الحيوية اليوم ، والتي تتمتع بمزايا الحجم الكبير والتصنيع على نطاق واسع. "

في بعض الأحيان يكون الأمر أعمق من ذلك.يقول ساغورتي من سينوبسيس: "قد تقوم بتوصيل شيء ما في ذاكرة القراءة فقط"."ما نراه هو المزيد من الأشخاص الذين يقومون بضبط الذاكرة اليوم.على سبيل المثال ، مع تحويل فورييه ، أو تحويل Z ، سيكتب الأشخاص الكود بطريقة يمكنك من خلالها تخزين المعاملات بترتيب معين.عندما تقوم بضرب المصفوفة ، يمكنك تخزين المعاملات بترتيب معين بحيث تكون قراءتها أسرع.لا يجوز لك تخزين البيانات في ذاكرة واحدة ، بدلاً من ذلك ، ضعها في ثلاث أو أربع ذكريات مختلفة بحيث يمكنك قراءة الأشياء من خلال مسارات بيانات متعددة.هذه الأنواع من الأشياء تحدث مؤخرًا ".

التغيير صعب.يقول ستيفن وو ، زميل ومخترع متميز في Rambus: "التحدي هو أنه في الماضي ، كان لدى الناس نموذج تجريدي لطيف للتفكير في أنظمة الحوسبة"."لم يكن عليهم أبدًا التفكير في الذاكرة.لقد جاء مجانًا ونموذج البرمجة جعله هكذا عندما قمت بإشارات إلى الذاكرة ، فقد حدث ذلك للتو.لم يكن عليك أبدًا أن تكون صريحًا بشأن ما كنت تفعله ".

يتم إحراز تقدم في أداء الذاكرة العامة.يقول Arteris 'Frank: "لقد حسنت وحدات التحكم في الذاكرة اليوم ومعايير الواجهة المتقدمة بشكل كبير ما يمكنك استخلاصه من تكنولوجيا السيليكون المتقدمة"."وقد مكّن هذا من وجود قوائم انتظار عميقة وجدولة متقدمة.تقنيات الذاكرة المتقدمة ، مثل ذاكرة النطاق الترددي العالي (HBM) ، ودعم عرض النطاق الترددي المتراكم الذي كنا نظن أنه من المستحيل تحقيقه قبل عقد من الزمن فقط.ومع ذلك فهي ليست رخيصة.تتيح تقنيات 10 نانومتر أيضًا ذاكرة تخزين مؤقت كبيرة ، لذلك ربما يمكننا تسمية الذاكرة الخاصة بالمجال لهذا الرجل الفقير ".

لكن هذه كلها أمثلة على تغييرات تدريجية صغيرة.يقول مات هورسنيل ، كبير مهندسي الأبحاث في مجموعة Arm's Research and Development: "تصميم أنظمة الذاكرة الفرعية التي تتبع فيها الحوسبة البيانات بشكل أساسي ، وليس العكس ، يتطلب إعادة تفكير مهمة في العديد من المبادئ التي اعتاد عليها المهندسون المعماريون"."هناك فرصة لتحسين تجريد البرمجة ، من القائمة النموذجية للعمليات على البيانات اليوم ، إلى نموذج موسع يتضمن التزامن وبعض فكرة المسافات النسبية بين وحدات الحساب وعناصر البيانات.يمكن لمثل هذه التجريدات أن تتيح التحولات الضرورية لاستهداف ذكريات خاصة بالمجال بشكل أمثل عندما تتطور الخوارزميات بسرعة ".

مراكز البيانات في مقعد السائق
مراكز البيانات هي المحرك للعديد من اتجاهات التكنولوجيا اليوم.يقول رافي ثوماركودي ، الرئيس التنفيذي لشركة Mobiveil: "أحد أسرع التطبيقات نموًا للحوسبة هو في مراكز البيانات حيث تتطلب تطبيقات البرامج المزيد من سعة الذاكرة وعرض النطاق الترددي في زمن انتقال أقل"."مع ظهور أحدث معايير الصناعة ، Compute Express Link (CXL) ، يمكن لمهندسي النظام تصنيف الذاكرة المطلوبة بين الذاكرة الرئيسية في DDRn DIMMS و DDRn المستندة إلى CXL أو الذكريات الثابتة الأحدث.تختلف خصائص زمن الانتقال والخصائص الاقتصادية لهذه الطبقات من الذكريات ، وهذا يمنح المهندسين المعماريين خيارات لخلط الذكريات ومطابقتها لتناسب متطلباتهم ".

هذا هو استمرار لبنى الذاكرة القديمة.يقول تيم كوجل ، مهندس التطبيقات الرئيسي في سينوبسيس: "تقوم العديد من الشركات المصنعة للمعدات الأصلية وبيوت الأنظمة بتصميم SoCs الخاصة بها لتخصيص السيليكون لأحمال العمل المحددة الخاصة بهم"."أكبر فرصة للأداء ومكاسب القوة هي التخصص في التسلسل الهرمي للذاكرة مع بنية التوصيل البيني الداعمة.

ضع في اعتبارك القوة.يقول Arun Iyengar: "في البنى الحالية ، يتم استهلاك 90٪ من الطاقة لأحمال عمل الذكاء الاصطناعي من خلال حركة البيانات ، ونقل الأوزان والتنشيطات بين الذاكرة الخارجية ، وذاكرة التخزين المؤقت على الرقاقة ، وأخيراً إلى عنصر الحوسبة نفسه (انظر الشكل 1)" ، الرئيس التنفيذي لشركة Untether AI."فقط من خلال التركيز على احتياجات تسريع الاستدلال وتعظيم كفاءة الطاقة يمكننا تقديم أداء حسابي غير مسبوق."

يعد تحسين الذاكرة مشكلة على مستوى النظام تمس جميع جوانب التصميم - الأجهزة والبرامج والأدوات.يضيف Kogel: "تتنوع استراتيجيات تحسين الذاكرة وتعتمد على مجال التطبيق".أفضل استراتيجية هي تجنب الوصول إلى الذاكرة خارج الشريحة تمامًا.بالنسبة للبنى الخاصة بالمجال ، يمكن تحقيق ذلك عادةً عن طريق زيادة الذاكرة المتوفرة على الشريحة ، إما في شكل ذاكرات تخزين مؤقت أو ذاكرة مُدارة بواسطة التطبيق.في مجال مسرعات التعلم العميق على وجه الخصوص ، تعد الذاكرة المتوفرة على الرقاقة أحد معايير التصميم الحاسمة التي تؤثر أيضًا على كيفية تجميع تطبيق الشبكة العصبية على الأجهزة المستهدفة - على سبيل المثال ، تبليط مشغل الالتفاف. "

تتطلع العديد من التصاميم إلى أبعد من ذلك."يتم استكشاف مفاهيم الذاكرة الخاصة بالمجال في مجال الحوسبة المكانية" ، كما يقول Arm's Horsnell."على سبيل المثال ، تميل DSPs إلى توفير مجموعة من الذكريات الموزعة ، غالبًا ما تُدار بشكل مباشر في البرامج ، والتي يمكن أن تكون أكثر ملاءمة لمتطلبات النطاق الترددي وأنماط الوصول للتطبيقات المتخصصة من أنظمة الذاكرة المشتركة التقليدية.من أجل سد فجوة الكفاءة مع ASICs ذات الوظيفة الثابتة ، غالبًا ما تقدم هذه المعالجات شكلاً من أشكال تخصص الذاكرة من خلال توفير دعم مباشر لأنماط وصول محددة (مثل التخزين المؤقت N ، و FIFOs ، والمخازن المؤقتة للخط ، والضغط ، وما إلى ذلك).يتمثل أحد الجوانب الحاسمة للتنسيق داخل هذه الأنظمة ، والتحدي في تصميمها ، في تحديد الدقة المناسبة لعمليات الوصول إلى البيانات ، والتي يمكن أن تقلل من نفقات الاتصال والمزامنة مع زيادة التزامن في نفس الوقت.لا تزال هناك تحديات أخرى ، بما في ذلك البرمجة والاتساق والمزامنة والترجمة ، والتي تضيف تعقيدًا للبرامج.ومع ذلك ، فإن المسار المحتمل للمضي قدمًا هو الاعتماد على اللغات الخاصة بالمجال (DSLs) ، والتي من خلال جعل تدفق البيانات للتطبيقات أكثر وضوحًا ، يمكن أن تمكن المترجمين من تحديد أنماط الوصول إلى الذاكرة المتخصصة وتعيينها على الأجهزة بشكل أكثر فعالية. "

من المفيد أيضًا إلقاء نظرة فاحصة على الذكريات نفسها."التخصيص المفرط هو الاتجاه الذي نراه عندما يتعلق الأمر بالذكريات" ، كما يقول أناند ثيروفينجادام ، مدير تسويق منتجات كبار الموظفين في سينوبسيس."هذا يعني ذكريات مصممة لغرض معين لتطبيقات نهائية مختلفة.حتى داخل تطبيق نهائي معين مثل الذكاء الاصطناعي ، هناك احتياجات مختلفة للذكريات ، مثل التدريب أو الاستدلال ، أو الاستنتاج في الخوادم ، أو الاستدلال في أقصى الحدود.لكل من هذه التطبيقات متطلبات مختلفة ، وهذا يعني أنه عليك تخصيص الذكريات.يعني هذا التخصيص أنه لم يعد بإمكانك عرض الذكريات كسلع أو منتجات جاهزة.عليك أن تبنيها لتطبيق معين.هذا هو المكان الذي تبدأ فيه الصلصة السرية ".

في كثير من الحالات ، يتم ربط الذاكرة والتوصيل البيني بإحكام."يسير أي شيء عندما يتعلق الأمر بدمج الذاكرة وتقنيات الاتصال البيني لتلبية متطلبات الوصول إلى البيانات لأحمال عمل التطبيقات - على سبيل المثال ، مستويات متعددة من التجميع تجمع بين المعالجة والذاكرة المحلية للاستفادة من المنطقة المحلية في تطبيقات تدفق البيانات ، أو وحدات ذاكرة الوصول العشوائي SRAM المخزنة / متعددة المنافذ على الرقاقة للتخزين المؤقت لخرائط ميزات مسرعات CNN ، وتسلسلات هرمية لذاكرة التخزين المؤقت العميقة مع بروتوكولات الاتساق المتطورة للتخفيف من مجموعة العمل الفاترة لأحمال عمل مركز البيانات. "

يمكن للتغييرات الصغيرة أن تسفر عن نتائج كبيرة.يقول فرانك: "انظر فقط إلى المعجزة الصغيرة التي قدمتها شركة Apple مع M1"."لقد اكتشفوا كيفية تصميم نظام ذاكرة فرعي يخدم أساتذة متعددين غير متجانسين جيدًا ، باستخدام إستراتيجية التخزين المؤقت الذكية وتسلسل هرمي ضخم متعدد المستويات لذاكرة التخزين المؤقت."

كما هو الحال في كثير من الأحيان ، فإن البرنامج هو المرساة بالقصور الذاتي.يقول ساغورتي: "ما يحدث عادةً هو أن هناك خوارزمية مطبقة ، ونرى طريقة لتحسينها ، وتحسين الذاكرة ، بحيث يتم تنفيذ الخوارزمية بشكل أفضل"."على الجانب الآخر ، لدينا هذه الأنواع المختلفة من الذاكرة.هل يمكنك تغيير الخوارزمية الخاصة بك للاستفادة من هذه الأنواع الجديدة من الذكريات؟في الماضي ، كان استخدام TCAMs في الغالب عبارة عن بناء مجال شبكة للبحث عن عناوين IP.في الآونة الأخيرة ، بدأت محركات التدريب في استخدام TCAMs ، وهذا نهج مختلف.يحتاج هذا إلى برنامج أو برنامج ثابت للتغيير بناءً على أنواع الذكريات المتاحة.ولكن في معظم الأوقات ، يظل البرنامج ثابتًا وتغييرات الذاكرة لتحسين التنفيذ الناتج ".

الوعي بالإنتاجية
يتم استثمار الكثير من الوقت والمال في الذكاء الاصطناعي هذه الأيام.الرقائق المخصصة مقيدة بالإنتاجية ، وهذا يسلط الضوء على الذاكرة والتوصيل البيني.

يقول Kogel: "تاريخيًا ، تم تصميم معماريات الذاكرة والترابط بناءً على جداول بيانات ثابتة أو نماذج تحليلية بسيطة مثل نموذج أداء خط السقف"."بالنسبة لأحدث التطبيقات ، يصبح هذا الأمر معقدًا جدًا.على سبيل المثال ، يتطلب توقع متطلبات الذاكرة لكل طبقة في شبكة CNN النظر في تحسين المترجم مثل التبليط ودمج الطبقة.تصبح هذه الأساليب الثابتة معقدة بشكل غير معقول وغير دقيقة للتنبؤ وتحسين أحمال العمل على مستوى SoC مع أنظمة IP الفرعية المتنوعة وسيناريوهات التطبيق الديناميكي.من ناحية أخرى ، فإن تشغيل التطبيق أعلى مضاهاة الأجهزة أو نظام النماذج الأولية متأخر جدًا في عملية التطوير لإجراء أي تغييرات جذرية أو تحسين كبير لتصميم الذاكرة. "

هذا يضع التركيز على أعباء العمل المقصودة.يقول فرانك: "إن مفتاح أنظمة الذاكرة الفرعية الفعالة هو معرفة حجم العمل لديك"."فهم كيف يتصرف ، وربما حتى تشكيله بطريقة تجعله أكثر توافقًا مع قيود التسلسل الهرمي للذاكرة ، هذا هو المكان الذي يتم فيه تحدي الهندسة المعمارية.تتطلب المسرعات الخاصة بالمجال أنظمة ذاكرة مضبوطة - وفن بناء محرك التحويل الذي يتطابق مع "المعاوقة" مع الكتلة المنتجة والصفحة المنظمة والوصول السريع للذاكرة DRAM ويتطلب نمط وصول المحرك نظرة ثاقبة لسلوك النظام وأدوات النمذجة والكثير من أعباء العمل للعب بها.في بعض الأحيان ، يتطلب الأمر تغيير الطريقة التي يعالج بها عبء العمل البيانات حتى يتمكن من تحسين النظام ككل.وخير مثال على ذلك هو الانتقال من العرض "المباشر" إلى المعالجة المستندة إلى البلاط في وحدات معالجة الرسومات ".

كل ذلك يعود إلى النمذجة والمحاكاة.يقول Kogel: "نحن نقترح استخدام أدوات النماذج الأولية الافتراضية لنمذجة عبء عمل التطبيق ، جنبًا إلى جنب مع نماذج دقيقة على مستوى المعاملات للربط البيني وبنية الذاكرة"."يسمح نهج" البنية أولاً "الكمي بتحليل المقايضة المبكر ، مما ينتج عنه مواصفات تنفيذ موثوقة.على حساب جهود النمذجة والمحاكاة الإضافية ، تتمثل الفائدة في تقليل مخاطر فقدان الأداء وأهداف الطاقة ، أو تقليل تكلفة التصميم الزائد للأجهزة لمجرد أن تكون في الجانب الآمن.في عصر تناقص العوائد من قانون مور ، تكمن الفرصة في الخروج بمنتج أكثر تميزًا وتميزًا ".

يسمح ذلك أيضًا برؤية تأثير التغييرات الخوارزمية.يقول ثيروفينجادام: "هناك حاجة للعودة وإعادة تصميم الخوارزميات"."يمكن إعادة تصميمها لتتلاءم مع بنيات الذاكرة التقليدية القديمة ، أو يمكن إعادة تصميمها لمعماريات جديدة ، وأنماط ذكريات جديدة ، ونكهات ذاكرة جديدة.هناك هذا الضغط المستمر لتوسيع نطاق الأداء ، وتوسيع نطاق التكلفة ، وكذلك القدرة على موازنة المفاضلات للتطبيقات المختلفة.هذا هو السبب الأساسي الذي يجعلك ترى التطوير المستمر لـ MRAMs و FeRAMs.إنهم يحاولون إيجاد مكان مناسب لمتغيرين على الأقل ، إن لم يكن كل المتغيرات.من المؤكد أن الحاجة إلى إعادة تصميم الخوارزميات جنبًا إلى جنب مع بنيات الذاكرة أصبحت مهمة ".

التوازن ضروري.يقول فرانك: "أنت بحاجة إلى التفكير في مفهوم الكثافة الحسابية ونوع العمليات المتضمنة"."تمتلك بعض الخوارزميات متطلبات نطاق ترددي لا تشبع ، بينما يقوم البعض الآخر بنقل كميات صغيرة نسبيًا من البيانات ولكنها تؤدي آلاف العمليات عليها.قد تعمل العملية في الذاكرة بشكل جيد بالنسبة للمعالجة من نوع SIMD ، حيث يكون عرض النطاق الترددي للإرشادات صغيرًا بالنسبة إلى عرض النطاق الترددي للبيانات ويتم معالجة العديد من العناصر باستخدام نفس الوصفة.ولكن بمجرد وجود تبعيات متسلسلة في دفق البيانات أو تدفق البيانات غير المنتظم ، تتقلص فائدة الذاكرة الخاصة بالمجال ".

ذاكرة مخصصة
في حين أن التغييرات المعمارية قد تؤدي إلى نتائج كبيرة ، فإن تحسين الذكريات قد يوفر أيضًا مكاسب.يقول هورسنيل: "يتم استخدام نسبة كبيرة من قوة ومساحة مسرعات اليوم في الذاكرة"."لذا فإن أي تحسينات في وقت الاستجابة / الكثافة / الطاقة تحققها تقنيات الذاكرة الجديدة يمكن أن يكون لها تأثير كبير."

الذكريات المخصصة أصبحت تجارة كبيرة.يقول Saggurti: "تبدأ في رؤية أشياء مثل الحوسبة في الذاكرة ، والحساب القريب من الذاكرة ، والذكريات المحددة التي قد تكون ذاكرة خالية تمامًا من الكتابة - ذكريات محسّنة لأنواع معينة من العمليات"."نرى الكثير من العملاء يسألوننا عن MRAM ، والمزيد من التخصيص لذاكرة SRAM ، و TCAM ، وبعض التعديلات على TCAMs."

ومع ذلك ، لا تزال هناك صعوبات.يقول فرانك: "لقد أجريت الكثير من المناقشات بشأن تصميمات الذاكرة المخصصة ، حيث كان من الممكن أن تكون المعالجة على الذاكرة" بنية "مثالية"."كان من الممكن أن يوفر نطاقًا تردديًا عاليًا ، وزمن وصول منخفض ، وما إلى ذلك. كل شيء كان على ما يرام ، باستثناء حقيقة أن عملية الذاكرة كانت تحد من المنطق الذي يمكن دمجه - ثلاث أو أربع طبقات معدنية ، منخفضة الطاقة ، ولكن بطيئة.هذا يعني عدم كفاءة محرك الحوسبة.أدى التضحية بسرعة الساعة وتعقيد الدائرة فجأة إلى جعل دمج محرك الحوسبة خيارًا جيدًا ".

لكن بعض هذه التغييرات ستصبح ضرورية.يقول Saggurti: "يريد الناس إدخال فلاش على الرقاقة وجعله فلاشًا مضمنًا".ثم يصبح السؤال هل هذا ممكن؟في 28nm ، قد تكون قادرًا على عمل فلاش مضمن ، لكن الناس يبدأون في التفكير في أشياء مثل MRAM عند 22 نانومتر. "

لا تزال هناك طرق أخرى للنظر في المشكلة.يضيف Saggurti: "تقلب العملية عبر رقاقة وعبر القالب ، وحتى بمرور الوقت ، يحد من تصميم الذاكرة"."عندما تصمم ذاكرة ، ذاكرة SRAM بسيطة ، فإنك تميل إلى التصميم للحالة عندما تسير خلية البت في اتجاه واحد - بطيئة - ويذهب المحيط في الاتجاه الآخر - بسرعة.إذا صممت من أجل ذلك ، وإذا كانت غالبية السيليكون نموذجيًا ، فإنك تترك الكثير من الأداء والقوة على الطاولة.إذا فهمت مكانك في نطاق العملية وقمت بتمكين مصمم الشرائح من التصرف بناءً على تلك المعلومات ، فيمكنك حينئذٍ ضبط التوقيت وفقًا لذلك.يمكن أن يكون تصميمك أكثر مثالية ، ولن تضطر إلى التصميم في أسوأ الحالات. "

استنتاج
على الرغم من أن الذاكرة كانت دائمًا مقايضة في التصميم ، إلا أنها لم تلق أبدًا نفس المستوى من الاهتمام مثل المعالجة ، على الرغم من أنها محدد الأداء من حيث النطاق الترددي والقوة والمساحة.يتسبب الذكاء الاصطناعي في إعادة التفكير في هياكل الذاكرة بدافع الضرورة ، ولكن مع هذا الاهتمام الإضافي ، قد تعيد فرق التصميم أيضًا التفكير في بعض البرامج والخوارزميات التي تم تحسينها لأنظمة الذاكرة القديمة.في عالم لا تأتي فيه مكاسب الأداء مجانًا كل 18 شهرًا ، أصبحت الإجراءات الأكثر تطرفًا هي الطريقة الوحيدة لمنع تحول المنتجات إلى سلع (من براين بيلي)

تفاصيل الاتصال