به عنوان یکی از اصلی ترین کاربردها در بینایی رایانه ، تشخیص سن در سناریوهایی که به دقت بالایی نیاز دارند اما منابع محاسباتی محدودی مانند رباتیک و اتومبیل های بدون راننده دارند ، اهمیت فزاینده ای پیدا می کند. متأسفانه ، بسیاری از ردیاب های مدرن با دقت بالا این محدودیت ها را برآورده نمی کنند. از همه مهمتر ، برنامه های شناسایی شی در دنیای واقعی بر روی سیستم عامل های مختلف اجرا می شوند که اغلب به منابع مختلفی نیاز دارند.
بنابراین س naturalال طبیعی این است که چگونه می توان آشکارسازهای دقیق و کارآمد شی را طراحی کرد که بتوانند با محدوده وسیعی از محدودیت های منابع نیز سازگار شوند؟
EfficDet: مقیاس پذیر و تشخیص اشیا ، که در CVPR 2020 به تصویب رسید ، خانواده جدیدی از ردیاب های شی object مقیاس پذیر و کارآمد را معرفی می کند. با استفاده از کارهای قبلی در زمینه مقیاس گذاری شبکه های عصبی (EfficNet) و ترکیب یک شبکه عملکردی دو جهته جدید (BiFPN) و قوانین جدید مقیاس گذاری ، EfficDet به دقت مدرن دست پیدا می کند در حالی که 9 برابر کوچکتر است و از محاسبات قابل توجهی کمتر از ردیاب های شناخته شده مدرن استفاده می کند. شکل زیر معماری کلی شبکه مدل ها را نشان می دهد.
بهینه سازی معماری مدل
ایده پشت EfficDet ناشی از تلاش برای یافتن راه حل هایی برای بهبود کارایی محاسبات با بررسی سیستماتیک مدل های پیشرفته قبلی تشخیص است. به طور کلی ، آشکارسازهای جسم دارای سه جز components اصلی هستند: ستون فقرات که ویژگی هایی را از یک تصویر معین استخراج می کند. شبکه ای از اشیا that که چندین سطح از توابع را به عنوان ورودی از ستون فقرات می گیرد و لیستی از توابع ترکیبی را نشان می دهد که ویژگی های مشخصه تصویر را نشان می دهد. و یک شبکه کلاس / جعبه نهایی که از توابع ترکیبی برای پیش بینی کلاس و مکان هر شی استفاده می کند.
پس از بررسی گزینه های طراحی این م componentsلفه ها ، چندین بهینه سازی کلیدی را برای بهبود عملکرد و کارایی شناسایی کردیم. ردیاب های قبلی بیشتر از ResNets ، ResNeXt یا AmoebaNet به عنوان ستون فقرات استفاده می کنند که قدرت کمتری دارند یا بازده کمتری نسبت به EfficNets دارند. با اجرای اولیه ستون فقرات EfficNet ، می توان به بازده بسیار بیشتری دست یافت. به عنوان مثال ، با شروع یک خط پایه RetinaNet که از ستون فقرات ResNet-50 استفاده می کند ، مطالعه فرسایش ما نشان می دهد که به راحتی جایگزینی ResNet-50 با EfficNet-B3 می تواند دقت را 3٪ بهبود بخشد در حالی که محاسبه را 20٪ کاهش می دهد. بهینه سازی دیگر بهبود کارایی شبکه های عملکردی است. در حالی که بیشتر آشکارسازهای قبلی به سادگی از شبکه هرمی Downlink (FPN) استفاده می کنند ، در می یابیم که FPN پایین دستی ذاتاً به یک جریان اطلاعاتی یک طرفه محدود می شود. FPN های جایگزین مانند PANet بالادست اضافی را با هزینه محاسبه اضافی اضافه می کنند.
تلاش های اخیر برای استفاده از جستجوی معماری عصبی (NAS) معماری پیچیده تر NAS-FPN را کشف کرده است. با این وجود ، گرچه این ساختار شبکه مثر است ، اما برای کاری خاص نیز نامنظم است و بسیار بهینه شده و سازگاری با سایر کارها را دشوار می کند. برای حل این مشکلات ، ما یک شبکه جدید از توابع دو جهته BiFPN را پیشنهاد می دهیم ، که ایده ترکیب توابع چند لایه را از FPN / PANet / NAS-FPN پیاده سازی می کند ، که به شما امکان انتقال اطلاعات از بالا به پایین و از پایین به بالا با استفاده از اتصالات منظم و مثر.
برای بهبود بیشتر کارایی ، ما یک روش جدید سریع و جدید برای سنتز پیشنهاد می کنیم. رویکردهای سنتی معمولاً با تمام ورودی های FPN به یک شکل رفتار می کنند ، حتی در وضوح های مختلف.با این حال ، مشاهده می کنیم که ویژگی های ورودی با رزولوشن های مختلف اغلب به طور نابرابر به توابع خروجی کمک می کنند. بنابراین ، ما اضافه وزن اضافی به هر عملکرد ورودی اضافه می کنیم و اجازه می دهیم شبکه اهمیت هر یک را بیاموزد. همچنین ما می توانیم تمام پیچش های معمولی را با پیچش های ارزان قیمت عمیقاً قابل تفکیک جایگزین کنیم. با این بهینه سازی ، BiFPN ما دقت را 4٪ بهبود می بخشد در حالی که هزینه های محاسباتی را 50٪ کاهش می دهد.
بهینه سازی سوم شامل دستیابی به بهترین سازش بین دقت و کارایی تحت محدودیت های مختلف منابع است. کارهای قبلی ما نشان داده است که مقیاس گذاری عمق ، عرض و وضوح یک شبکه می تواند عملکرد تشخیص تصویر را به طور قابل توجهی بهبود بخشد. با الهام از این ایده ، ما یک روش مقیاس بندی ترکیبی جدید برای ردیاب های جسم پیشنهاد می کنیم که در مجموع وضوح / عمق / عرض را افزایش می دهد. هر جز component شبکه ، یعنی شبکه پیش بینی ستون فقرات ، شی و بلوک / کلاس ، یک فاکتور مقیاس بندی پیچیده خواهد داشت که با استفاده از قوانین ابتکاری ، تمام ابعاد مقیاس بندی را کنترل می کند. این روش تعیین چگونگی مقیاس گذاری مدل را با محاسبه یک عامل مقیاس برای محدودیت منبع مورد نظر ، آسان می کند.
با ترکیب ستون فقرات جدید و BiFPN ، ابتدا یک خط مبنای کوچک EfficDet-D0 طراحی می کنیم و سپس مقیاس بندی مرکب را اعمال می کنیم تا EfficDet-D1 به D7 برسیم. هر مدل سریال با هزینه محاسباتی بالاتری ، محدوده محدوده منابع از 3 میلیارد FLOP تا 300 میلیارد FLOPS را پوشش می دهد و دقت بالاتری را فراهم می کند.
مدل عملکرد
ارزیابی EfficDet بر روی مجموعه داده COCO ، مجموعه داده مرجع پرکاربرد برای تشخیص شی. EfficDet-D7 با استفاده از 4 برابر پارامترهای کمتر و 9.4 برابر کمتر از محاسبات ، میانگین میانگین 52.2 را به دست می آورد که 1.5 واحد بالاتر از مدل مدرن قبلی است.
ما همچنین اندازه پارامتر و تأخیر CPU / GPU را بین EfficDet و مدل های قبلی مقایسه کردیم. با محدودیت های دقیق مشابه ، مدل های EfficDet در پردازنده گرافیکی 2-4 برابر سریعتر و در پردازنده 5-11 بار سریعتر از سایر ردیاب ها کار می کنند. در حالی که مدلهای EfficDet در درجه اول برای تشخیص اشیا در نظر گرفته شده اند ، ما همچنین اثربخشی آنها را در کارهای دیگر مانند تقسیم بندی معنایی آزمایش می کنیم. برای انجام وظایف تقسیم بندی ، ما EternalDet-D4 را با جایگزینی سر تشخیص و از دست دادن و از دست دادن سر در حالی که همان ستون فقرات مقیاس زده و BiFPN را تغییر می دهیم ، کمی تغییر می دهیم. ما برای Pascal VOC 2012 ، یک مجموعه داده تست تقسیم بندی که به طور گسترده استفاده می شود ، این مدل را با مدل های تقسیم بندی مدرن قبلی مقایسه می کنیم.
با توجه به عملکرد استثنایی آنها ، انتظار می رود که EfficDet به عنوان پایه ای جدید برای تحقیقات در آینده شناسایی اشیا serve عمل کند و به طور بالقوه مدل های تشخیص دقیق اشیا را در بسیاری از برنامه های دنیای واقعی مفید قرار دهد. بنابراین تمام نقاط شکست کد و مدل آموزش دیده در Github.com باز شد.