Som en af de vigtigste applikationer inden for computersyn bliver genstandsdetektering stadig vigtigere i scenarier, der kræver høj præcision, men som har begrænsede databehandlingsressourcer, såsom robotik og førerløse biler. Desværre opfylder mange moderne højpræcisionsdetektorer ikke disse begrænsninger. Endnu vigtigere er, at applikationer til registrering af objekter i den virkelige verden kører på forskellige platforme, som ofte kræver forskellige ressourcer.
Så det naturlige spørgsmål er, hvordan man designer nøjagtige og effektive objektdetektorer, der også kan tilpasse sig en lang række ressourcebegrænsninger?
EfficientDet: Skalerbar og effektiv objektdetektion, der blev vedtaget på CVPR 2020, introducerer en ny familie af skalerbare og effektive objektdetektorer. Baseret på tidligere arbejde med skalering af neurale netværk (EfficientNet) og inkorporering af et nyt tovejs funktionelt netværk (BiFPN) og nye skaleringsregler opnår EfficientDet moderne præcision, mens den er 9 gange mindre og bruger betydeligt mindre beregning end kendte moderne detektorer. Følgende figur viser modellenes generelle netværksarkitektur.
Optimering af modelarkitektur
Idéen bag EfficientDet stammer fra et forsøg på at finde løsninger til at forbedre beregningseffektiviteten ved systematisk at undersøge tidligere avancerede detektionsmodeller. Generelt har objektdetektorer tre hovedkomponenter: en rygrad, der udtrækker funktioner fra et givet billede; et netværk af objekter, der tager flere niveauer af funktioner fra rygraden som input og udsender en liste over kombinerede funktioner, der repræsenterer karakteristiske egenskaber ved billedet; og et endeligt klasse / boksenetværk, der bruger kombinerede funktioner til at forudsige klassen og placeringen af hvert objekt.
Efter at have gennemgået designmulighederne for disse komponenter identificerede vi flere nøgleoptimeringer for at forbedre ydeevne og effektivitet. Tidligere detektorer bruger for det meste ResNets, ResNeXt eller AmoebaNet som backbones, som enten er mindre kraftige eller har lavere effektivitet end EfficientNets. Med den første implementering af EfficientNet-rygraden kan der opnås meget mere effektivitet. For eksempel, startende med en RetinaNet-baseline, der bruger en ResNet-50-rygrad, viser vores ablationsundersøgelse, at simpelthen at erstatte ResNet-50 med EfficientNet-B3 kan forbedre nøjagtigheden med 3% og samtidig reducere beregningen med 20%. En anden optimering er at forbedre effektiviteten af funktionelle netværk. Mens de fleste af de tidligere detektorer simpelthen bruger Downlink Pyramid Network (FPN), finder vi, at downstream-FPN i sagens natur er begrænset til en envejs informationsstrøm. Alternative FPN'er som PANet tilføjer yderligere opstrøms på bekostning af yderligere beregning.
Nylige forsøg på at bruge Neural Architecture Search (NAS) har opdaget en mere kompleks NAS-FPN-arkitektur. Selvom denne netværksstruktur er effektiv, er den også uregelmæssig og meget optimeret til en bestemt opgave, hvilket gør det vanskeligt at tilpasse sig andre opgaver. For at løse disse problemer foreslår vi et nyt netværk af tovejsfunktioner BiFPN, som implementerer ideen om at kombinere flerlagsfunktioner fra FPN / PANet / NAS-FPN, som gør det muligt at overføre information både fra top til bund og fra bund til top. ved hjælp af regelmæssige og effektive forbindelser.
For yderligere at forbedre effektiviteten foreslår vi en ny hurtig normaliseret synteseteknik. Traditionelle tilgange behandler normalt alle input til FPN på samme måde, selv i forskellige opløsninger. Vi bemærker dog, at inputfunktioner med forskellige opløsninger ofte bidrager uligt til outputfunktionerne. Således tilføjer vi ekstra vægt til hver inputfunktion og lader netværket lære vigtigheden af hver enkelt. Vi vil også erstatte alle regelmæssige forstyrrelser med billigere, dybt adskillelige forstyrrelser. Med denne optimering forbedrer vores BiFPN yderligere nøjagtighed med 4%, samtidig med at beregningsomkostningerne reduceres med 50%.
Den tredje optimering indebærer at opnå det bedste kompromis mellem nøjagtighed og effektivitet under forskellige ressourcebegrænsninger. Vores tidligere arbejde har vist, at co-skalering af dybde, bredde og opløsning på et netværk kan forbedre billedgenkendelsesydelsen betydeligt. Inspireret af denne idé foreslår vi en ny sammensat skaleringsmetode til objektdetektorer, der kollektivt øger opløsningen / dybden / bredden. Hver netværkskomponent, dvs. backbone, objekt og blok / klasse forudsigende netværk, vil have en kompleks skaleringsfaktor, der styrer alle skaleringsdimensioner ved hjælp af heuristiske regler. Denne tilgang gør det let at bestemme, hvordan modellen skaleres ved at beregne en skaleringsfaktor for en given målressourcebegrænsning.
Ved at kombinere den nye rygrad og BiFPN designer vi først en lille EfficientDet-D0-baseline og anvender derefter sammensat skalering for at få EfficientDet-D1 til D7. Hver seriemodel har en højere beregningsomkostning, der dækker en bred vifte af ressourcebegrænsninger fra 3 milliarder FLOP'er til 300 milliarder FLOPS og giver højere nøjagtighed.
Ydelsesmodel
Evaluering af EfficientDet på COCO-datasættet, et udbredt referencedatasæt til objektdetektion. EfficientDet-D7 opnår en gennemsnitlig gennemsnitlig nøjagtighed (mAP) på 52,2, hvilket er 1,5 point højere end den tidligere moderne model ved hjælp af 4 gange færre parametre og 9,4 gange færre beregninger
Vi sammenlignede også parameterstørrelse og CPU / GPU-latens mellem EfficientDet og tidligere modeller. Med samme nøjagtighedsbegrænsninger kører EfficientDet-modeller 2-4 gange hurtigere på GPU'en og 5–11 gange hurtigere på processoren end andre detektorer. Mens EfficientDet-modeller primært er beregnet til objektdetektering, tester vi også deres effektivitet i andre opgaver såsom semantisk segmentering. For at udføre segmenteringsopgaver ændrer vi lidt EffektivDet-D4 ved at erstatte detekteringshovedet og hovedtab og -tab, mens vi opretholder den samme skalerede rygrad og BiFPN. Vi sammenligner denne model med tidligere moderne segmenteringsmodeller til Pascal VOC 2012, et meget anvendt datasætt for segmenteringstest.
I betragtning af deres usædvanlige ydeevne forventes EfficientDet at tjene som et nyt fundament for fremtidig objektdetekteringsforskning og potentielt gøre meget nøjagtige objektdetekteringsmodeller nyttige i mange applikationer i den virkelige verden. Så åbnede alle breakpoints for koden og foruddannet model på Github.com.