Gyors módú döntés a HEVC videokódolási szabványban, a régió kiaknázásával a domináns mozgás- és salicitási jellemzőkkel

Pallab Kanti Podder

1 Számítástechnikai és matematikai iskola, Charles Sturt Egyetem, Bathurst, NSW, Ausztrália

Manoranjan Paul

1 Számítástechnikai és matematikai iskola, Charles Sturt Egyetem, Bathurst, NSW, Ausztrália

Manzur Murshed

2 Informatikai Iskola, Szövetségi Egyetem, Churchill, VIC, Ausztrália

A kísérletek megtervezése és megtervezése: PKP MP MM. Végezte a kísérleteket: PKP MP. Elemezte az adatokat: PKP MP MM. Hozzájáruló reagensek/anyagok/elemző eszközök: PKP MP. Írta az írást: PKP MP MM.

Társított adatok

Minden lényeges adat a cikkben található.

Absztrakt

Bevezetés

Számos hatékony kódolóeszköz kifejlesztésével a legújabb HEVC [1] videokódolási szabvány hasonló észlelési képminőséget nyújtott elődjéhez, a H.264-hez [2] képest, nagyjából 50% -os bitsebesség-csökkenéssel a nagy mennyiségű adat hatékony továbbítása és tárolása miatt videoadatok [3]. A HEVC ezt a javított teljesítményt az algoritmikus bonyolultság több mint négyszeres árán éri el, a megnövelt szintek és a komplex kódoló egység (CU) particionálási séma miatt, az előbbi H.264-hez képest egy adott megvalósításban [4,5]. Ezért egyetlen korlátozott feldolgozási kapacitású elektronikus eszköz sem tudta teljes mértékben kihasználni a HEVC kódolási és dekódolási funkcióit. Ez arra ösztönzött minket, hogy csökkentse a HEVC kódoló számítási idejét az inter-predikciós módok megfelelő megválasztásával. Ennek érdekében csak egy videóban szereplő RDMS-t veszünk figyelembe, amely vizuálisan figyelmes területalapú ásványi tulajdonságot és fáziskorreláció-alapú mozgásjellemzőket tartalmaz.

Hou és mtsai. [18] egy RD költségalapú küszöböt javasol a módok feltárására csak a magasabb szinten, ami 30% -os időmegtakarítást eredményez, 0,5% -os minőségvesztéssel. Vanne és mtsai. [19] hatékony intermodális döntési sémát javasol a szimmetrikus és aszimmetrikus mozgáspartíció jelölt módjainak megtalálásával. A tesztelt eredmények azt mutatják, hogy a HEVC kódoló bonyolultsága 31% -51% -kal csökken, 0,2% -1,3% bitráta növekedés árán. Pan és mtsai. [20] bevezet egy korai MERGE módú döntési algoritmust a HEVC kódoló számítási komplexitásának csökkentése érdekében. Az összes nulla blokk- és mozgásinformáció alapján először a MERGE módot alkalmazzák a gyökér CU-kra, majd a gyermek CU-kra az üzemmódválasztási korreláció alapján. 35% -os időmegtakarítást érnek el 0,32% -os bitsebesség-növekedéssel és 0,11 dB csúcsjel/zaj arány (PSNR) minőségveszteséggel. Shen és mtsai. [21] bevezetik az ellenőrzési kritériumokon alapuló korai felmondási módszert, amely a módok 36% -át, illetve 14% -át választja ki a „0”, illetve a „3” mélységi szinten. Ez a folyamat minőségvesztéssel jár, különösen nagy mozgástevékenységű, nagy területet tartalmazó szekvenciák esetében, bár algoritmusuk a számítási idő körülbelül 30% -át takarítja meg.

A fent említett, HEVC videokódolási szabványon alapuló módválasztó algoritmusok mellett más, a H.264 videokódolási szabványon alapuló gyors üzemmódválasztó algoritmusok is rendelkezésre állnak az irodalomban [22–24]. Paul és mtsai. [25] nyerje ki az energiakoncentráció arányt (ECR) a fáziskorrelációból, és használja a módválasztási folyamathoz a kódolási idő csökkentése érdekében a H.264 szabványban. A [25] -ben alkalmazott megközelítést a HEVC-ben nem lehet egyszerűen alkalmazni a közvetlen mód vagy az inter-módok részhalmazának kiválasztására a háromszoros módszám, a CU dupla/négyszeres mérete és a komplex (azaz szimmetrikus/aszimmetrikus) CU particionálási minták a H.264-hez képest. Ezenkívül csak az ECR alapú üzemmódválasztás nem szolgáltat várható tömörítési eredményeket a HEVC-ben, mivel csak az áramblokk és a mozgáskompenzált referenciablokk közötti maradék hibát jelzi. Szükségtelenül használ kisebb blokk-partíciókat is, miközben egy blokknak nincs transzlációs mozgása, vagy nagy pontosságú előre jelzett mozgást biztosít.

A cikk főbb hozzájárulásait a következőképpen foglaljuk össze: (i) Bemutatjuk a fázis korreláció három mozgásjellemzőjét, és kihasználjuk őket a gyors üzemmód-választási folyamatra a HEVC szabványban, (ii) Bevezetjük algoritmusunkba a szalicitást, és ezt a funkciót hatékonyan használjuk RDMS kategorizálás, (iii) Az RDMS meghatározásához adaptívan tervezzük meg a bináris mintasablonokat a HEVC CU particionálási mintázatai alapján, és (iv) tartalomalapú adaptív súlyozott költségfüggvényt fejlesztünk ki a fúziós funkciók segítségével, és innovatív módon származtatjuk mindegyiket funkció adaptív módon.

A cikk többi része a következőképpen van felosztva: A 2. szakasz a legújabb HEVC működési mechanizmusát taglalja, a 3. szakasz a javasolt kódolási technika legfontosabb lépéseit ismerteti; A 4. szakasz részletesen értékeli a kísérleti eredményeket és a megbeszéléseket, míg az 5. szakasz befejezi a dolgozat elkészítését.

Legutóbbi HEVC elemzés

A korszerű H.264 szabványhoz képest a HEVC olyan találmányi megközelítéseket vezet be, amelyek magukban foglalják a CU-méret kiterjesztését 16 × 16-tól 64 × 64-pixelig, a változó méretű PU és TU-t, valamint a szimmetrikus/aszimmetrikus blokk particionálási jelenséget . Egy adott mozgás-előrejelzési mód kiválasztásához a HM kimerítően ellenőrzi a Lagrangian cost függvényt (LCF) [26], minden kódolási mélységi szint összes módját felhasználva (a 64 × 64, 32 × 32, 16 × 16 és 8 × 8 szinteket mélységként jelöljük. 0, 1, 2, 3 szint). Az n-edik módválasztáshoz tartozó LCF, Jn értékét a következő határozza meg:

ahol λ a Lagrang-szorzó, D a torzítás és R az eredő bit, amelyeket a CU módjai határoznak meg. A legjobb particionálási mód kiválasztásához kódolási mélységi szinten a HM minimum 8-at (azaz 64 × 64, 64 × 48, 48 × 64, 64 × 32, 32 × 64, 16 × 64, 64 × 16, és 32 × 32), és maximum 24 inter-predikciós mód (azaz hasonló particionálás kisebb blokkokkal, 32 × 32–8 × 8), legalacsonyabb LCF-mel. Ez a folyamat rendkívül időigényes az összes mód egy vagy több kódolási mélységi szinten történő feltárása miatt. A HEVC tesztmodelltől (HM12.1) [27] ellentétben a javasolt technikában a kiválasztott RDMS CU-k mozgást becsülnek és a mozgást kompenzálják a magasabb mélységű szintek üzemmódjaival, másrészt az RDMS nélküli CU-k mozgást becsülnek és mozgás kompenzálva alacsonyabb mélységű üzemmódokkal. Így elkerülhetjük az összes mód teljes körű feltárását az egyes kódolási mélységi szinteken. Ez számítási idő csökkenést eredményez.

A HM alapú üzemmódválasztást tekintve az Eq (1) alapján észrevettük, hogy a legjobb mód, amelyet a Lagrangian szorzó (azaz λ) adott értékéhez választunk, a szorzó többi értékénél más és más lesz. Így a különböző szorzóértékek különböző legjobb módokat választhatnak ki egy kódolási mélység szintjén egy adott kvantálási paraméterhez (QP). Ezenkívül csak az LCF alapú módú döntés nem tudta biztosítani a legjobb RD teljesítményt a különböző működési kódolási pontokon a komplex CU particionálási minták, a blokk-particionáló és transzformációs fejlécek, a mozgásvektorok kódolási hossza, a diverzifikált videotartalmak és más speciális paraméterbeállítások miatt. a HEVC videokódolási szabványban. Ezért ahelyett, hogy pusztán a meglévő LCF-től függne, az első szakaszban a javasolt technika az RDMS-kritériumokra összpontosít az intermode-szelekció azon részhalmazára, amely független a meglévő LCF-től. Az egymást követő előfeldolgozási szakaszok ilyen száma (az 1. ábrán látható) megfelelőbbé és kevésbé időigényessé teszi az üzemmóddöntési folyamatot.

Javasolt technika

Mozgásfunkciók kivonása

A fáziskorrelációt az áram- és a referenciablokkok FFT-jének, majd az inverz FFT-jének (IFFT) alkalmazásával és végül az FFTSHIFT függvény alkalmazásával számoljuk ki az alábbiak szerint:

ahol Fc és Fr az aktuális C és R referencia blokkok Fast Fourier transzformált blokkjai, Г az FFTSHIFT, Ʌ az IFFT-t jelöli, ∠ pedig a megfelelő transzformált blokk fázisa. Vegye figyelembe, hogy az Ω kétdimenziós mátrix. A fázis korrelációs csúcsot (β) a (dx + μ/2 + 1, dy + μ/2 + 1) helyzetéből értékeljük a következőképpen:

ahol a μ-vel jelölt blokkméret 8, mivel a fázis korrelációhoz 8 × 8 pixeles blokkot használunk. Ezután kiszámítjuk a megjósolt mozgásvektort (dx, dy) úgy, hogy a μ-1-et kivonjuk az Ω (x, y) helyzetéből, ahol megtaláljuk az Ω maximális értékét. Az egyeztetett blokkgenerálási folyamatban az aktuális blokk fázisát és a mozgáskompenzált blokk nagyságát használjuk a referenciakeretben, és végül kiszámoljuk az aktuális blokkhoz illesztett referenciablokkot (Ѱ) az alábbiak szerint:

Most az elmozdulási hibát (§) sorolja fel:

Ezután a diszkrét koszinusz-transzformációt (DCT) alkalmazzuk a hibára §, és kiszámoljuk az ECR-t (azaz α) az alacsony frekvenciájú komponens és a hibalemez teljes energiájának (azaz a bal felső háromszög energiájának és a az egész terület energiájához):

ahol a DEL és DET a bal felső háromszög energiáját és egy adott blokk teljes területének energiáját jelenti. Ne feledje, hogy a bal felső háromszög két oldala a blokkméret háromnegyede, azaz 6 a megvalósításunkban.

Salacy Feature Extraction

RDMS kategorizálás a Feature Fusion segítségével

A fáziskorreláció kivont mozgásjellemzőinek (azaz az α, β és (dx, dy), valamint a szalicitással kivont variancia térkép (azaz γ) kiértékelése után végül meghatározunk egy költségfüggvényt. A tartalomalapú adaptív súlyozott költségfüggvény fejlesztése egy blokkot egy fúziós folyamaton keresztül hajtanak végre. A költségfüggvény egyenletét a következő adja:

ahol δ jelöli a blokk méretét, és ω1 - ω4 azok a súlyok, amelyek ∑ i = 1 4 ω i = 1. Innovatív módon származtatjuk az egyes tulajdonságok súlyát adaptív módon, és ebben a kísérletben nem vesszük figyelembe az összes lehetséges súlykombinációt. Csak 0,50, 0,25, 0,125 és 0,125 súlyokat veszünk figyelembe az aktuális blokknak az egész keretéhez viszonyított relatív textúra-eltérése alapján. Az eltérés kiszámításához a standard deviációt (STD) alkalmazzuk mind az aktuális blokkon, mind az aktuális kereten, és ezeket a súlyokat négy attribútumra használjuk. Először négy tulajdonságot válogatunk ki az értékeik alapján, és ha a blokk STD értéke kisebb, mint az aktuális keret értéke, akkor a legnagyobb súlyt (azaz 0,50) alkalmazzuk az 1. jellemzőre (azaz rendezve), és a legkisebb súlyt (azaz 0,125) a 4. tulajdonságra alkalmazzuk (a rendezett lista szerint); ellenkező esetben fordított súlyozott sorrendet alkalmazunk. Ha a költségfüggvény eredő értéke (azaz ¥) nagyobb, mint egy előre definiált küszöb, akkor a blokkot „1” jelöli, különben „0” jelöli, ahol az „1” és a „0” megfelel az RDMS-nek és a nem RDMS-nek.

A javasolt súlyválasztási stratégia ésszerűsége az, hogy ha az aktuális blokknak nagyobb a textúrájának variációja az aktuális kerettel összehasonlítva, akkor az aktuális blokkot a többi blokkhoz képest több bitdel kell kódolni, hogy hasonló/jobb RD teljesítményt érjünk el. Annak biztosítása érdekében, hogy több bitet költsünk, a blokkot RDMS blokkként kell kategorizálnunk, amelyet a küszöbválasztási stratégiánk végez. Más súlyválasztási megközelítés jobban működhet, azonban a kísérleti eredmények azt mutatják, hogy a javasolt technika hasonló RD teljesítményt nyújt.

2. ábra bemutatja a mennyiségi mozgás és a szembetűnő tulajdonságok kapcsolatát az emberi vizuális jellemzőkkel. 2B – 2D ) mutatja a mozgáscsúcs (β) kategóriáit és azoknak az ECR által megadott értékeit (in 2. ábra (E)) és az ínség jellemzője (in 2. ábra (F) ) a Tenisz videóhoz. Az ábra alapján nyilvánvaló, hogy az α és γ esetében a komplex mozgás értéke a legmagasabb, míg a β esetében a komplex mozgásnak több csúcsa van, és értéke a legalacsonyabb. Az alkalmazott GBVS technika elkészíti az eredő költségfüggvény-alapú tényleges térképeket. Ezeket a térképeket a 11. és 12. képkocka között készítjük el a CU tenisz videón a (3, 1), (3, 10) és (5, 7) pozíciókban, a textúra eltérésével, amint azt a 3. ábra . Az ábra és a kísérleti eredmények alapján könnyen megfigyelhetjük, hogy az α, (dx, dy) és γ jellemzők pozitív korrelációval rendelkeznek, a β pedig inverz korrelációval jelzi az emberi vizuális jellemzőket. Az összetett textúrát és a sima textúraterületeket vöröses vagy kékes színnel szintezzük, míg bármely más szín az egyszerű textúraterületeknek felel meg 3. ábra .

d) a mozgás nélküli (0,4), az egyszerű mozgás (0,7) és a komplex mozgás (0,8) fázisban eltolt diagramok; (e-f) megfelel az ECR által generált megfelelő értékeknek és a (3, 1), (3, 10), illetve (5, 7) pozícióban lévő blokkoknak.

Az egyértelmű megjelenítéshez 32 × 32 blokkméretet használunk.