Radványi Dávid László (2022) Mesterséges mélytanuló modellek alkalmazása városi objektumok detektálására. Pénzügyi és Számviteli Kar.
PDF
Radványi_Dávid_László_DPZMY1.pdf Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg Download (6MB) |
|
PDF
BA_O_radvanyi_david_laszlo.pdf Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg Download (289kB) |
|
PDF
Szakdolgozat_bírálat_Radványi Dávid László_DPZMY1.pdf Hozzáférés joga: Bizalmas dokumentum (bírálat) Download (195kB) |
|
PDF
Kulso_Konzulens_biralat_Radvanyi_David.pdf Hozzáférés joga: Bizalmas dokumentum (bírálat) Download (1MB) |
Absztrakt (kivonat)
Egy rövid összefoglalás keretében összegezném a szakdolgozatom egyes fejezeteiben leírtakat, a téma választásának okát, a fontosabb irodalmi fejezeteket, illetve az elért eredményeket, javaslatokat is. Úgy gondolom, hogy megfelelő témát választottam a mesterséges mélytanuló modellek révén, mivel nem csak érdekes volt feldolgozni és utána járni az egyes részeknek, de jelentett némi kihívást is, főleg az egyes modellek elkészítése és tesztelése során. Összességében úgy gondolom, hogy a kitűzött célokat is sikerült elérnem, mivel különböző modellek elkészítése és előre tanított modellek importálása mellett összehasonlítást is tudtam végezni az egyes modelleken, ideértve a predikciók során kapott osztályozási pontosságokat, illetve különböző adatelőkészítési műveleteket, emellett néhány hiperparaméter beállításával is igyekeztem a modelleket minél jobbá tenni. Az irodalmi fejezetben igyekeztem minden fontos definíciót ismertetni, többnyire képekkel is, annak érdekében, hogy az olvasó is érthető képet kaphasson a leírtakról. Az irodalmi áttekintés részletes kidolgozása során a kutatáshoz is releváns neurális megközelítést helyeztem előtérbe, melynek során bemutattam a fontosabb két lépéses modelleket, például az régió alapú konvolúciós hálózatokat és ezek változatait (R-CNN), illetve néhány egy lépéses megoldást is részleteztem, ideértve a YOLO detektor családot, az SSD-t, illetve a RetinaNet-et. A teljesség kedvéért azonban a neurális megközelítés mellett a tradicionális megoldásokról is ejtettem néhány szót, melynek során szó esett a HAAR alapú Viola Jones objektumdetektálási keretrendszerről, az orientált gradiensek hisztogramjáról, azaz a HOG-ról, illetve a tartó vektor gépekről is (SVM). Végül pedig utolsó tradicionális megoldásként a Skála invariáns jellemzős transzformáció algoritmust, azaz a SIFT-et mutattam be. Fontos szempont volt, hogy a tradícionális és neurális megközelítés során megemlítésre kerüljön az egyes megoldások előnye és hátránya is, illetve például az osztályozás, lokalizáció, detektálás és szegmentáció közti különbség bemutatása is. A fontosabb megközelítések mellett a modellezési részletekre is kitértem, ahol az egyes előfeldolgozási műveletekre például a képek augmentálására is kitértem. Mindezek mellett kiemeltem a gradiens ereszkedést is, amely a modell optimalizálása során játszik kiemelt szerepet. A kutatási eredmények alapjaként pedig néhány egy előző projektből merített saját kutya-macska klasszifikálós példával igyekeztem bemutatni a modellek létrehozása során használt rétegeket, optimalizáló függvényeket és a fontosabb hiperparamétereket is. Kutatásom során igyekeztem megvalósítani a kitűzött célokat, melynek során két városi képekből álló adathalmazt is szerettem volna felhasználni, annak érdekében, hogy részletesebb tesztelést tudjak végezni. Az egyik ilyen városi adathalmaz a Kitti, a másik pedig a Dhaka elnevezésű volt. A képeket először két modell tanítása során használtam fel az első tanított modell egy Unet modell volt, ahol a Kitti adathalmazt használtam fel. Tulajdonképpen a képek előfeldolgozását és augmentálását követően egészen jó eredmények születtek, a tanított modell által jósolt maszkok közel azonosak voltak a valós értékekkel. A második modell, amelyet a Dhaka adathalmaz segítségével tanítottam, egy YOLOv5s volt, amely kissé több tanulási időt vett igénybe mélyebb architektúrája révén, viszont úgy gondolom jobb eredményeket is ért el a Unet-hez képest. Ezt követően igyekeztem néhány előre tanított modellre is párban predikciókat végezni, melynek során az első pár egy VGG-16 és egy Resnet-50 klasszifikáló volt, amelyeket össze is hasonlítottam mindkét adatforrás segítségével. A következő pár végül egy két lépéses komplexebb detektor volt, Faster R-CNN – Inception v2-vel és egy YOLOv5s, amelyet, habár már tanítottam, szerettem volna előre tanított formában is tesztelni és az említett R-CNN modellel összevetni. Néhány összehasonlítás után fontosnak találtam a kutatási eredmények és a szerzett tapasztalatok alapján javaslatokat is tenni. Az összehasonlítások során úgy véltem, hogy a Faster R-CNN modell teljesített legjobban, amely, habár az egyik legerőforrásigényesebb is volt, pontossága és az objektumok megtalálása esetén ez szerepelt a legjobban. Mivel a téma rendkívül komplex és rengeteg konfigurálási lehetőség áll rendelkezésre így természetesen sok időt igényel ezek kipróbálása, tesztelése is. Emiatt nem volt lehetőségem minden opciót kipróbálni, például közel minden hiperparamétert beállítani a legoptimálisabb értékre, amellyel akár jobb eredmények is születhettek volna a modell tanítása során. Összességében úgy gondolom, hogy sikerült kihoztam ebből a témából azt, amit a kutatás kezdetével is szerettem volna, rengeteget tanultam a szakdolgozat elkészítése és a modellek elkészítése során. A témával kapcsolatban úgy gondolom, hogy nagy jövő áll még előtte, hiszen van még hová optimalizálni az egyes megoldásokat, mivel egyik sem teljesít még manapság sem tökéletesen.
Intézmény
Budapesti Gazdasági Egyetem
Kar
Tanszék
Gazdaságinformatika Tanszék
Tudományterület/tudományág
NEM RÉSZLETEZETT
Szak
Mű típusa: | diplomadolgozat (NEM RÉSZLETEZETT) |
---|---|
Kulcsszavak: | képfeldolgozás, mesterséges intelligencia, neurális hálózatok, objektum detektálás, Python |
SWORD Depositor: | Archive User |
Felhasználói azonosító szám (ID): | Archive User |
Rekord készítés dátuma: | 2023. Ápr. 21. 09:43 |
Utolsó módosítás: | 2023. Ápr. 21. 09:43 |
Actions (login required)
Tétel nézet |