Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél

Lakatos Áron (2020) Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél. Pénzügyi és Számviteli Kar.

[thumbnail of Lakatos_Áron_QZJ9VP_Adatbanyaszat.pdf] PDF
Lakatos_Áron_QZJ9VP_Adatbanyaszat.pdf
Hozzáférés joga: Csak az archívum karbantartója nyithatja meg (titkosított dolgozat - engedéllyel) until 2025. December 07..

Download (1MB)
[thumbnail of titkosítás_lakatosa.pdf] PDF
titkosítás_lakatosa.pdf
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (31kB)
[thumbnail of BA_TO_lakatos_áron_qzj9vp.pdf] PDF
BA_TO_lakatos_áron_qzj9vp.pdf
Hozzáférés joga: Csak az archívum karbantartója nyithatja meg (titkosított dolgozat - engedéllyel) until 2025. December 07..

Download (195kB)

Absztrakt (kivonat)

Szakdolgozatom célja egyrészt az adatbányászat témakörének, valamint néhány, az esettanulmányban használt módszerének részletes bemutatása volt. Másrészt a Magyar Államkincstárnál végzett kockázatelemzéssel kapcsolatos munkámmal összefüggésben egy kutatást végeztem, melynek keretében különböző modellek teljesítményét szerettem volna megmérni és meghatározni, hogy mely modell bizonyul a leghatékonyabbnak a helyszíni ellenőrzésre történő kiválasztások során. A kutatásom során a SAPS, vagyis egységes területalapú támogatás keretében benyújtott igénylések adatait, valamint helyszíni ellenőrzési eredményeit használtam. Dolgozatom első részében bemutatásra kerül az adatbányászat fogalma, kapcsolódó tudományterületei, mint a gépi tanulás vagy az adatbázis technológiák. Ismertetem a feltáró-, illetve a előrejelző módszerek alapjait, valamint főbb módszereit röviden. A CRISP-DM adatbányászati módszertanon kívül dolgozatomban bemutatom a SEMMA módszertan lényegi elemeit is. Említésre kerül néhány statisztikai fogalom, illetve mérőszám, amelyek szoros kapcsolatban állnak, valamint segítik az adatbányászati elemzéseket. Az adatbányászati módszerek közül elsőként részletezem a lineáris- és logisztikus regressziót, majd az esettanulmányban használt módszerek kerülnek bemutatásra. Legelőször a neurális hálózatokkal foglalkozom, amelyek az emberi agy mechanizmusain alapuló eljárások. A következő módszer, amit alkalmaztam a grádiens turbózás. A grádiens turbózás módszer az együttes tanulási módszerek egy fajtája, melynek lényege, hogy több döntési fát épít fel szekvenciálisan. A folyamat előrehaladtával újonnan belépő modellek figyelembe veszik az előző modellek által elért hibaszintet is. Végül részletesen ismertetem a támasztóvektor-gépeket, amelyeket röviden SVM-nek szokás nevezni. Az algoritmus lényege, hogy olyan hipersíkot keres, mely határt képez a két különböző osztályba sorolt egyedek között. Esettanulmányomhoz kapcsolódóan elsőként említésre kerül a Magyar Államkincstár Kifizető Ügynöksége, mely az EU-s (társ) finanszírozású agrár- és vidékfejlesztési támogatások ellenőrzésének, odaítélésének és kifizetésének akkreditált intézménye. Ezen kívül bemutatom a kockázatelemzésen alapuló helyszíni ellenőrzésre történő kiválasztások jogi- és szabályozási hátterét is. Három lépcsős modellt alkalmaztam. Első lépésként bináris célváltozóra vonatkozóan készült becslés arra vonatkozóan, hogy mekkora valószínűséggel található területeltérés az adott parcellán. Három féle modell, neurális hálózat, támasztóvektor-gép, illetve grádiens turbózás készült. Második lépésben folytonos célváltozóra épült neurális hálózat és grádiens turbózás modell, melyek a területeltérés várható nagyságát becsülték meg. Harmadik lépésben ügyfélszintre átlagoltam a kockázati pontokat a parcellaterületekkel súlyozva. Az elkészült modellek kombinációival összesen hat féle pontozott állomány állt elő, majd ezt követően hat féle kiválasztás készült a kockázati pontok alapján. Az adatállományok bemutatása után ismertetem a szükséges adattisztítást és adattranszformációkat, melyek keretében a szakmai szempontoknak megfelelően létrejön néhány képzett változó, valamint megtörténik a magyarázó változók függetlenségét és a hiányzó értékek minimális számát szem előtt tartva a nem szükséges változók elhagyása is. Mind a bináris, mind a folytonos célváltozóra történő modellépítés előtt bemutatom az alkalmazott változószelekciós eljárásokat. Néhány, a bináris modellekhez használt bemeneti változón logaritmus transzformációt végeztem a ferde eloszlásuk miatt. A folytonos modelleket pedig a bemeneti változókból képzett csoportok WOE értékeire illesztettem. Az optimális modellek létrehozása után a modelleket a pontozandó állományon alkalmazva előálltak a kockázati pontokat tartalmazó állományok. Ezekből először kiválasztásra kerül a véletlen minta, majd a kockázati pontok alapján kiválasztott minta. Mind a hat féle pontozott állományból 2150 véletlen módon kiválasztott ügyfél, valamint 6896 kockázati pontok alapján kiválasztott ügyfél lett kiválasztva. A visszamérési adatállomány segítségével többféle módon vizsgáltam a modellek hatékonyságát. Az egyes vizsgálatoknál mindig a véletlen mintához hasonlítva kerül megállapításra az elérhető hatékonyságnövekedés. A hibaarányokat elemezve, mind ügyfélszinten, mind parcellaszinten a legjobb eredményeket a tisztán grádiens turbózást, valamint a grádiens turbózás bináris- és a neurális hálózat folytonos modellt alkalmazó módszerek érték el. A megtalált terület eltérések arányát vizsgálva a tisztán grádiens turbózást alkalmazó módszer volt a leghatékonyabb. Ez a modell csaknem 5,6-szor hatékonyabbnak bizonyult a véletlen kiválasztottakhoz képest. Végül figyelembe vettem, hogy hogyan alakult a kivetett szankciók mértéke az összes kiválasztott terület arányában. Ezen vizsgálat során is a kétféle grádiens turbózást alkalmazó kiválasztás érte el a legjobb eredményt, 381,52 HUF/ha szankciót állapított meg 10 000 HUF hektáronkénti támogatással számolva.Az eredmények általánosításával megállapítható, hogy az adatbányászati módszerek alkalmazása lehetővé teszi a helyszíni ellenőrzésre történő kiválasztások eredményességének növelését. Megállapítható, hogy a mindkét lépcsőben grádiens turbózást alkalmazó módszer bizonyult a leghatékonyabbnak a vizsgált szempontok alapján. Úgy gondolom, hogy a gyakorlatban is alkalmazható módszer, mivel könnyen érthető és reprezentánsan előállnak a modell által használt változók is fontossági sorrendben.

Intézmény

Budapesti Gazdasági Egyetem

Kar

Pénzügyi és Számviteli Kar

Tanszék

Gazdaságinformatika Tanszék

Tudományterület/tudományág

NEM RÉSZLETEZETT

Szak

Gazdaságinformatikus

Mű típusa: diplomadolgozat (NEM RÉSZLETEZETT)
Kulcsszavak: adatbányászat, gépi tanulás, grádiens turbózás, kockázatelemzés, neurális hálózatok, svm, támasztóvektor-gép
SWORD Depositor: Archive User
Felhasználói azonosító szám (ID): Archive User
Rekord készítés dátuma: 2021. Már. 01. 13:39
Utolsó módosítás: 2021. Már. 01. 13:39

Actions (login required)

Tétel nézet Tétel nézet