Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél

Lakatos Áron (2020) Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél. Pénzügyi és Számviteli Kar.

[thumbnail of Lakatos_Áron_QZJ9VP_Adatbanyaszat.pdf] PDF
Lakatos_Áron_QZJ9VP_Adatbanyaszat.pdf
Hozzáférés joga: Csak az archívum karbantartója nyithatja meg (titkosított dolgozat - engedéllyel) until 2025. December 07..

Download (1MB)
[thumbnail of titkosítás_lakatosa.pdf] PDF
titkosítás_lakatosa.pdf
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (31kB)
[thumbnail of BA_TO_lakatos_áron_qzj9vp.pdf] PDF
BA_TO_lakatos_áron_qzj9vp.pdf
Hozzáférés joga: Csak az archívum karbantartója nyithatja meg (titkosított dolgozat - engedéllyel) until 2025. December 07..

Download (195kB)

Absztrakt (kivonat)

Szakdolgozatom célja egyrészt az adatbányászat témakörének, valamint néhány, az esettanulmányban használt módszerének részletes bemutatása volt. Másrészt a Magyar Államkincstárnál végzett kockázatelemzéssel kapcsolatos munkámmal összefüggésben egy kutatást végeztem, melynek keretében különböző modellek teljesítményét szerettem volna megmérni és meghatározni, hogy mely modell bizonyul a leghatékonyabbnak a helyszíni ellenőrzésre történő kiválasztások során. A kutatásom során a SAPS, vagyis egységes területalapú támogatás keretében benyújtott igénylések adatait, valamint helyszíni ellenőrzési eredményeit használtam. Dolgozatom első részében bemutatásra kerül az adatbányászat fogalma, kapcsolódó tudományterületei, mint a gépi tanulás vagy az adatbázis technológiák. Ismertetem a feltáró-, illetve a előrejelző módszerek alapjait, valamint főbb módszereit röviden. A CRISP-DM adatbányászati módszertanon kívül dolgozatomban bemutatom a SEMMA módszertan lényegi elemeit is. Említésre kerül néhány statisztikai fogalom, illetve mérőszám, amelyek szoros kapcsolatban állnak, valamint segítik az adatbányászati elemzéseket. Az adatbányászati módszerek közül elsőként részletezem a lineáris- és logisztikus regressziót, majd az esettanulmányban használt módszerek kerülnek bemutatásra. Legelőször a neurális hálózatokkal foglalkozom, amelyek az emberi agy mechanizmusain alapuló eljárások. A következő módszer, amit alkalmaztam a grádiens turbózás. A grádiens turbózás módszer az együttes tanulási módszerek egy fajtája, melynek lényege, hogy több döntési fát épít fel szekvenciálisan. A folyamat előrehaladtával újonnan belépő modellek figyelembe veszik az előző modellek által elért hibaszintet is. Végül részletesen ismertetem a támasztóvektor-gépeket, amelyeket röviden SVM-nek szokás nevezni. Az algoritmus lényege, hogy olyan hipersíkot keres, mely határt képez a két különböző osztályba sorolt egyedek között. Esettanulmányomhoz kapcsolódóan elsőként említésre kerül a Magyar Államkincstár Kifizető Ügynöksége, mely az EU-s (társ) finanszírozású agrár- és vidékfejlesztési támogatások ellenőrzésének, odaítélésének és kifizetésének akkreditált intézménye. Ezen kívül bemutatom a kockázatelemzésen alapuló helyszíni ellenőrzésre történő kiválasztások jogi- és szabályozási hátterét is. Három lépcsős modellt alkalmaztam. Első lépésként bináris célváltozóra vonatkozóan készült becslés arra vonatkozóan, hogy mekkora valószínűséggel található területeltérés az adott parcellán. Három féle modell, neurális hálózat, támasztóvektor-gép, illetve grádiens turbózás készült. Második lépésben folytonos célváltozóra épült neurális hálózat és grádiens turbózás modell, melyek a területeltérés várható nagyságát becsülték meg. Harmadik lépésben ügyfélszintre átlagoltam a kockázati pontokat a parcellaterületekkel súlyozva. Az elkészült modellek kombinációival összesen hat féle pontozott állomány állt elő, majd ezt követően hat féle kiválasztás készült a kockázati pontok alapján. Az adatállományok bemutatása után ismertetem a szükséges adattisztítást és adattranszformációkat, melyek keretében a szakmai szempontoknak megfelelően létrejön néhány képzett változó, valamint megtörténik a magyarázó változók függetlenségét és a hiányzó értékek minimális számát szem előtt tartva a nem szükséges változók elhagyása is. Mind a bináris, mind a folytonos célváltozóra történő modellépítés előtt bemutatom az alkalmazott változószelekciós eljárásokat. Néhány, a bináris modellekhez használt bemeneti változón logaritmus transzformációt végeztem a ferde eloszlásuk miatt. A folytonos modelleket pedig a bemeneti változókból képzett csoportok WOE értékeire illesztettem. Az optimális modellek létrehozása után a modelleket a pontozandó állományon alkalmazva előálltak a kockázati pontokat tartalmazó állományok. Ezekből először kiválasztásra kerül a véletlen minta, majd a kockázati pontok alapján kiválasztott minta. Mind a hat féle pontozott állományból 2150 véletlen módon kiválasztott ügyfél, valamint 6896 kockázati pontok alapján kiválasztott ügyfél lett kiválasztva. A visszamérési adatállomány segítségével többféle módon vizsgáltam a modellek hatékonyságát. Az egyes vizsgálatoknál mindig a véletlen mintához hasonlítva kerül megállapításra az elérhető hatékonyságnövekedés. A hibaarányokat elemezve, mind ügyfélszinten, mind parcellaszinten a legjobb eredményeket a tisztán grádiens turbózást, valamint a grádiens turbózás bináris- és a neurális hálózat folytonos modellt alkalmazó módszerek érték el. A megtalált terület eltérések arányát vizsgálva a tisztán grádiens turbózást alkalmazó módszer volt a leghatékonyabb. Ez a modell csaknem 5,6-szor hatékonyabbnak bizonyult a véletlen kiválasztottakhoz képest. Végül figyelembe vettem, hogy hogyan alakult a kivetett szankciók mértéke az összes kiválasztott terület arányában. Ezen vizsgálat során is a kétféle grádiens turbózást alkalmazó kiválasztás érte el a legjobb eredményt, 381,52 HUF/ha szankciót állapított meg 10 000 HUF hektáronkénti támogatással számolva.Az eredmények általánosításával megállapítható, hogy az adatbányászati módszerek alkalmazása lehetővé teszi a helyszíni ellenőrzésre történő kiválasztások eredményességének növelését. Megállapítható, hogy a mindkét lépcsőben grádiens turbózást alkalmazó módszer bizonyult a leghatékonyabbnak a vizsgált szempontok alapján. Úgy gondolom, hogy a gyakorlatban is alkalmazható módszer, mivel könnyen érthető és reprezentánsan előállnak a modell által használt változók is fontossági sorrendben.

Intézmény

Budapesti Gazdasági Egyetem

Kar

Pénzügyi és Számviteli Kar

Tanszék

Gazdaságinformatika Tanszék

Tudományterület/tudományág

NEM RÉSZLETEZETT

Szak

Gazdaságinformatikus

Konzulens(ek)

Konzulens neve
Konzulens típusa
Beosztás, tudományos fokozat, intézmény
Email
Dr Kovács Endre
Belső
főiskolai docens, Gazdaságinformatika Tanszék, PSZK
Lelkes Miklós
Külső
NEM RÉSZLETEZETT

Mű típusa: diplomadolgozat (NEM RÉSZLETEZETT)
Kulcsszavak: adatbányászat, gépi tanulás, grádiens turbózás, kockázatelemzés, neurális hálózatok, svm, támasztóvektor-gép
SWORD Depositor: Archive User
Felhasználói azonosító szám (ID): Archive User
Rekord készítés dátuma: 2021. Már. 01. 13:39
Utolsó módosítás: 2021. Már. 01. 13:39

Actions (login required)

Tétel nézet Tétel nézet