Labant Bence (2020) Eladó házak és lakások Magyarországon. Pénzügyi és Számviteli Kar.
PDF
Labant_Bence_2020_PSJ2DM.pdf Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg Download (1MB) |
|
Archive (ZIP)
Script-ek.zip Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg Download (602kB) |
|
PDF
Ba_To_Labant_Bence_PSJ2DM.pdf Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg Download (309kB) |
Absztrakt (kivonat)
Összefoglalás Ahogy a bevezetésemben írtam, a szakdolgozatom fő célja, hogy egy olyan adatterméket hozzak létre, amely ingatlanok árazásában tud segíteni. Továbbá a bevezetésben három fő kérdést határoztam meg, amelyekre a válaszokat keresem: 1. Az adatok megfelelőek-e a feladat végrehajtására? 2. A lineáris regresszió megfelelő modell-e az ingatlanok árazásához? 3. Melyek azok a változók, amelyek a legjobban befolyásolják az ingatlan árát? A feladatot az adatok gyűjtésévelkezdtem. Az adatokat az ingatlan.com-ról szereztem, és web scraper technológiát használtam. Körülbelül 65 ezer eladó ház és 85 ezer eladó lakás adatait szedtem le. A továbbiakban a web scrape-elés jogi szabályairól olvashatunk a dolgozatomban. Az egyszeri, nagy scrape-eléseken túl, csináltam egy automatizált folyamatot, amellyel képes vagyok minden nap az új ingatlanok adatait megszerezni. Az ingatlan.com-ról az új ingatlanokról lehet e-maileket kérni, és ezeket az e-maileket scrape-eltem le; így lett egy folyamatosan növekvő adathalmazom. Mivel a HTML kódból kinyert adat szöveg formátumban van, így rengeteg munka volt az adatok tisztításával illetve átalakításával. Az automatizált folyamatban, amikor új ingatlanok adatait szerzem meg, bele vannak építve az alapvető tisztítások is. Miután az adatok alapvető tisztítása megtörtént, rátérek a regresszióra. Először a regresszió mögött lévő alapgondolatot mutatom be a szakdolgozatomban, majd a többváltozós lineáris regresszió mögötti elméletet részletezem. Itt szót ejtek még a kategorikus változók kódolásáról és a backward elimination-ről. A többváltozós regressziónak öt darab feltétele van. A szakdolgozatomban ezekről a feltételekről és a kezelésükről is bővebben írok. Scriptjeimben a kategorikus változókat is kezelem, továbbá a backward elimination-t is végre lehet hajtani az árazó scriptekben. A feltételek ellenőrzése és a regressziós modell használata előtt szükséges még adattisztítást végrehajtani. Ilyen volt például a hiányzó adatok kezelése, amely rengeteg problémát vetett fel. Ezen felül az extrém értékek kezelését is végre kellett hajtani. Az alap ötlet az volt, hogy az egész országra egy regresszió függvényt készítek, de mivel ez több ok miatt nem volt járható út, így a modelleket a helyszínekre hoztam létre a scriptjeimben. Miután felépítettem a modellt és ellenőriztem a feltételeket, jöhetett a modell értékelése. Ehhez a feladathoz háromféle hibamutatót használtam elsősorban (MAE, MSE, RMSE), illetve ezeken kívül még az R2-et is. A dolgozatomban részletesen írok arról, hogy mi micsoda. Annak érdekében, hogy legyen egy képem arról, hogy a lineáris regresszió hogyan működik, kiválasztottam az 5 legtöbb eladó lakással illetve eladó házzal rendelkező helyszínt, és felépítettem rájuk a lineáris regresszió modelleket. Az 5-5 helyszín átlagai a következők: Lakások: R2: 0,67575; MAE: 6,256 M Ft; RMSE: 8,622 M Ft. Házak: R2: 0,562; MAE: 11,58 M Ft; RMSE: 14,94 M Ft. A konklúzióm az általam feltett kérdésekre a következők: Az adatok minősége a túl sok hiányos adat miatt nem a legjobb. Egy ingatlanos szakember azt mondta, hogy az ingatlanosok általában mindent kitöltenek, míg a magán hirdetők kevésbé, így ahhoz, hogy jobb minőségű adataink legyenek, tovább kellene az adatokat gyűjteni. Véleményem szerint, ha tovább gyűjtjük az adatokat, akkor a regressziós modelljeink is javulhatnak. Véleményem szerint a két folyamatosan növekvő adathalmazban nagyon sok lehetőség van még. El lehet menni akár az adatvizualizáció irányába és különböző műszerfalakat készíteni, amik folyamatosan adnának egy képet a Magyar ingatlan piacról, továbbá szerintem érdemes lenne még idősor elemzést, szezonalitás is vizsgálni, ha kellő mennyiségű adatot sikerült összegyűjtenünk.
Intézmény
Budapesti Gazdasági Egyetem
Kar
Tanszék
Gazdaságinformatika Tanszék
Tudományterület/tudományág
NEM RÉSZLETEZETT
Szak
Mű típusa: | diplomadolgozat (NEM RÉSZLETEZETT) |
---|---|
Kulcsszavak: | adatelemzés - adatbányászat, Adattísztitás, árazás, regresszió, Web Scrape |
SWORD Depositor: | Archive User |
Felhasználói azonosító szám (ID): | Archive User |
Rekord készítés dátuma: | 2021. Már. 01. 13:48 |
Utolsó módosítás: | 2021. Már. 01. 13:48 |
Actions (login required)
Tétel nézet |