Termékek kategorizálása a BERT modell segítségével

Füri Erika Rebeka (2024) Termékek kategorizálása a BERT modell segítségével. Pénzügyi és Számviteli Kar. (Kéziratban)

[thumbnail of Füri_Erika_Rebeka_PSZK.pdf] PDF
Füri_Erika_Rebeka_PSZK.pdf
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (1MB)
[thumbnail of Füri_Erika_Rebeka_PSZK_BGE_TDK_Szerzői hozzájárulás nyilatkozat 2024.pdf] PDF
Füri_Erika_Rebeka_PSZK_BGE_TDK_Szerzői hozzájárulás nyilatkozat 2024.pdf
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (145kB)
[thumbnail of Füri_Erika_Rebeka_PSZK.docx] Microsoft Word
Füri_Erika_Rebeka_PSZK.docx
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (17kB)
[thumbnail of Mellékletek - notebookok.zip] Archive (ZIP)
Mellékletek - notebookok.zip
Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP címekről nyitható meg

Download (572kB)
[thumbnail of Füri_Erika_Rebeka Bírálat.pdf] PDF
Füri_Erika_Rebeka Bírálat.pdf
Hozzáférés joga: Bizalmas dokumentum (bírálat)

Download (394kB)
[thumbnail of Füri Erika Rebeka_TDK_Dolgozat_biralati_lap_2024_HU.pdf] PDF
Füri Erika Rebeka_TDK_Dolgozat_biralati_lap_2024_HU.pdf
Hozzáférés joga: Bizalmas dokumentum (bírálat)

Download (372kB)

Absztrakt (kivonat)

A kategorizálás szerepe napjainkban nagyon fontos tényező, különösen egy online áruházat vezető cég számára, amely rengeteg termék árusításával foglalkozik. Fontos, hogy vevői szempontból a kategorizálás egyszerű, áttekinthető legyen, hogy gyorsan meg lehessen találni a megfelelő terméket. Ami a kategorizálás felépítésén kívül is fontosabb tényező az az, hogy a termékek jól legyenek besorolva, hiszen ha a vevő megtalálja a megfelelő kategóriát, akkor azt egyértelműen úgy kezeli, hogy csak azok a termékek vannak készleten, amik ott találhatóak. A dolgozat témája is ehhez köthető, hogy miként lehet bekategorizálni egy több ezer termékből álló adathalmazt a megfelelő csoportba kategorizálni, mindezt úgy, hogy több mint ezer kategória van. Ezt a feladatot egy webáruház egészen eddig manuálisan kezelte, viszont egy olyan megoldást szerettek volna, amely ezt automatizálni tudja. Célom az volt, hogy ez megvalósuljon, mindezt úgy, hogy a kategorizálási hiba arány csökkenjen a manuális megvalósítással szemben. A feladat lényege tehát az volt, hogy olyan programot készítsek, amely feldolgozza és értelmezi a termékek neveit és a rendelkezésemre álló adatbázisnak megfelelően kategóriákba sorolja őket. Ehhez a feladathoz mesterséges intelligencia használata tűnt a legoptimálisabbnak, ezért ezen a területen kezdtem el kutatni, hogy mely modell lenne megfelelő a feladatra. Így találtam rá a BERT modellre, amelyet a Google fejlesztett ki, és már sok más nagyobb cég is használ termékek kategorizálására. Ennél a projektnél egy BERT-Base modellt alkalmaztam, mivel ez az a modell, amely képes úgy tanulni, hogy figyelembe veszi a szavak közötti kapcsolatot, ami által könnyebben és gyorsabban tudja kezelni a kategorizálási folyamatot. Ehhez a kutatáshoz az adatokat megkaptam, mint primer adatforrás, secunder forrásként pedig az irodalmi kutatásokhoz fordultam. Mivel fontos volt a megbízhatóság és a korszerűség, az utóbbi területen e szerint próbáltam összegyűjteni a szükséges információkat. A kutatásaim során azt állapítottam meg, hogy ehhez a feladathoz elég csak egy finomhangolást végeznem egy már előre betanított modellen. Rengeteg BERT típust hoztak már létre különféle célokra, ezek közül én a HUBERT modellt (Hungarian Language modell) tartottam a legcélszerűbbnek választani, mivel az adatbázisom magyar nyelvű volt. Több tesztelés után végül megállapítottam, hogy bár nem tudtam kizárni a hibás bekategorizálás lehetőségét, azonban nagyon jól teljesített a feladat automatizálásában, mivel sokkal gyorsabban tudta megtalálni az adott kategóriát, mint a manuális megoldás esetében, illetve az átlagos manuális hibázási rátánál így is jobb eredményeket ért el. Továbbá a modell segítségével sikerült felfedezni olyan termékeket is, amelyek hibásan voltak bekategorizálva a manuális munkafolyamat során.

Intézmény

Budapesti Gazdasági Egyetem

Kar

Pénzügyi és Számviteli Kar

Tanszék

Gazdaságinformatika Tanszék

Tudományterület/tudományág

NEM RÉSZLETEZETT

Szak

Gazdaságinformatikus

Mű típusa: TDK dolgozat
Kulcsszavak: adatfeldolgozás, BERT modell, HuBERT, kategorizálás, mesterséges intelligencia, Python
SWORD Depositor: User Archive
Felhasználói azonosító szám (ID): User Archive
Rekord készítés dátuma: 2025. Szep. 23. 11:57
Utolsó módosítás: 2025. Szep. 23. 11:57

Actions (login required)

Tétel nézet Tétel nézet