Files

Abstract

Az agrárdigitalizáció mind szélesebb körű térnyerésével több egymással szorosan összefüggő kérdés is felmerül. A mind nagyobb mennyiségben rendelkezésre álló adatok automatikusan több információt biztosítanak? A hagyományos elemzési módszerek mellett és/vagy helyett milyen új módszerek alkalmazása válik szükségszerűvé? A cikk keretében arra kerestük a választ, hogy a NAIK Agrárgazdasági Kutatóintézet (NAIK AKI) által gyűjtött tesztüzemi (FADN) adatok esetében milyen kérdéseknél lehet módszerként alkalmazni a mátrixfaktorizációs (MF) modellt. Arra az eredményre jutottunk, hogy egy jól felépített MF-modell hatékonyan képes tanulni ellenőrzött és megbízható adatokon. Fontos tanulság, hogy a hiányzó adatok jellemzően szisztematikusak, azaz a hiányzó elemek közel minden felhasználónál jelentkeznek. Két, mezőgazdasági adatbázisok esetén gyakran előforduló felhasználási lehetőséget azonosítottunk: egyrészt lehetőség van hiányzó adatok becslésére, másrészt alkalmas lehet adatszolgáltatás ellenőrzésére. Az eredmények alapján további adatkörök esetében is érdemes megvizsgálni a módszer alkalmazása által elérhető eredményeket. Végezetül fontos hangsúlyozni, hogy a módszer alkalmazhatóságának fontos feltétele a mezőgazdasági összefüggések figyelembevétele és a megválaszolandó kérdés MF-problémaként történő meghatározása. -------------------- The increasing application of digital technologies in agriculture raises several closely related issues. Do we have more information just because we have more data? Do we need new methods and approaches beyond and/or alongside classic quantitative ones? In this article we try to provide a case study about what the possibilities of matrix-factorization (MF) are in case of FADN data. Our results show, that a well-structured MF model can efficiently learn using high quality dataset. One important finding is, that missing data have systematic nature in a sense, that they happen in case of almost all agents. We found that in the data used in agriculture: (1) missing data can be estimated with great accuracy; (2) one can implement data quality checks. Based on the results, it is recommended to study other data environments as well. Finally, it is important to stress, that the usability of the method strongly depends on the proper understanding of complex contiguity and the appropriate definition of the MF problem.

Details

PDF

Statistics

from
to
Export
Download Full History