Notice: Undefined index: linkPowrot in C:\wwwroot\wwwroot\publikacje\publikacje.php on line 1275
Publikacje
Pomoc (F2)
[80590] Artykuł:

Możliwości diagnozowania i poprawy jakości danych – synteza

(Possibilities of diagnosing and improving data quality – a synthesis)
Czasopismo: Studia i Materiały. Miscellanea Oeconomicae   Zeszyt: 2/2018, Strony: 439-451
ISSN:  2081-2345
Opublikowano: 2018
Liczba arkuszy wydawniczych:  0.50
 
  Autorzy / Redaktorzy / Twórcy
Imię i nazwisko Wydział Katedra Do oświadczenia
nr 3
Grupa
przynależności
Dyscyplina
naukowa
Procent
udziału
Liczba
punktów
do oceny pracownika
Liczba
punktów wg
kryteriów ewaluacji
Marzena Nowakowska orcid logo WZiMKKatedra Informatyki i Matematyki Stosowanej**Niezaliczony do "N"Nauki o zarządzaniu i jakości1009.009.00  

Grupa MNiSW:  Publikacja w recenzowanym czasopiśmie wymienionym w wykazie ministra MNiSzW (część B)
Punkty MNiSW: 9


Spis treści     Web of Science LogoYADDA/CEON    
Słowa kluczowe:

nieprawidłowości w danych  dane brakujące  czyszczenie danych 


Keywords:

irregularities in data  missing data  data cleaning 



Streszczenie:

Aktywność zawodowa człowieka wiąże się z koniecznością pozyskiwania, składowania i przetwarzana danych. Pomiędzy procesami tworzenia zasobów cyfrowych i ich wykorzystania pojawia się etap pośredni – przygotowanie danych do analiz. Fundamentalną jego częścią jest ocena jakości danych a następnie implementacja procedur naprawy danych zanieczyszczonych. Ponieważ zagadnienie jest ważne, a jego aktualność stale rośnie, w pracy podjęto zadanie zaprezentowania całości problemu w sposób syntetyczny. Omówiono klasyfikację błędów w danych i mechanizmy generowania tych błędów. Dyskusję zilustrowano na przykładach – wskazano zabrudzenia w danych oraz sposoby ich czyszczenia.




Abstract:

All human professional activities often involve the need to acquire, store and process data. Between the processes of creating digital resources and their use, there is an intermediate stage – preparation of data for analyzes. The fundamental part of the stage is the evaluation of data quality and then implementation of procedures for the data cleaning. Because the issue is important and its validity is constantly growing, the whole problem is presented in a synthetic way in the study. The classification of errors in data as well as the mechanisms of generating those errors were considered. The discussion was illustrated by dirty data examples together with some data cleaning solutions.



B   I   B   L   I   O   G   R   A   F   I   A
1. Bhaskaran K., Smeeth L., What is the difference between missing completely at random and missing at random?, Int J Epidemiol., 2014 Aug
43(4).
2. Chu X., Ilyas I.F., Qualitative Data Cleaning, Proceedings of the VLDB Endowment 2016, Vol. 9, No. 13.
3. Cody R., Cody's Data Cleaning Techniques Using SAS®, Third Edition by Ron Cody, 2017, SAS Institute Inc., Cary, North Carolina, USA.
4. Dasu T., Johnson T., Exploratory Data Mining and Data Cleaning, Wiley, 2003.
5. Definicje jakości, https://centrum.jakosci.pl/podstawy-jakosci,definicja-jakosci.html (02.08.2018).
6. Drabik L., Sobol E. (red.), Słownik języka polskiego PWN, Wydawnictwo Naukowe PWN, Warszawa 2013.
7. Encyklopedia/zarządzanie jakością. Jakość, https://www.governica.com/Jakość (25.07.2018).
8. Francis L.A., Dancing With Dirty Data. Methods for Exploring and Cleaning Data, Casualty Actuarial Society Forum, Winter 2005.
9. Grace-Martin K., Missing Data Mechanisms: A Primer. Witryna internetowa The analysis factor. https://www.theanalysisfactor.com/causes-of-missing-data/ (15.04.2018).
10. Grzybowski P., Na czym polega i jak przeprowadzić projekt czyszczenia danych?, http://dataquality.pl/na-czym-polega-i-jak-przeprowadzic-projekt-czyszczenia-danych/ (18.03.2018).
11. Hand D., Mannila H., Smyth P., Eksploracja danych, Wydawnictwa Naukowo-Techniczne, Warszawa 2005.
12. Hofer M., Oberascher T., Sgardelli A., Teufl M., Data Quality and Data Cleaning in Data Warehouses, Data Warehousing & Data Mining Seminar SS 2007, Institut für Wirtschaftsinformatik – Data & Knowledge Engineering, Johannes Kepler Universität Linz.
13. ISO 9000:2015. Quality management systems – Fundamentals and vocabulary, https://www.iso.org/ standard/45481.html (25.07.2018).
14. Iwaniec M., Systemowe podejście do gromadzenia i analizy danych w kontekście zarządzania jakością, http://www.ptzp.org.pl/files/konferencje/ kzz/, artyk_pdf_2012/p058.pdf (20.11.2014).
15. Janicki W., Jakość bazy danych, Automatyka 2005, Tom 9, Zeszyt 3.
16. Kulpa T., Metody uzupełniania brakujących danych na przykładzie liczby zarejestrowanych pojazdów, Transport Miejski i Regionalny 2013, 10.
17. Moczko J., Wnioskowaniem statystyczne w przypadku występowania brakujących danych, Przegląd Lekarski 2012, 69, 10.
18. Müller H., Freytag J-C., Problems, Methods, and Challenges in Comprehensive Data Cleansing, Humboldt-Universität zu Berlin, Germany, January 2003.
19. Pyle D., Data Preparation for Data Mining, Morgan Kaufman Publishers, 1999.
20. Rubin D.B., Basic Ideas of Multiple Imputation for Nonresponse, Survey Methodology, June 1986, Vol. 12, No. 1, Statistics Canada.
21. Szymczak M. (red.), Słownik języka polskiego, Państwowe Wydawnictwo Naukowe, Warszawa 1978.
22. Van den Broeck J., Argeseanu Cunningham S., Eeckels R., Herbst K., Data Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities, PLoS Med 2(10): e267, 2005, https://doi.org/10.1371/journal.pmed.0020267 (08.08.2018).