Cantitate/Preț
Produs

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten: Ausgezeichnete Arbeiten zur Informationsqualität

Autor Uwe Draisbach
de Limba Germană Paperback – 23 feb 2012
Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.
 
Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.
Citește tot Restrânge

Din seria Ausgezeichnete Arbeiten zur Informationsqualität

Preț: 40755 lei

Preț vechi: 50944 lei
-20% Nou

Puncte Express: 611

Preț estimativ în valută:
7800 8113$ 6537£

Carte tipărită la comandă

Livrare economică 13-27 martie

Preluare comenzi: 021 569.72.76

Specificații

ISBN-13: 9783834817723
ISBN-10: 3834817724
Pagini: 87
Ilustrații: XIV, 91 S. 28 Abb., 6 Abb. in Farbe.
Dimensiuni: 148 x 210 x 15 mm
Greutate: 0.14 kg
Ediția:2012
Editura: Vieweg+Teubner Verlag
Colecția Vieweg+Teubner Verlag
Seria Ausgezeichnete Arbeiten zur Informationsqualität

Locul publicării:Wiesbaden, Germany

Public țintă

Research

Cuprins

Duplikaterkennung.- Blocking-Verfahren.- Windowing-Verfahren.- Vergleich Blocking- und Sorted-Neighborhood-Methode.- Verallgemeinertes Verfahren

Notă biografică

Uwe Draisbach studierte Informatik an der FernUniversität Hagen und ist wissenschaftlicher Mitarbeiter am Hasso-Plattner-Institut in Potsdam.

Textul de pe ultima copertă

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.
 
Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.