როდის უნდა მოხდეს მონაცემების ნორმალიზება ან სტანდარტიზაცია?

როდის უნდა მოხდეს მონაცემების ნორმალიზება ან სტანდარტიზაცია?
როდის უნდა მოხდეს მონაცემების ნორმალიზება ან სტანდარტიზაცია?
Anonim

ნორმალიზაცია სასარგებლოა როდესაც თქვენს მონაცემებს განსხვავებული მასშტაბები აქვთ და ალგორითმი, რომელსაც თქვენ იყენებთ, არ იძლევა ვარაუდებს თქვენი მონაცემების განაწილების შესახებ, როგორიცაა k-უახლოესი მეზობლები და ხელოვნური ნერვული ქსელები. სტანდარტიზაცია ვარაუდობს, რომ თქვენს მონაცემებს აქვს გაუსიანი (ზარის მრუდი) განაწილება.

როდის უნდა მოვახდინოთ მონაცემების ნორმალიზება?

მონაცემები უნდა იყოს ნორმალიზებული ან სტანდარტიზებული, რათა ყველა ცვლადი ერთმანეთთან პროპორციულად მოიყვანოს. მაგალითად, თუ ერთი ცვლადი 100-ჯერ მეტია მეორეზე (საშუალოდ), მაშინ თქვენი მოდელი შეიძლება უკეთესად მოიქცეს, თუ ორ ცვლადს ნორმალიზება/სტანდარტიზაცია მოახდინე, რათა იყოს დაახლოებით ექვივალენტური.

რა განსხვავებაა ნორმალიზებასა და სტანდარტიზაციას შორის?

ნორმალიზაცია, როგორც წესი, ნიშნავს მნიშვნელობების გადანაწილებას [0, 1] დიაპაზონში. სტანდარტიზაცია, როგორც წესი, გულისხმობს მონაცემების ხელახალი მასშტაბებს, რათა ჰქონდეს საშუალო 0 და სტანდარტული გადახრა 1 (ერთეულის ვარიაცია)..

როდის და რატომ გვჭირდება მონაცემთა ნორმალიზაცია?

უფრო მარტივი სიტყვებით, ნორმალიზება უზრუნველყოფს, რომ თქვენი ყველა მონაცემი ერთნაირად გამოიყურება და იკითხება ყველა ჩანაწერში. ნორმალიზება მოახდენს ველების სტანდარტიზებას, მათ შორის კომპანიის სახელებს, საკონტაქტო სახელებს, URL-ებს, მისამართების ინფორმაციას (ქუჩები, შტატები და ქალაქები), ტელეფონის ნომრები და სამუშაოს დასახელებები.

როგორ ირჩევთ ნორმალიზაციასა და სტანდარტიზაციას?

ბიზნესის სამყაროში "ნორმალიზაცია" ჩვეულებრივ ნიშნავს, რომ მნიშვნელობების დიაპაზონი არის"ნორმალიზებული იყოს 0.0 -დან 1.0-მდე". „სტანდარტიზაცია“ჩვეულებრივ ნიშნავს, რომ მნიშვნელობების დიაპაზონი „სტანდარტიზებულია“, რათა გაზომოს რამდენი სტანდარტული გადახრებია ეს მნიშვნელობა მისი საშუალოდან.

გირჩევთ: