დასახელებული ერთეულის ამოცნობა არის ინფორმაციის მოპოვების ქვე-ამოცანა, რომელიც მიზნად ისახავს არასტრუქტურირებულ ტექსტში ნახსენები დასახელებული ერთეულების განთავსებას და კლასიფიკაციას წინასწარ განსაზღვრულ კატეგორიებად, როგორიცაა პირების სახელები, ორგანიზაციები, მდებარეობები, სამედიცინო კოდები, დროის გამოსახულებები, რაოდენობები, ფულადი სახსრები. მნიშვნელობები, პროცენტები და ა.შ.
რას აკეთებს დასახელებული ერთეულის ამოცნობა?
დასახელებული ერთეულის ამოცნობა არის ბუნებრივი ენის დამუშავების ტექნიკა, რომელსაც შეუძლია ავტომატურად დაასკანიროს მთელი სტატიები და ამოიღოს რამდენიმე ფუნდამენტური ერთეული ტექსტში და დაალაგოს ისინი წინასწარ განსაზღვრულ კატეგორიებად.
რა ჰქვია ერთეულების ამოცნობას ახსენი მაგალითების დახმარებით?
დასახელებული ერთეულის ამოცნობა (NER) დაგეხმარებათ მარტივად ამოიცნოთ ტექსტის ძირითადი ელემენტები, როგორიცაა ადამიანების სახელები, ადგილები, ბრენდები, ფულადი ღირებულებები და სხვა. ტექსტში ძირითადი ერთეულების ამოღება ხელს უწყობს არასტრუქტურირებული მონაცემების დახარისხებას და მნიშვნელოვანი ინფორმაციის აღმოჩენას, რაც გადამწყვეტია, თუ საქმე გაქვთ მონაცემთა დიდ ნაკრებებთან.
სად გამოიყენება დასახელებული ერთეულის ამოცნობა?
Named Entity Recognition-ს შეუძლია ავტომატურად დაასკანიროს მთელი სტატიები და გამოავლინოს მათში განხილული ძირითადი ადამიანები, ორგანიზაციები და ადგილები. თითოეული სტატიისთვის შესაბამისი ტეგების ცოდნა დაგეხმარებათ სტატიების ავტომატურ კატეგორიზაციაში განსაზღვრულ იერარქიებში და გააქტიურებთ შინაარსის გლუვ აღმოჩენას.
როგორ ქმნით დასახელებული ერთეულის ამოცნობას?
- დაამატე ახალი ერთეულის ლეიბლი ერთეულსამომცნობი add_label მეთოდის გამოყენებით.
- გადახედეთ მაგალითებს და დარეკეთ nlp. განახლება, რომელიც გადადის შეყვანის სიტყვებში. ყოველ სიტყვაზე ის აკეთებს წინასწარმეტყველებას. …
- შეინახეთ გაწვრთნილი მოდელი nlp-ის გამოყენებით. to_disk.
- გამოცადეთ მოდელი, რათა დარწმუნდეთ, რომ ახალი ერთეული სწორად არის ამოცნობილი.