برچسب گذاری

حاشیه نویسی متن ( text annotation ) فرآیند اضافه کردن یادداشت یا تفسیری به متن است که ممکن است شامل نکات برجسته، نظرات ، پاورقی ها ، برچسب ها و پیوندها باشد. حاشیه نویسی متن می تواند شامل یادداشت هایی باشد که برای اهداف شخصی خواننده نوشته شده است و یا در نوعی دیگر، حاشیه نویسی مشترک برای اهداف نگارش و ویرایش مشارکتی ، تفسیر و اشتراک گذاری اجتماعی استفاده می شود. در بعضی از زمینه ها ، حاشیه نویسی متن قابل مقایسه با فوق داده ( metadata ) است از آنجا که به متن اضافه شده است و اطلاعاتی راجع به متن بدون تغییر در متن اصلی ارائه می دهد.

data annotation

ساختن مدل ها برای طبقه بندی داده ها براساس یک برنامه نویسی از پیش تعریف شده یک کار اساسی در تحقیقات اجتماعی دیجیتالی است که به منظور درک تعامل های اجتماعی ، اعتقادات ، احساسات و مانند آن استفاده می شود. برای اجرای هدف مشخص با استفاده از تجزیه و تحلیل داده ها در مقیاس بزرگ ، که برای حجم داده های تولید شده کاملاً ضروری است ، از طبقه بند های یادگیری ماشین استفاده می شود تا ویژگی های متونی که نشانگر طبقه متعلق به آنهاست ، آموخته شود. برای درک و توضیح محدودیت های مدل آموخته شده با تولید نتایج عملکرد طبقه بندی خاص مدل ، مانند درصد دقت در هر کلاس مجموعه داده “استاندارد طلایی” نیاز داریم تا مدل طبقه بندی را آزمایش کنیم. معمولاً ، این امر با نمونه ‌گیری از یک مجموعه داده بزرگتر و به کار بردن حاشیه نویسان انسانی برای برچسب زدن هر داده ورودی ( به عنوان مثال متن توییت ) مطابق با یک قالب برچسب گذاری بدست می آید.

سرویس های وب ، رابط های برنامه نویسی کاربردی ( API ) ارائه می دهند که از طریق آنها محققان می توانند بطور خودکار یک مجموعه داده ، فریم برنامه نویسی و مجموعه دستورالعمل های حاشیه نویسی را بارگذاری کنند. سپس نتایج حاصل از کارهای حاشیه نویسی را می توان به دو قسمت مجموعه داده های آموزشی و آزمایشی یادگیری ماشین تقسیم کرد.