Modelele de limbă pre-instruite la scară largă au arătat rezultate impresionante asupra punctelor de referință pentru înțelegerea limbajului, cum ar fi GLUE și SuperGLUE, îmbunătățindu-se considerabil față de alte metode de pre-formare, cum ar fi reprezentările distribuite (GloVe) și abordările pur supravegheate. Introducem arhitectura Dual Intent and Entity Transformer (DIET) și studiem eficacitatea diferitelor reprezentări pre-instruite privind intenția și predicția entității, două sarcini comune de înțelegere a limbajului de dialog. . DIET avansează stadiul tehnicii pe un set de date complex NLU multi-domeniu și realizează o performanță similară ridicată pe alte seturi de date mai simple. În mod surprinzător, arătăm că nu există niciun beneficiu clar în utilizarea modelelor mari pre-antrenate pentru această sarcină și, de fapt, DIET îmbunătățește stadiul actual al tehnicii chiar și într-o configurație pur supravegheată, fără încorporări pre-antrenate. Modelul nostru cel mai performant depășește reglajul fin BERT și este de aproximativ șase ori mai rapid de antrenat. (Citeste mai mult)

diet