Lema ( engleză lema ) este forma inițială, de dicționar, a cuvântului [1] . În rusă, pentru substantive și adjective, aceasta este forma nominativ singular, pentru verbe și forme verbale, este forma infinitivă. Concept de bază în domeniul lingvisticii corpusului și procesarea automată a limbajului natural . Procesul de reducere automată a cuvintelor text la leme se numește lematizare .
De exemplu, expresia „ Dimineața devreme, mama Milei a spălat rama cu săpun ” după lematizare va arăta astfel: dimineață, devreme, mamă, Mila, spălați, încadrați, săpun .
În lingvistica corpus, o căutare după lemă oferă contexte cu mențiunea tuturor formelor de cuvânt ale unui lexem dat . De exemplu, căutarea pe lema pisică va returna contexte care conțin pisică, pisică, pisică, pisici, pisici etc. Acest tip de căutare este în contrast cu căutarea prin formă de cuvânt : în acest caz, căutarea pe forma cuvântului pisică va returna contexte care conțin exact această formă gramaticală a numărului singular al cazului dativ [2] .