jueves, 4 de octubre de 2012

Normalización del Texto => Normalización de palabras y stemming

Como dije antes el segundo paso en la normalización del texto es la normalización de las palabras.
¿Qué implica eso?

unificar la forma de los terminos con un mismo significado:

    por ejemplo: Bs. As., Buenos Aires, CABA => Buenos Aires



Definir cierta equivalencia de términos:

   por ejemplo: que ventana, Ventana, Ventanas se identifiquen univocamente con una sola palabra: "ventana"

Mayúsculas y minúsculas

otra acción de normalización es pasar todo a minúsculas (que es la forma más común de escribir), sin embargo existen excepciones: "General Motors", "Buenos Aires", "USA" vs. "usa" (para castellano)

Lematización (Lemmatization)

según Wikipedia: "La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra"

soy, son, es => ser
gato, gata, gatos => gato
ir, voy, iré, fui => ir

en ingles:

am, are, is => be
car, cars,car's,cars' => car

Morfología 

La morfología es la rama de la  lingüística que estudia la "forma" de las palabras. Según Wikipedia: "La morfología explica la estructura interna de las palabras y el proceso de formación de palabras mientras que la sintaxis describe cómo las palabras se combinan para formar sintagmas, oraciones y frases."

Morfema: fragmento mínimo capaz de expresar significado
Tema (stem): palabra principal, raíz, sobre la cual se pueden agregar afijos.
Afijos (affixes): sufijos, prefijos e interfijos que se agregan a un tema

Ejemplo: Tema: "cruel", sufijo: "dad" => crueldad

Stemming

Es el proceso de reducir las palabras a su tema.

Ejemplo en castellano: "gato", "gata", "gatos" => "gat"
Ejemplo en ingles: "automates", "automatic"   => "automat"

El algoritmo más común de Stemming en idioma ingles: Algoritmo de Porter

paso 1a)
sses -> ss              caresses -> caress
ies   -> i                ponies    -> poni
ss    -> ss              caress    -> caress
s     -> (remover)  cats        -> cat

paso 1b)
(*V*)ing     -> (remover)  walking  -> walk  
                                        sing         -> sing
(*V*)ed     -> (remover)  plastered -> plaster

nota(*V*) significa que la palabra contiene al menos una vocal

paso 2) (para temas largos)
ational  -> ate  relational -> relate
izer      -> ize   digitizer   -> digitize
ator     -> ate   operator -> operate

paso 3) (para temas largos)

al      -> (remover)    revival -> reviv
able  -> (remover)    adjustable -> adjust
ate    -> (remover)    activate -> activ


No hay comentarios:

Publicar un comentario