Pregunta

Estoy creando mi propia implementación de un clasificador ingenuo de Bayes. Si bien su comportamiento y las funcionalidades son claras para mí, mis preocupaciones están en la naturaleza de los datos de capacitación y prueba.

Adquirí varios conjuntos de reseñas de productos de Amazon. Lo primero que hago es analizarlos, es decir, tomar la calificación (1 a 5 estrellas) y el texto, que analizo con una regex para que solo contengan caracteres y espacios alfabéticos en minúsculas. A continuación, convierto las calificaciones en valores polares, por lo que 1 y 2 estrellas se convierten en "-" y 4 y 5 estrellas se convierten en "+". Estoy saltando intencionalmente reseñas con 3 estrellas; ¿Podría ser esto un problema?

Aquí vienen mis verdaderas preocupaciones. Al usar una división porcentual para generar conjuntos de capacitación y prueba, ¿ambos deberían contener la misma parte de las revisiones positivas y negativas (como 7 revisiones positivas y 7 negativas para el entrenamiento y 3 revisiones positivas y 3 negativas para las pruebas)? En este momento estoy adquiriendo tantas críticas positivas como negativas del set elegido, pero me pregunto si ese debería ser el caso. Por ejemplo, si un conjunto contiene 7 revisiones positivas y 4 negativas, descarto 3 revisiones positivas para equipararlas.

Además, observé que las revisiones negativas tienden a contener textos más largos en promedio. Entonces, si estoy usando un número igual de revisiones positivas y negativas, pero difieren en la longitud de texto promedio, ¿tendría esto un impacto en la forma en que mi clasificador intenta predecir?

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución
scroll top