Clasificación binaria
La clasificación binaria es la tarea de clasificar los elementos de un conjunto en dos grupos sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:
- Pruebas médicas para determinar si un paciente tiene cierta enfermedad o no;
- Control de calidad en la industria, decidiendo si se ha cumplido una especificación;
- En la recuperación de información, decidir si una página debe estar en el conjunto de resultados de una búsqueda o no.
La clasificación binaria es la dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, es de interés la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).
Clasificación estadística binaria
La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado, un método de aprendizaje automático donde las categorías están predefinidas, y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando solo hay dos categorías, el problema se conoce como clasificación estadística binaria.
Algunos de los métodos comúnmente utilizados para la clasificación binaria son:
- Árboles de decisión
- Bosques aleatorios
- Redes bayesianas
- Máquinas de vectores de soporte
- Redes neuronales
- Regresión logística
- Modelo probit
Cada clasificador es mejor solo en un dominio selecto basado en el número de observaciones, la dimensionalidad del vector de características, el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D.[1][2]
Evaluación de clasificadores binarios
Hay muchas métricas que se pueden usar para medir el desempeño de un clasificador o predictor; diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina, a menudo se utilizan la sensibilidad y la especificidad, mientras que en la recuperación de información se prefieren la precisión y la exhaustividad . Una distinción importante es entre métricas que son independientes de la frecuencia con la que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.
Dada una clasificación de un conjunto de datos específico, hay cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas), y falsos negativos FN (asignaciones negativas incorrectas).
Condición positiva | Condición negativa | |
---|---|---|
Resultado de la prueba positivo | Verdadero positivo | Falso positivo |
Resultado de la prueba negativo | Falso negativo | Verdadero negativo |
Estos se pueden organizar en una tabla de contingencia de 2 × 2, con columnas correspondientes al valor real - condición positiva o condición negativa - y filas correspondientes al valor de clasificación - resultado de prueba positivo o resultado de prueba negativo.
Las ocho proporciones básicas
Hay ocho proporciones básicas que se pueden calcular a partir de esta tabla, que vienen en cuatro pares complementarios (cada par suma 1). Estos se obtienen dividiendo cada uno de los cuatro números por la suma de su fila o columna, lo que da ocho números, a los que se puede hacer referencia genéricamente en la forma "proporción de fila positiva verdadera" o "proporción de columna de falso negativo".
Por tanto, hay dos pares de relaciones de columnas y dos pares de relaciones de filas, y se pueden resumir con cuatro números eligiendo una relación de cada par; los otros cuatro números son los complementos.
Las proporciones de las columnas son:
- tasa de verdaderos positivos (TPR) = (TP / (TP + FN)), también conocida como sensibilidad o exhaustividad . Éstos son la proporción de la población con la condición para la cual la prueba es correcta.
- con el complemento de la tasa de falsos negativos (FNR) = (FN / (TP + FN))
- tasa negativa verdadera (TNR) = (TN / (TN + FP), también conocida como especificidad (SPC),
- con el complemento de la tasa de falsos positivos (FPR) = (FP / (TN + FP)), también llamado independiente de la prevalencia
Las proporciones de las filas son:
- valor predictivo positivo (PPV, también conocido como precisión ) (TP / (TP + FP)). Estos son la proporción de la población con un resultado de prueba dado para el cual la prueba es correcta.
- con complemento de la tasa de descubrimiento falso (FDR) (FP / (TP + FP))
- valor predictivo negativo (VPN) (TN / (TN + FN))
- con complemento la tasa de omisiones falsas (FOR) (FN / (TN + FN)), también llamada dependencia de la prevalencia.
En las pruebas de diagnóstico, las principales proporciones utilizadas están en la columna de proporciones verdaderas (tasa de verdaderos positivos y verdadera tasa de negativos) que se conocen como sensibilidad y especificidad . En la recuperación de información, las proporciones principales son las proporciones verdaderas positivas (fila y columna) - valor predictivo positivo y tasa verdadera positiva - que se conocen como precisión y recuperación .
Se pueden tomar proporciones de un par de proporciones complementarias, lo que produce cuatro proporciones de probabilidad (proporción de proporciones de dos columnas, proporción de proporciones de dos filas). Esto se hace principalmente para las relaciones de la columna (condición), lo que produce relaciones de probabilidad en las pruebas de diagnóstico . Tomando la razón de uno de estos grupos de razones se obtiene una proporción final, la proporción de probabilidades de diagnóstico (DOR). Esto también se puede definir directamente como (TP × TN) / (FP × FN) = (TP / FN) / (FP / TN); esto tiene una interpretación útil, como una proporción de probabilidades, y es independiente de la prevalencia.
Hay una serie de otras métricas, la mayoría simplemente la precisión o Fracción Correcta (FC), que mide la fracción de todas las instancias que están categorizadas correctamente; el complemento es la Fracción Incorrecta (FiC). El puntaje F combina precisión y recuperación en un número a través de una opción de ponderación, la mayoría simplemente igual, como el puntaje F equilibrado ( puntaje F1 ). Algunas métricas provienen de coeficientes de regresión : la marcación y la información, y su media geométrica, el coeficiente de correlación de Matthews . Otras métricas incluyen el estadístico J de Youden, el coeficiente de incertidumbre, el coeficiente phi y el kappa de Cohen .
Conversión de valores continuos a binarios
Las pruebas cuyos resultados son de valores continuos, como la mayoría de los valores sanguíneos, pueden hacerse binarios artificialmente definiendo un valor de corte, y los resultados de las pruebas se designan como positivos o negativos dependiendo de si el valor resultante es mayor o menor que el límite.
Sin embargo, dicha conversión provoca una pérdida de información, ya que la clasificación binaria resultante no indica cuánto por encima o por debajo del límite está un valor. Como resultado, cuando se convierte un valor continuo que está cerca del límite en uno binario, el valor predictivo positivo o negativo resultante es generalmente mayor que el valor predictivo dado directamente del valor continuo. En tales casos, la designación de la prueba como positiva o negativa da la apariencia de una certeza inapropiadamente alta, cuando en realided el valor está de hecho en un intervalo de incertidumbre. Por ejemplo, con la concentración urinaria de hCG como valor continuo, una prueba de embarazo en orina que midió 52 mUI / ml de hCG puede mostrar un resultado "positivo" con 50 mUI / ml como límite, pero de hecho se encuentra en un intervalo de incertidumbre. que puede ser aparente sólo conociendo el valor continuo original. Por otro lado, un resultado de prueba muy lejos del punto de corte generalmente tiene un valor predictivo positivo o negativo resultante que es menor que el valor predictivo dado a partir del valor continuo. Por ejemplo, un valor de hCG en orina de 200.000 mUI / ml confiere una probabilidad muy alta de embarazo, pero la conversión a valores binarios da como resultado que se muestre tan "positivo" como el de 52 mUI / ml.
Véase también
- Ejemplos de inferencia bayesiana
- Regla de clasificación
- Matriz de confusión
- Teoría de la detección
- Métodos de kernel
- Clasificación multiclase
- Clasificación de etiquetas múltiples
- Clasificación de una clase
- Falacia del fiscal
- Característica Operativa del Receptor
- Umbral (procesamiento de imágenes)
- Coeficiente de incertidumbre, también conocido como competencia
- Propiedad cualitativa
Referencias
- Zhang & Zakhor, Richard & Avideh (2014). «Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras». VIP Lab Publications.
- Y. Lu and C. Rasmussen (2012). «Simplified markov random fields for efficient semantic labeling of 3D point clouds». IROS.
Bibliografía
- Nello Cristianini y John Shawe-Taylor . Una introducción a Support Vector Machines y otros métodos de aprendizaje basados en kernel . Prensa de la Universidad de Cambridge, 2000.ISBN 0-521-78019-5ISBN 0-521-78019-5 (Libro SVM)
- John Shawe-Taylor y Nello Cristianini. Métodos de kernel para análisis de patrones . Prensa de la Universidad de Cambridge, 2004.ISBN 0-521-81397-2ISBN 0-521-81397-2 ( Sitio web del libro )
- Bernhard Schölkopf y AJ Smola: Aprendiendo con Kernels . MIT Press, Cambridge, Massachusetts, 2002.ISBN 0-262-19475-9ISBN 0-262-19475-9