Presentación paper:

Relational Learning Analysis of Social Politics using Knowledge Graph Embedding

Bilal Abu-Salih et al (2020)

Rodrigo Molina Ávila

Grafos de Conocimiento - MDS 7205

Logo MDS

Introducción

Contexto

  • Knowledge Graphs (KGs) estructuran conocimiento desde 2012 (Google KG)
  • Esenciales para representar conocimiento en dominios específicos
  • Social Big Data genera nuevos desafíos semánticos

Problemas actuales

  • Heterogeneidad de datos sociales y falta de control de calidad
  • Incompletitud de KGs existentes (ej. Freebase)
  • Problemas de credibilidad y factualidad en redes sociales

Propuesta del artículo

  • Framework para construcción de KG político específico
  • Incorporación de ontología extendida y módulo de credibilidad social
  • Uso de embeddings para representar entidades y relaciones

Contribuciones principales

  • KG político basado en datos reales y ontología extendida
  • Módulo CredSaT para medir credibilidad de usuarios
  • Implementación de modelos de embeddings (TransE, DistMult, etc.)
  • Evaluación en predicción de enlaces, clustering y visualización

Presentación sobre Knowledge Graphs - Framework de Embeddings Basado en Credibilidad

Trabajos Relacionados

Adquisición y expansión del conocimiento en KGs

  • Zhang Mecanismo de atención conjunta para combinar texto con estructuras KG
  • Purohit DisasterKG para gestión de desastres
  • Kruit Inferencia desde tablas HTML usando modelos gráficos probabilísticos
  • Shi & Weninger ConMask: sistema basado en redes convolucionales para completar KGs

Aplicaciones de embeddings en NLP

  • Yao LDA para mejorar representación semántica de documentos
  • TCV Text Concept Vectors mediante redes neuronales
  • KGE Aplicaciones en análisis de sentimiento, detección de noticias falsas y sistemas de recomendación

Clasificación y clustering en KGs

Clasificación

  • Tian Redes neuronales profundas para clustering sobre grafos
  • Modelos Clasificación de entidades y relaciones mediante embeddings

Modelos destacados

TransR HolE ANALOGY DistMult

Credibility-based Domain-specific Knowledge Graph Embedding Framework

Framework Architecture

Arquitectura completa del sistema para construcción de Knowledge Graphs basados en credibilidad

Knowledge Resources

Objetivo de esta etapa

Identificar las fuentes de datos utilizadas como insumo para el sistema de construcción del grafo de conocimiento.

Recursos utilizados

Twitter

Datos sociales y discusión política

Wikipedia

Conocimiento estructurado y referencial

Artículos de prensa

Contexto y análisis periodístico

Relación con el sistema

Estos recursos alimentan el módulo de Domain Knowledge Acquisition & Pre-processing

Domain Knowledge Acquisition & Pre-processing

Contexto y adquisición del dataset

El estudio se enfoca en analizar contenido político publicado en Twitter.

Selección del dominio político:

  • Twitter es usado activamente por políticos para comunicación y propaganda
  • Plataforma objeto de controversias por su uso en ataques políticos
  • Amplia base de usuarios, acceso libre y baja regulación estatal
  • Contenido político satura el espacio (más de un tercio de usuarios lo perciben como excesivo)

Fuentes de usuarios:

Parlamentarios australianos Listas políticas Otros dominios Dataset de Akcora et al.

API User_timeline para recolectar publicaciones y metadatos públicos

Pre-procesamiento y curación

Data cleansing

Eliminación de datos erróneos, redundantes, sin sentido o irrelevantes

Enriquecimiento de metadatos

Uso de la API lookup para reemplazar handles por nombres reales

Modelado semántico

Identificación de usuarios políticamente relevantes mediante menciones y patrones de publicación

Objetivo del preprocesamiento:

Garantizar que el contenido que alimenta el grafo sea semánticamente relevante, confiable y libre de ruido

Domain Knowledge Modelling & Inference

Modelado ontológico del dominio

Representación de entidades del mundo real (obtenidas desde Twitter) en una estructura formal y comprensible por máquinas.

Base ontológica:

BBC Politics Ontology Diseñada para modelar elecciones y gobiernos locales del Reino Unido

Extensión y adaptación:

Ontología extendida y adaptada al contexto político australiano

Verificación mediante razonadores:

TrOWL RacerPro Pellet HermiT FaCT++

Validación garantiza:

  • Coherencia lógica
  • Jerarquía de clases
  • Ausencia de contradicciones

Enriquecimiento semántico e inferencia

Recursos externos:

WordNet

Agrega sinónimos y conceptos semánticamente relacionados

Ej: "politician" → "politico"

Google KG API

Permite interlinking de entidades usando owl:sameAs

IBM Watson NLU

Clasificación temática y análisis de sentimiento

Ej: "law, govt and politics" → "presidential elections"

Otros vocabularios integrados:

UMBEL Freebase YAGO FOAF

El sistema estructura semánticamente, valida lógicamente y enriquece entidades con conocimiento vinculado de múltiples fuentes

Knowledge Credibility Module

Evaluación de credibilidad de usuarios

Filtrado de contenido no fidedigno antes de incorporar datos al grafo de conocimiento

CredSaT

Mecanismo que mide credibilidad por dominio temático utilizando características:

Textuales
De interacción
Temporales

Implementación

Aplicado sobre dataset con usuarios legítimos y spammers

Genera rankings de confianza específicos por dominio

Ejemplo: Perfil confiable

Joanne Ryan (diputada)

Alto índice de credibilidad política

Ejemplo: Perfil anómalo

@hamjuku

Bajo índice de credibilidad

Resultados muestran capacidad para distinguir perfiles confiables de usuarios anómalos

Knowledge Graph Creation

Formalización estructural

Transformación de datos sociales heterogéneos (JSON, CSV, tablas) en modelo RDF

RML (RDF Mapping Language)

Permite declarar reglas genéricas para convertir estructuras arbitrarias en grafos RDF

Triple maps:

  • Fuente lógica de entrada
  • Mecanismo de generación del sujeto (subject map)
  • Predicados y objetos (predicate-object map)

Este proceso asegura la uniformización sintáctica y semántica de los datos

Enriquecimiento semántico e interlinking

Anotaciones semánticas

Vinculan entidades extraídas a conceptos de ontologías de dominio

Dublin Core (DC) SKOS SIOC

Vinculación a recursos externos

Relaciones de equivalencia semántica (owl:sameAs)

Freebase YAGO FOAF UMBEL Google KG

Integración de metadatos

  • Número de seguidores, retweets, favoritos
  • Valor de credibilidad por dominio
  • Polaridad de respuestas

Consolidación de una representación densa, confiable y contextual del conocimiento político

Knowledge Graph Embeddings y Evaluación

Propósito del módulo de embeddings

  • Transformación vectorial

    Entidades y relaciones en espacios vectoriales de baja dimensión

  • Facilitación de tareas

    Predicción de enlaces, clustering y resolución de entidades

  • Optimización neuronal

    Sustitución de representaciones simbólicas por estructuras matemáticas

Modelos implementados

TransE

DistMult

ComplEx

HolE

ConvE

ConvKB

Evaluación del rendimiento

Métricas utilizadas para evaluar modelos en experimento de link prediction

MRR

Mean Reciprocal Rank

MR

Mean Rank

Hits@N

Precisión en top N

F1-Score

Métrica combinada

Estas métricas permiten validar la efectividad semántica y relacional de los embeddings en la estructura inferida del grafo político

Resultados – Link Prediction

Contexto del experimento

  • Evaluación de capacidad para identificar veracidad de hechos políticos no vistos
  • Conjunto de 1.000 triples etiquetados (hechos verdaderos y falsos sintéticos)
  • Tarea: distinguir enunciados plausibles de no plausibles

Evaluación comparativa

Modelos evaluados:

TransE DistMult ComplEx HolE ConvE ConvKB

Resultados destacados

ConvE - Mejor rendimiento

74.4%

Accuracy

83.2%

Precision

77.2%

Recall

80.1%

F1-Score

Identificó correctamente el 51.4% de hechos verdaderos

Clasificó correctamente el 23% de hechos falsos

HolE

Performance robusta al capturar relaciones asimétricas mediante correlación circular

Limitaciones observadas

  • TransE: no maneja relaciones multivaluadas (1-N, N-1)
  • DistMult: falla en relaciones no simétricas
  • ComplEx: rendimiento comparable a TransE y DistMult

Las propiedades algebraicas de cada modelo inciden directamente en su capacidad para capturar patrones relacionales complejos del grafo político

Comparación de desempeño entre modelos de embeddings en la tarea de predicción de enlaces

Resultados Link Prediction

Resultados de accuracy, precision, recall y f1-score para cada modelo de embeddings. ConvE destaca como el modelo con mejor desempeño general en la tarea de predicción de hechos políticos plausibles dentro del KG.

Resultados – KGE: Clustering y Visualización

Metodología de Agrupamiento sobre Embeddings

Configuración:

  • Embeddings generados con dimensión estándar k=100
  • Reducción dimensional a 2D (proyección) para evaluación visual

Algoritmos evaluados:

AffinityPropagation AgglomerativeClustering Birch DBSCAN FeatureAgglomeration KMeans

KMeans seleccionado por su mayor coherencia semántica en la agrupación de entidades políticas

Visualización en TensorBoard (PCA 3D)

Técnica:

PCA Principal Component Analysis para reducción a 3 dimensiones

Implementación:

TensorBoard Visualización interactiva de embeddings

Evaluación:

Evaluación subjetiva de coherencia semántica entre embeddings

Agrupamiento Semántico de Entidades — Proyección 2D

Cluster KMeans
  • Proyección de embeddings de entidades en espacio 2D mediante el algoritmo KMeans
  • Identificación de agrupaciones coherentes semánticamente (ej. miembros del mismo partido político)
  • Integración de usuarios no institucionales según comportamiento discursivo (ej. @wheels002)
  • Evaluación cualitativa de la fidelidad semántica del embedding

Exploración Espacial del KG Embedding — Proyección 3D

Cluster 3D

Visualización tridimensional de embeddings mediante PCA, mostrando relaciones semánticas entre entidades políticas en el espacio vectorial.

Credibility-based Domain-specific KGE Framework: Consideraciones Finales

Resumen Conceptual

El marco propuesto introduce una arquitectura robusta para la generación de Knowledge Graph Embeddings (KGE) dominiales, anclada en criterios de credibilidad social.

Esta aproximación busca resolver las limitaciones inherentes a los KGs extraídos desde entornos digitales abiertos mediante:

  • Integración explícita de módulos para inferencia ontológica
  • Verificación de confiabilidad de usuarios
  • Enriquecimiento semántico a través de interlinking RDF

El framework permite construir representaciones de conocimiento político confiables y semánticamente enriquecidas desde fuentes sociales heterogéneas.

Líneas Futuras

Nuevos modelos de embedding

Incorporar modelos más expresivos y adaptativos

Ampliar granularidad semántica

Profundizar en polarización, posicionamiento ideológico y estilos retóricos

Factor temporal

Integrar dimensión temporal en modelización de credibilidad dinámica

Análisis afectivo

Potenciar sentiment analysis en inferencia de entidades y relaciones

Contribución final

Este marco sienta las bases para la construcción de KGs específicos de dominio que integren credibilidad como base epistémica para la incorporación de conocimiento social. Al formalizar entidades, relaciones y usuarios verificados mediante ontologías extendidas y análisis semántico, se fortalece la trazabilidad, reutilización y robustez de los grafos construidos. El resultado es una arquitectura orientada a aplicaciones de análisis político, descubrimiento de conocimiento y evaluación dinámica de fuentes en contextos altamente volátiles como las redes sociales.

Logo MDS

Gracias!