Tesis doctoral en la red
Autor/ra:Varela Vila, Tamara
Fecha de lectura o defensa:23 de noviembre de 2015
Título de la tesis:Ontoloxías e tradución biomédica: creación dunha base de coñecemento terminolóxico sobre os erros innatos do metabolismo en francés e español
Director/a de la tesis:Elena Sánchez Trigo
Universidad:Universidad de Vigo
Departamento:Departamento de Tradución e Lingüística
País:España
Descripción de la tesisLa presente tesis doctoral parte de la constatación de que existe la necesidad de crear recursos terminológicos avanzados que faciliten el trabajo de los traductores especializados y mejoren los resultados obtenidos en el proceso de documentación en el ámbito de las enfermedades raras (ER) y, más concretamente, en el grupo de los errores innatos del metabolismo (EIM). Se propone, por lo tanto, la creación de un recurso terminológico en el que se explicite la estructura conceptual de este ámbito, de manera que el proceso de recuperación de la información almacenada pueda hacerse tanto de forma semasiológica como onomasiológica.
De este modo, este trabajo tiene dos objetivos principales: por un lado, crear una base de conocimiento terminológico en francés y español sobre los EIM combinando la metodología de la lingüística de corpus y las herramientas propias de la ingeniería del conocimiento (en concreto, las ontologías); y, por otro, proponer un modelo para la elaboración de una base de conocimiento terminológico que pueda ampliarse progresivamente para abarcar el ámbito de las ER en su totalidad, así como otros ámbitos de la biomedicina.
En el primer capítulo, se realiza una revisión de los principios teóricos que guiaron la realización de esta tesis. Se proporciona una visión general de la terminología como disciplina, así como de las teorías terminológicas imperantes en la actualidad. Del mismo modo, se abordan los métodos más recientes para realizar el trabajo terminográfico, esto es, la terminografía basada en corpus y la terminografía basada en la representación del conocimiento. Por último, se efectúa una caracterización del lenguaje y de la terminología biomédicos.
El segundo capítulo, se subdivide en dos bloques. El primero describe los materiales utilizados para la realización de esta tesis, especialmente el corpus EMCOR (corpus de enfermedades metabólicas), un corpus comparable en francés y español compilado para representar el campo de los EIM. Asimismo, se describen los recursos informáticos utilizados para llevar a cabo este trabajo (el programa de etiquetado TreeTagger, el programa de análisis de corpus textuales WordSmith Tools, el editor de ontologías Protégé, etc.) En el segundo bloque, dedicado a la metodología, se describe el proceso de documentación, anotación y etiquetado del corpus EMCOR, así como los distintos pasos seguidos para extraer información conceptual y terminológica de este. Por último, se presenta el proceso de organización conceptual de este ámbito y las dificultades encontradas durante el mismo.
El tercer capítulo, se centra en los resultados de esta tesis doctoral. En él, se detallan las distintas etapas seguidas para crear la ontología sobre el subdominio médico de los EIM y para su consulta en línea. Asimismo, se describe la interfaz de consulta de la base de conocimiento creada, que se denomina ONTERMET. Por último, se realiza un análisis terminológico del campo de los EIM, que permite obtener una visión de conjunto de la terminología propia de este ámbito.
La base de conocimiento terminológico fruto de este trabajo, ONTERMET, puede consultarse gratuitamente en http://www.ontermet.com . Su creación permitió evaluar la utilidad de las ontologías en el desarrollo de este tipo de recursos terminológicos de base conceptual y estudiar las distintas opciones de representación, consulta y visualización del conocimiento recogido, con la finalidad de poder ampliar este recurso en el futuro a todo el campo de las ER. El interés de ONTERMET no solo radica en la novedad que supone el uso de ontologías en la creación de recursos terminológicos, sino también en la actualidad social del subdominio médico que describe y en las lenguas representadas, pues tanto el francés como el español necesitan disponer de más recursos especializados.
De este modo, este trabajo tiene dos objetivos principales: por un lado, crear una base de conocimiento terminológico en francés y español sobre los EIM combinando la metodología de la lingüística de corpus y las herramientas propias de la ingeniería del conocimiento (en concreto, las ontologías); y, por otro, proponer un modelo para la elaboración de una base de conocimiento terminológico que pueda ampliarse progresivamente para abarcar el ámbito de las ER en su totalidad, así como otros ámbitos de la biomedicina.
En el primer capítulo, se realiza una revisión de los principios teóricos que guiaron la realización de esta tesis. Se proporciona una visión general de la terminología como disciplina, así como de las teorías terminológicas imperantes en la actualidad. Del mismo modo, se abordan los métodos más recientes para realizar el trabajo terminográfico, esto es, la terminografía basada en corpus y la terminografía basada en la representación del conocimiento. Por último, se efectúa una caracterización del lenguaje y de la terminología biomédicos.
El segundo capítulo, se subdivide en dos bloques. El primero describe los materiales utilizados para la realización de esta tesis, especialmente el corpus EMCOR (corpus de enfermedades metabólicas), un corpus comparable en francés y español compilado para representar el campo de los EIM. Asimismo, se describen los recursos informáticos utilizados para llevar a cabo este trabajo (el programa de etiquetado TreeTagger, el programa de análisis de corpus textuales WordSmith Tools, el editor de ontologías Protégé, etc.) En el segundo bloque, dedicado a la metodología, se describe el proceso de documentación, anotación y etiquetado del corpus EMCOR, así como los distintos pasos seguidos para extraer información conceptual y terminológica de este. Por último, se presenta el proceso de organización conceptual de este ámbito y las dificultades encontradas durante el mismo.
El tercer capítulo, se centra en los resultados de esta tesis doctoral. En él, se detallan las distintas etapas seguidas para crear la ontología sobre el subdominio médico de los EIM y para su consulta en línea. Asimismo, se describe la interfaz de consulta de la base de conocimiento creada, que se denomina ONTERMET. Por último, se realiza un análisis terminológico del campo de los EIM, que permite obtener una visión de conjunto de la terminología propia de este ámbito.
La base de conocimiento terminológico fruto de este trabajo, ONTERMET, puede consultarse gratuitamente en http://www.ontermet.com . Su creación permitió evaluar la utilidad de las ontologías en el desarrollo de este tipo de recursos terminológicos de base conceptual y estudiar las distintas opciones de representación, consulta y visualización del conocimiento recogido, con la finalidad de poder ampliar este recurso en el futuro a todo el campo de las ER. El interés de ONTERMET no solo radica en la novedad que supone el uso de ontologías en la creación de recursos terminológicos, sino también en la actualidad social del subdominio médico que describe y en las lenguas representadas, pues tanto el francés como el español necesitan disponer de más recursos especializados.
Área temática:Lexicografía, Lexicología, Lingüística de corpus, Terminología, Traducción
ÍndiceINTRODUCIÓN
HIPÓTESES DE TRABALLO E OBXECTIVOS
ASPECTOS METODOLÓXICOS
ESTRUTURA DA TESE
CONVENCIÓNS DA ESCRITURA UTILIZADAS
CAPÍTULO I: MARCO TEÓRICO
1.1. TERMINOLOXÍA
1.1.1. Da preocupación sobre os termos ao nacemento como disciplina
1.1.2. Cara a unha teoría da terminoloxía máis integradora: novas aproximacións
1.1.2.1. A socioterminoloxía
1.1.2.2. Teoría comunicativa da terminoloxía
1.1.2.3. Teoría sociocognitiva da terminoloxía
1.1.2.4. Terminoloxía baseada en marcos
1.2. TERMINOGRAFÍA: ASPECTOS FUNDAMENTAIS DA XESTIÓN DOS TERMOS
1.2.1. Terminografía baseada en corpus
1.2.1.1. Historia da lingüística de corpus
1.2.1.2. Lingüística de corpus: metodoloxía ou teoría?
1.2.1.3. Corpus: definición e tipoloxía
a) Os corpus ad hoc
1.2.1.4. Corpus: criterios de compilación
1.2.1.5. Dous enfoques no traballo con corpus: corpus-driven e corpus-based
1.2.2. Terminografía baseada na representación do coñecemento
1.2.2.1. Achegamento ao concepto de coñecemento
1.2.2.2. A extracción do coñecemento
a) Enfoque top-down
b) Enfoque bottom-up
1.2.2.3. A representación do coñecemento: definición e métodos
1.2.3. Terminografía e enxeñaría do coñecemento
1.2.3.1. Redes semánticas: redes é_un, grafos conceptuais e redes de marcos
1.2.3.2. Ontoloxías: da filosofía á terminografía
a) Características das ontoloxías
b) Tipoloxía de ontoloxías
1.2.3.3. Principais técnicas de modelaxe de ontoloxías
a) Marcos e lóxica de primeira orde
b) Lóxica descritiva
1.2.3.4. Principais linguaxes para construír ontoloxías
a) Linguaxes ontolóxicas orientadas á web
b) OWL
1.2.3.5. Sistemas de representación do coñecemento no ámbito biomédico
a) Sistemas de clasificación e organización terminolóxica no ámbito biomédico
a.1) UMLS
a.2) MeSH
a.3) MedDRA
a.4) CIE
a.5) OMIM
a.6) Orphanet
b) Sistemas ontolóxicos no ámbito biomédico
b.1) GALEN
b.2) SNOMED CT
b.3) Disease Ontology
b.4) Gene Ontology
b.5) HPO
b.6) ORDO
1.3. LINGUAXE E TERMINOLOXÍA BIOMÉDICAS: CARACTERÍSTICAS PRINCIPAIS
1.3.1. Variación terminolóxica
1.3.1.1. Eponimia
1.3.1.2. Abreviacións
1.3.2. Anglicismos
CAPÍTULO II:MATERIAIS E METODOLOXÍA
2.1.MATERIAIS
2.1.1. Corpus EMCOR: ámbito, deseño e compilación
2.1.1.1. Ámbito de estudo
a) As doenzas raras
a.1) Relevancia no campo da saúde pública
b) Os erros innatos do metabolismo
2.1.1.2. Criterios de deseño
2.1.1.3. Criterios de compilación
a) Doenzas representadas no corpus
b) Xéneros textuais representados no corpus
c) Outros criterios de compilación
2.1.1.4. Etapas do proceso de compilación
2.1.2. Aplicacións e outros recursos informáticos empregados
2.1.2.1. Programa de etiquetaxe: TreeTagger
2.1.2.2. Programa de análise de corpus textuais: WordSmith Tools
2.1.2.3. Editor de ontoloxías: Protégé
2.1.2.4. Modelo de datos: SKOS
2.1.2.5. Ontoloxía de relacións: OBO Relation Ontology
2.2.METODOLOXÍA
2.2.1. Documentación e anotación de EMCOR
2.2.2. Etiquetaxe de EMCOR
2.2.3. Extracción de información terminolóxica e conceptual do corpus EMCOR: enfermidades, síntomas e signos
2.2.3.1. Análise estatística
2.2.3.2. Análise das palabras máis frecuentes
2.2.3.3. Análise de padróns sintácticos
2.2.3.4. Análise de marcadores lingüísticos de relación conceptual
2.2.4. Organización conceptual
2.2.4.1. Organización conceptual dos EIM
2.2.4.2. Organización conceptual dos síntomas e signos
2.2.4.3. Dificultades atopadas no proceso de elaboración da organización conceptual
a) Variación denominativa e conceptual
a.1) Termos xenéricos
a.2) Termos máis específicos
b) Estranxeirismos
c) Adecuación terminolóxica
d) Termos empregados para denominar máis dun concepto na CIE-10
CAPÍTULO III: RESULTADOS
3.1. CREACIÓN DA ONTOLOXÍA SOBRE OS EIM E PROCEDEMENTOS PARA A SÚA CONSULTA EN LIÑA
3.1.1. Dificultades atopadas no proceso de creación da ontoloxía
3.1.2. Conversión da ontoloxía para a súa consulta en liña
3.2. BASE DE COÑECEMENTO TERMINOLÓXICO: ONTERMET
3.2.1. Descrición xeral da interface de consulta
3.2.2. Información conceptual e terminolóxica
3.2.3. Opcións de consulta
3.2.3.1. Navegación a través das hiperligazóns
3.2.3.2. Busca por palabra clave
3.2.3.3. Visualización do mapa conceptual
3.2.4. Datos cuantitativos relativos ao contido de ONTERMET
3.3. OUTROS RESULTADOS: ANÁLISE TERMINOLÓXICA DO CAMPO DOS EIM
3.3.1. Variación terminolóxica
3.3.1.1. Eponimia
3.3.1.2. Abreviacións
3.3.2. Anglicismos
CONCLUSIÓNS
REFERENCIAS BIBLIOGRÁFICAS
ANEXOS
ANEXO 1. TEXTOS QUE CONFORMAN O SUBCORPUS EN ESPAÑOL DE EMCOR
ANEXO 2. TEXTOS QUE CONFORMAN O SUBCORPUS EN FRANCÉS DE EMCOR
ANEXO 3. ETIQUETAS UTILIZADAS POR TREETAGGER EN ESPAÑOL
ANEXO 4. ETIQUETAS UTILIZADAS POR TREETAGGER EN FRANCÉS
ANEXO 5. TEXTO EN ESPAÑOL CON CABECEIRA XML
ANEXO 6. TEXTO EN FRANCÉS CON CABECEIRA XML
ANEXO 7. TEXTO EN ESPAÑOL ETIQUETADO CON TREETAGGER
ANEXO 8. TEXTO EN FRANCÉS ETIQUETADO CON TREETAGGER
HIPÓTESES DE TRABALLO E OBXECTIVOS
ASPECTOS METODOLÓXICOS
ESTRUTURA DA TESE
CONVENCIÓNS DA ESCRITURA UTILIZADAS
CAPÍTULO I: MARCO TEÓRICO
1.1. TERMINOLOXÍA
1.1.1. Da preocupación sobre os termos ao nacemento como disciplina
1.1.2. Cara a unha teoría da terminoloxía máis integradora: novas aproximacións
1.1.2.1. A socioterminoloxía
1.1.2.2. Teoría comunicativa da terminoloxía
1.1.2.3. Teoría sociocognitiva da terminoloxía
1.1.2.4. Terminoloxía baseada en marcos
1.2. TERMINOGRAFÍA: ASPECTOS FUNDAMENTAIS DA XESTIÓN DOS TERMOS
1.2.1. Terminografía baseada en corpus
1.2.1.1. Historia da lingüística de corpus
1.2.1.2. Lingüística de corpus: metodoloxía ou teoría?
1.2.1.3. Corpus: definición e tipoloxía
a) Os corpus ad hoc
1.2.1.4. Corpus: criterios de compilación
1.2.1.5. Dous enfoques no traballo con corpus: corpus-driven e corpus-based
1.2.2. Terminografía baseada na representación do coñecemento
1.2.2.1. Achegamento ao concepto de coñecemento
1.2.2.2. A extracción do coñecemento
a) Enfoque top-down
b) Enfoque bottom-up
1.2.2.3. A representación do coñecemento: definición e métodos
1.2.3. Terminografía e enxeñaría do coñecemento
1.2.3.1. Redes semánticas: redes é_un, grafos conceptuais e redes de marcos
1.2.3.2. Ontoloxías: da filosofía á terminografía
a) Características das ontoloxías
b) Tipoloxía de ontoloxías
1.2.3.3. Principais técnicas de modelaxe de ontoloxías
a) Marcos e lóxica de primeira orde
b) Lóxica descritiva
1.2.3.4. Principais linguaxes para construír ontoloxías
a) Linguaxes ontolóxicas orientadas á web
b) OWL
1.2.3.5. Sistemas de representación do coñecemento no ámbito biomédico
a) Sistemas de clasificación e organización terminolóxica no ámbito biomédico
a.1) UMLS
a.2) MeSH
a.3) MedDRA
a.4) CIE
a.5) OMIM
a.6) Orphanet
b) Sistemas ontolóxicos no ámbito biomédico
b.1) GALEN
b.2) SNOMED CT
b.3) Disease Ontology
b.4) Gene Ontology
b.5) HPO
b.6) ORDO
1.3. LINGUAXE E TERMINOLOXÍA BIOMÉDICAS: CARACTERÍSTICAS PRINCIPAIS
1.3.1. Variación terminolóxica
1.3.1.1. Eponimia
1.3.1.2. Abreviacións
1.3.2. Anglicismos
CAPÍTULO II:MATERIAIS E METODOLOXÍA
2.1.MATERIAIS
2.1.1. Corpus EMCOR: ámbito, deseño e compilación
2.1.1.1. Ámbito de estudo
a) As doenzas raras
a.1) Relevancia no campo da saúde pública
b) Os erros innatos do metabolismo
2.1.1.2. Criterios de deseño
2.1.1.3. Criterios de compilación
a) Doenzas representadas no corpus
b) Xéneros textuais representados no corpus
c) Outros criterios de compilación
2.1.1.4. Etapas do proceso de compilación
2.1.2. Aplicacións e outros recursos informáticos empregados
2.1.2.1. Programa de etiquetaxe: TreeTagger
2.1.2.2. Programa de análise de corpus textuais: WordSmith Tools
2.1.2.3. Editor de ontoloxías: Protégé
2.1.2.4. Modelo de datos: SKOS
2.1.2.5. Ontoloxía de relacións: OBO Relation Ontology
2.2.METODOLOXÍA
2.2.1. Documentación e anotación de EMCOR
2.2.2. Etiquetaxe de EMCOR
2.2.3. Extracción de información terminolóxica e conceptual do corpus EMCOR: enfermidades, síntomas e signos
2.2.3.1. Análise estatística
2.2.3.2. Análise das palabras máis frecuentes
2.2.3.3. Análise de padróns sintácticos
2.2.3.4. Análise de marcadores lingüísticos de relación conceptual
2.2.4. Organización conceptual
2.2.4.1. Organización conceptual dos EIM
2.2.4.2. Organización conceptual dos síntomas e signos
2.2.4.3. Dificultades atopadas no proceso de elaboración da organización conceptual
a) Variación denominativa e conceptual
a.1) Termos xenéricos
a.2) Termos máis específicos
b) Estranxeirismos
c) Adecuación terminolóxica
d) Termos empregados para denominar máis dun concepto na CIE-10
CAPÍTULO III: RESULTADOS
3.1. CREACIÓN DA ONTOLOXÍA SOBRE OS EIM E PROCEDEMENTOS PARA A SÚA CONSULTA EN LIÑA
3.1.1. Dificultades atopadas no proceso de creación da ontoloxía
3.1.2. Conversión da ontoloxía para a súa consulta en liña
3.2. BASE DE COÑECEMENTO TERMINOLÓXICO: ONTERMET
3.2.1. Descrición xeral da interface de consulta
3.2.2. Información conceptual e terminolóxica
3.2.3. Opcións de consulta
3.2.3.1. Navegación a través das hiperligazóns
3.2.3.2. Busca por palabra clave
3.2.3.3. Visualización do mapa conceptual
3.2.4. Datos cuantitativos relativos ao contido de ONTERMET
3.3. OUTROS RESULTADOS: ANÁLISE TERMINOLÓXICA DO CAMPO DOS EIM
3.3.1. Variación terminolóxica
3.3.1.1. Eponimia
3.3.1.2. Abreviacións
3.3.2. Anglicismos
CONCLUSIÓNS
REFERENCIAS BIBLIOGRÁFICAS
ANEXOS
ANEXO 1. TEXTOS QUE CONFORMAN O SUBCORPUS EN ESPAÑOL DE EMCOR
ANEXO 2. TEXTOS QUE CONFORMAN O SUBCORPUS EN FRANCÉS DE EMCOR
ANEXO 3. ETIQUETAS UTILIZADAS POR TREETAGGER EN ESPAÑOL
ANEXO 4. ETIQUETAS UTILIZADAS POR TREETAGGER EN FRANCÉS
ANEXO 5. TEXTO EN ESPAÑOL CON CABECEIRA XML
ANEXO 6. TEXTO EN FRANCÉS CON CABECEIRA XML
ANEXO 7. TEXTO EN ESPAÑOL ETIQUETADO CON TREETAGGER
ANEXO 8. TEXTO EN FRANCÉS ETIQUETADO CON TREETAGGER
Número de págs.:437
Cómo obtener la tesisContactar con la autora
Fecha de publicación en Infoling:29 de marzo de 2016
Remitente:
Tamara Varela Vila
Universidade de Vigo
<tvarelauvigo.es>
Universidade de Vigo
<tvarelauvigo.es>