Dans cet article, nous nous interessons a la translitteration des noms arabes de leur ecriture originale vers l'ecriture latine. Ce type de technique est necessaire pour la recherche d'information interlingue afin de renvoyer des... more
Dans cet article, nous nous interessons a la translitteration des noms arabes de leur ecriture originale vers l'ecriture latine. Ce type de technique est necessaire pour la recherche d'information interlingue afin de renvoyer des resultats pertinents. Le principe de notre approche est de proposer toutes les variantes orthographiques d'un nom arabe et non pas la meilleure solution. Nous avons montre l'interet de notre approche par une serie d'experimentations et en comptant a chaque fois le nombre de (...)
Research Interests:
Algerian Arabic is an Arabic dialect spoken in Algeria characterized by the absence of writing resources and standardization, hence it is considered as an under-resourced language. It differs from Modern... more
Algerian Arabic is an Arabic dialect spoken in Algeria characterized by the absence of writing resources and standardization, hence it is considered as an under-resourced language. It differs from Modern Standard Ara-
bic on all levels of linguistic representation, from phonology and morphology to lexicon and syntax. In this paper, we present a conventional orthography for Algerian Arabic, following a previous effort on developing a conventional orthography for Dialectal Arabic (or CODA), demonstrated for Egyptian and Tunisian Arabic. We explain the design principles of Algerian CODA and provide a detailed description of its guidelines.
bic on all levels of linguistic representation, from phonology and morphology to lexicon and syntax. In this paper, we present a conventional orthography for Algerian Arabic, following a previous effort on developing a conventional orthography for Dialectal Arabic (or CODA), demonstrated for Egyptian and Tunisian Arabic. We explain the design principles of Algerian CODA and provide a detailed description of its guidelines.
Research Interests:
Dans cet article, nous nous intéressons à la translittération des noms arabes de leur écriture originale vers l'écriture latine. Ce type de technique est nécessaire pour la recherche d'information interlingue afin de renvoyer des... more
Dans cet article, nous nous intéressons à la translittération des noms arabes de leur écriture originale vers l'écriture latine. Ce type de technique est nécessaire pour la recherche d'information interlingue afin de renvoyer des résultats pertinents. Le principe de notre approche est de proposer toutes les variantes orthographiques d'un nom arabe et non pas la meilleure solution. Nous avons montré l’intérêt de
notre approche par une série d’expérimentations et en comptant à chaque fois le nombre de résultats obtenues par des moteurs de recherche après la transcription via notre technique.
notre approche par une série d’expérimentations et en comptant à chaque fois le nombre de résultats obtenues par des moteurs de recherche après la transcription via notre technique.
Bilingual lexicons of proper names play a vital role in machine translation and cross-language information retrieval. Word alignment approaches are generally used to construct bilingual lexicons automatically from parallel corpora.... more
Bilingual lexicons of proper names play a vital role in machine translation and cross-language information retrieval. Word alignment approaches are generally used to construct bilingual
lexicons automatically from parallel corpora.
Aligning proper names is a task particularly difficult when the source and target languages of the parallel corpus do not share a same written script. We present in this paper a system to transliterate automatically proper names from Arabic to Latin script, and a tool to align single and compound words from English-Arabic parallel texts. We particularly focus on the impact of using transliteration to improve the performance of the word alignment tool. We have evaluated the word alignment tool integrating transliteration of proper names from Arabic to Latin script using two methods: A manual evaluation of the alignment quality and an evaluation of the impact of this alignment on the translation quality by using the open source statistical machine translation system Moses. Experiments show that integrating transliteration of proper names into the alignment process improves the Fmeasure
of word alignment from 72% to 81% and the translation BLEU score from 20.15% to 20.63%.
lexicons automatically from parallel corpora.
Aligning proper names is a task particularly difficult when the source and target languages of the parallel corpus do not share a same written script. We present in this paper a system to transliterate automatically proper names from Arabic to Latin script, and a tool to align single and compound words from English-Arabic parallel texts. We particularly focus on the impact of using transliteration to improve the performance of the word alignment tool. We have evaluated the word alignment tool integrating transliteration of proper names from Arabic to Latin script using two methods: A manual evaluation of the alignment quality and an evaluation of the impact of this alignment on the translation quality by using the open source statistical machine translation system Moses. Experiments show that integrating transliteration of proper names into the alignment process improves the Fmeasure
of word alignment from 72% to 81% and the translation BLEU score from 20.15% to 20.63%.
Nous présentons dans cet article un système d'extraction de connaissances en arabe, fondé sur une analyse morphosyntaxique profonde. Ce système reconnaît les mots simples, les expressions idiomatiques, les mots composés et les entités... more
Nous présentons dans cet article un système d'extraction de connaissances en arabe, fondé sur une analyse morphosyntaxique profonde. Ce système reconnaît les mots simples, les expressions idiomatiques, les mots composés et les entités nommées. L'analyse identifie aussi les relations syntaxiques de dépendance et traite les formes passives et actives. L’extraction des connaissances est propre à l’application et utilise des règles d’extraction sémantiques qui s'appuient sur le résultat de l'analyse morphosyntaxique. A ce niveau, le type de certaines entités nommées peut être révisé. L'extraction se base, dans nos expérimentations, sur une ontologie dans le domaine de la sécurité. Le RDF (Resource Description Framework) produit est ensuite traité pour regrouper les informations qui concernent un même événement ou une même entité nommée. Les informations ainsi extraites peuvent alors aider à appréhender les informations contenues dans un ensemble de textes, alimenter une base de connaissances, ou bien servir à des outils de veille.