IMIST


Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe / (notice n° 57987)

000 -LEADER
fixed length control field 04895nam a2200457 i 4500
003 - CONTROL NUMBER IDENTIFIER
control field IMIST
005 - DATE AND TIME OF LATEST TRANSACTION
control field 20230510164526.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 220912s2015 mr m 000 0 fre
040 ## - CATALOGING SOURCE
Original cataloging agency IMIST
Language of cataloging fre
Transcribing agency IMIST
Description conventions rda
041 ## - LANGUAGE CODE
Language code of text/sound track or separate title fr
044 ## - COUNTRY OF PUBLISHING/PRODUCING ENTITY CODE
MARC country code MA
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number 005.74
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number 006.3
100 1# - MAIN ENTRY--PERSONAL NAME
Personal name Hadni, Meryeme
9 (RLIN) 210548
Relator term Auteur
245 10 - TITLE STATEMENT
Title Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe /
Statement of responsibility, etc Meryeme Hadni
260 ## - PUBLICATION, DISTRIBUTION, ETC. (IMPRINT)
Place of publication, distribution, etc Fés
Name of publisher, distributor, etc Université Sidi Mohamed Ben Abdellah
Date of publication, distribution, etc 2015
264 #0 - Production, Publication, Distribution, Manufacture, and Copyright Notice
Place of production, publication, distribution, manufacture Fés :
Name of producer, publisher, distributor, manufacturer Université Sidi Mohammed Ben Abdellah - Fès
Date of production, publication, distribution, manufacture, or copyright notice 2015
300 ## - PHYSICAL DESCRIPTION
Extent 144 pages
336 ## - CONTENT TYPE
Source rdacontent
Content Type Term text
Content Type Code txt
337 ## - MEDIA TYPE
Source rdamedia
Media Type Term unmediated
Media Type Code n
338 ## - CARRIER TYPE
Source rdacarrier
Carrier Type Term volume
Carrier Type Code nc
500 ## - GENERAL NOTE
General note Meknassi, Mohammed (Président)||El Alaoui Ouatik, Said (Directeur de thèse)||Lachkar, Abdelmonaime (Co-Directeur)||Hamdani, Abdelfettah (Rapporteur)||Ouhbi, Brahim (Rapporteur)||Behja, Hicham (Rapporteur)||Frikh, Bouchra (Examinateur)||Zidani Alaoui, Khalid (Examinateur)
502 ## - DISSERTATION NOTE
Degree type PH.D -
Name of granting institution Université Sidi Mohammed Ben Abdellah - Fès
Year degree granted 2015
520 ## - SUMMARY, ETC.
Summary, etc La grande quantité d’information textuelle en langue arabe disponible sur le web a permis l’expansion et le développement des applications de Traitement Automatique des Langues Naturelles (TALN) et de Fouille de Textes (FdT) telle que la Recherche d’Information, la Catégorisation des documents, etc. La langue arabe présente de nombreux défis, pour de telles applications, compte tenu de sa riche et complexe morphologie qui génère beaucoup d’ambigüités et d’irrégularités. Dans ce travail de thèse, nous avons abordé plusieurs problé- matiques liées au prétraitement et à la représentation des documents textes en langue arabe. En ce qui concerne le prétraitement, au niveau morphologique, nous avons proposé une nouvelle méthode de racinisation pour les mots arabes. Cette méthode permet d’identifier la racine d’un mot selon des règles linguistiques appuyées par des méthodes statistiques. Notre technique est inspirée de trois approches, les plus connues dans la littérature : l’approche basée racine, la lemmatisation assouplie et l’approche statistique "N-Gram". Dans le même processus de prétraitement, et afin de pallier le problème d’ambigüité morphosyntaxique, nous avons amélioré la perfor- mance d’une méthode d’étiquetage à base de règles. Notre méthode repose sur une approche statistique pour identifier avec plus de pertinence la catégorie grammaticale des mots arabes contenus dans les documents du corpus. Au niveau de la représentation des textes, notre première contribution consiste à représenter les documents du corpus par des termes composés (TC) au lieu des termes simples. Cela s’explique par le fait que les termes simples isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Notre méthode hybride permet l’extraction de termes composés en langue arabe, en combinant des propriétés lin- guistiques et des modèles statistiques. Le filtre linguistique se base sur notre étiqueteur morphosyntaxique, un ensemble de patrons syntaxiques et la prise en compte des variations pour l’identification des séquences de TC. Le modèle statistique s’appuie à la fois sur l’information contextuelle et les deux mesures Termhood et Uni- thood. Dans la même optique, dans le but d’améliorer davantage la pertinence de la représentation en "sac de mots", nous avons intégré l’aspect sémantique. Cette deuxième solution consiste en la représentation concep- tuelle des documents et se base principalement sur les ressources sémantiques Arabic WordNet et WordNet. De plus, une stratégie de désambigüisation sémantique est proposée pour attribuer le concept le plus approprié aux termes ambigus. Enfin, les représentations en "sac de mots" et en "sac de concepts" ont été intégrées et évaluées dans notre système de catégorisation des documents textes arabes. Les résultats obtenus concernant nos contri- butions montrent l’intérêt de notre propos.
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term Etiquetage morphosyntaxique
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term Lemmatisation
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term TAL arabe
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term Terme composé
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term WordNet
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term Arabic WordNet
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term fouille de texte
653 1# - INDEX TERM--UNCONTROLLED
Uncontrolled term informatique
700 1# - MEMBRES DE JURY
Personal name El Alaoui Ouatik, Said
9 (RLIN) 210549
Relator term Directeur de thèse
700 1# - MEMBRES DE JURY
Personal name Hamdani, Abdelfettah
9 (RLIN) 210550
700 1# - MEMBRES DE JURY
Personal name Lachkar, Abdelmonaime
9 (RLIN) 210551
Relator term Directeur de thèse
700 1# - MEMBRES DE JURY
Personal name Meknassi, Mohammed
9 (RLIN) 210552
Relator term Collaborateur
700 1# - MEMBRES DE JURY
Personal name Ouhbi, Brahim
9 (RLIN) 210553
710 2# - ADDED ENTRY--CORPORATE NAME
Université Université Sidi Mohammed Ben Abdellah - Fès
Faculté Faculté des sciences
Relator term Directeur de production
856 4# - ELECTRONIC LOCATION AND ACCESS
Uniform Resource Identifier <a href="http://toubkal.imist.ma/handle/123456789/11458">http://toubkal.imist.ma/handle/123456789/11458</a>
Link text Voir dans Toubkal
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme
Koha item type Thèse universitaire
Exemplaires
Withdrawn status Lost status Source of classification or shelving scheme Damaged status Not for loan Permanent Location Current Location Date acquired Inventory number Total Checkouts Full call number Barcode Date last seen Price effective from Koha item type
          La bibliothèque des sciences de l'ingénieur La bibliothèque des sciences de l'ingénieur 05/10/2023 TH1005/2018   TH-005.74 HAD 0000000036559 05/10/2023 05/10/2023 Thèse universitaire
© Tous droits résérvés IMIST/CNRST
Angle Av. Allal Al Fassi et Av. des FAR, Hay Ryad, BP 8027, 10102 Rabat, Maroc
Tél:(+212) 05 37.56.98.00
CNRST / IMIST

Propulsé par Koha