Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe / (notice n° 57987)
| 000 -LEADER | |
|---|---|
| fixed length control field | 04895nam a2200457 i 4500 |
| 003 - CONTROL NUMBER IDENTIFIER | |
| control field | IMIST |
| 005 - DATE AND TIME OF LATEST TRANSACTION | |
| control field | 20230510164526.0 |
| 008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION | |
| fixed length control field | 220912s2015 mr m 000 0 fre |
| 040 ## - CATALOGING SOURCE | |
| Original cataloging agency | IMIST |
| Language of cataloging | fre |
| Transcribing agency | IMIST |
| Description conventions | rda |
| 041 ## - LANGUAGE CODE | |
| Language code of text/sound track or separate title | fr |
| 044 ## - COUNTRY OF PUBLISHING/PRODUCING ENTITY CODE | |
| MARC country code | MA |
| 082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER | |
| Classification number | 005.74 |
| 082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER | |
| Classification number | 006.3 |
| 100 1# - MAIN ENTRY--PERSONAL NAME | |
| Personal name | Hadni, Meryeme |
| 9 (RLIN) | 210548 |
| Relator term | Auteur |
| 245 10 - TITLE STATEMENT | |
| Title | Contributions au prétraitement et à la représentation des documents pour l'amélioration des applications de fouilles de textes en langue arabe / |
| Statement of responsibility, etc | Meryeme Hadni |
| 260 ## - PUBLICATION, DISTRIBUTION, ETC. (IMPRINT) | |
| Place of publication, distribution, etc | Fés |
| Name of publisher, distributor, etc | Université Sidi Mohamed Ben Abdellah |
| Date of publication, distribution, etc | 2015 |
| 264 #0 - Production, Publication, Distribution, Manufacture, and Copyright Notice | |
| Place of production, publication, distribution, manufacture | Fés : |
| Name of producer, publisher, distributor, manufacturer | Université Sidi Mohammed Ben Abdellah - Fès |
| Date of production, publication, distribution, manufacture, or copyright notice | 2015 |
| 300 ## - PHYSICAL DESCRIPTION | |
| Extent | 144 pages |
| 336 ## - CONTENT TYPE | |
| Source | rdacontent |
| Content Type Term | text |
| Content Type Code | txt |
| 337 ## - MEDIA TYPE | |
| Source | rdamedia |
| Media Type Term | unmediated |
| Media Type Code | n |
| 338 ## - CARRIER TYPE | |
| Source | rdacarrier |
| Carrier Type Term | volume |
| Carrier Type Code | nc |
| 500 ## - GENERAL NOTE | |
| General note | Meknassi, Mohammed (Président)||El Alaoui Ouatik, Said (Directeur de thèse)||Lachkar, Abdelmonaime (Co-Directeur)||Hamdani, Abdelfettah (Rapporteur)||Ouhbi, Brahim (Rapporteur)||Behja, Hicham (Rapporteur)||Frikh, Bouchra (Examinateur)||Zidani Alaoui, Khalid (Examinateur) |
| 502 ## - DISSERTATION NOTE | |
| Degree type | PH.D - |
| Name of granting institution | Université Sidi Mohammed Ben Abdellah - Fès |
| Year degree granted | 2015 |
| 520 ## - SUMMARY, ETC. | |
| Summary, etc | La grande quantité d’information textuelle en langue arabe disponible sur le web a permis l’expansion et le développement des applications de Traitement Automatique des Langues Naturelles (TALN) et de Fouille de Textes (FdT) telle que la Recherche d’Information, la Catégorisation des documents, etc. La langue arabe présente de nombreux défis, pour de telles applications, compte tenu de sa riche et complexe morphologie qui génère beaucoup d’ambigüités et d’irrégularités. Dans ce travail de thèse, nous avons abordé plusieurs problé- matiques liées au prétraitement et à la représentation des documents textes en langue arabe. En ce qui concerne le prétraitement, au niveau morphologique, nous avons proposé une nouvelle méthode de racinisation pour les mots arabes. Cette méthode permet d’identifier la racine d’un mot selon des règles linguistiques appuyées par des méthodes statistiques. Notre technique est inspirée de trois approches, les plus connues dans la littérature : l’approche basée racine, la lemmatisation assouplie et l’approche statistique "N-Gram". Dans le même processus de prétraitement, et afin de pallier le problème d’ambigüité morphosyntaxique, nous avons amélioré la perfor- mance d’une méthode d’étiquetage à base de règles. Notre méthode repose sur une approche statistique pour identifier avec plus de pertinence la catégorie grammaticale des mots arabes contenus dans les documents du corpus. Au niveau de la représentation des textes, notre première contribution consiste à représenter les documents du corpus par des termes composés (TC) au lieu des termes simples. Cela s’explique par le fait que les termes simples isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Notre méthode hybride permet l’extraction de termes composés en langue arabe, en combinant des propriétés lin- guistiques et des modèles statistiques. Le filtre linguistique se base sur notre étiqueteur morphosyntaxique, un ensemble de patrons syntaxiques et la prise en compte des variations pour l’identification des séquences de TC. Le modèle statistique s’appuie à la fois sur l’information contextuelle et les deux mesures Termhood et Uni- thood. Dans la même optique, dans le but d’améliorer davantage la pertinence de la représentation en "sac de mots", nous avons intégré l’aspect sémantique. Cette deuxième solution consiste en la représentation concep- tuelle des documents et se base principalement sur les ressources sémantiques Arabic WordNet et WordNet. De plus, une stratégie de désambigüisation sémantique est proposée pour attribuer le concept le plus approprié aux termes ambigus. Enfin, les représentations en "sac de mots" et en "sac de concepts" ont été intégrées et évaluées dans notre système de catégorisation des documents textes arabes. Les résultats obtenus concernant nos contri- butions montrent l’intérêt de notre propos. |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Etiquetage morphosyntaxique |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Lemmatisation |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | TAL arabe |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Terme composé |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | WordNet |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Arabic WordNet |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | fouille de texte |
| 653 1# - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | informatique |
| 700 1# - MEMBRES DE JURY | |
| Personal name | El Alaoui Ouatik, Said |
| 9 (RLIN) | 210549 |
| Relator term | Directeur de thèse |
| 700 1# - MEMBRES DE JURY | |
| Personal name | Hamdani, Abdelfettah |
| 9 (RLIN) | 210550 |
| 700 1# - MEMBRES DE JURY | |
| Personal name | Lachkar, Abdelmonaime |
| 9 (RLIN) | 210551 |
| Relator term | Directeur de thèse |
| 700 1# - MEMBRES DE JURY | |
| Personal name | Meknassi, Mohammed |
| 9 (RLIN) | 210552 |
| Relator term | Collaborateur |
| 700 1# - MEMBRES DE JURY | |
| Personal name | Ouhbi, Brahim |
| 9 (RLIN) | 210553 |
| 710 2# - ADDED ENTRY--CORPORATE NAME | |
| Université | Université Sidi Mohammed Ben Abdellah - Fès |
| Faculté | Faculté des sciences |
| Relator term | Directeur de production |
| 856 4# - ELECTRONIC LOCATION AND ACCESS | |
| Uniform Resource Identifier | <a href="http://toubkal.imist.ma/handle/123456789/11458">http://toubkal.imist.ma/handle/123456789/11458</a> |
| Link text | Voir dans Toubkal |
| 942 ## - ADDED ENTRY ELEMENTS (KOHA) | |
| Source of classification or shelving scheme | |
| Koha item type | Thèse universitaire |
| Withdrawn status | Lost status | Source of classification or shelving scheme | Damaged status | Not for loan | Permanent Location | Current Location | Date acquired | Inventory number | Total Checkouts | Full call number | Barcode | Date last seen | Price effective from | Koha item type |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| La bibliothèque des sciences de l'ingénieur | La bibliothèque des sciences de l'ingénieur | 05/10/2023 | TH1005/2018 | TH-005.74 HAD | 0000000036559 | 05/10/2023 | 05/10/2023 | Thèse universitaire |
