Contributions to the Improvement of Automatic Summarization of Arabic Texts (notice n° 53414)
| 000 -LEADER | |
|---|---|
| fixed length control field | 04648nam a22004337a 4500 |
| 003 - CONTROL NUMBER IDENTIFIER | |
| control field | IMIST |
| 005 - DATE AND TIME OF LATEST TRANSACTION | |
| control field | 20210414121407.0 |
| 008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION | |
| fixed length control field | 210414b ||||| |||| 00| 0 eng d |
| 040 ## - CATALOGING SOURCE | |
| Original cataloging agency | IMIST |
| Language of cataloging | fre |
| Transcribing agency | IMIST |
| Description conventions | rda |
| 044 ## - COUNTRY OF PUBLISHING/PRODUCING ENTITY CODE | |
| MARC country code | MA |
| 082 ## - DEWEY DECIMAL CLASSIFICATION NUMBER | |
| Edition number | 22 |
| Classification number | 006.32 |
| 100 ## - MAIN ENTRY--PERSONAL NAME | |
| Personal name | Alami, Nabil |
| 9 (RLIN) | 34011 |
| 245 ## - TITLE STATEMENT | |
| Title | Contributions to the Improvement of Automatic Summarization of Arabic Texts |
| Statement of responsibility, etc | Nabil Alami |
| 260 ## - PUBLICATION, DISTRIBUTION, ETC. (IMPRINT) | |
| Place of publication, distribution, etc | Fès |
| Name of publisher, distributor, etc | Université Sidi Mohammed Ben Abdellah |
| Date of publication, distribution, etc | 2018 |
| 336 ## - CONTENT TYPE | |
| Source | rdacontent |
| Content Type Term | text |
| Content Type Code | txt |
| 337 ## - MEDIA TYPE | |
| Source | rdamedia |
| Media Type Term | unmediated |
| Media Type Code | n |
| 338 ## - CARRIER TYPE | |
| Source | rdacarrier |
| Carrier Type Term | volume |
| Carrier Type Code | nc |
| 502 ## - DISSERTATION NOTE | |
| Degree type | PH.D |
| 520 ## - SUMMARY, ETC. | |
| Summary, etc | Ce travail de thèse s’inscrit dans le cadre du résumé automatique des textes en langue Arabe (RAT). Nous nous sommes particulièrement intéressés à l’amélioration des méthodes extractives en s'appuyant sur des approches statistique, sémantique et d'apprentissage automatique. Dans un premier temps, nous présentons un état de l’art concernant les principales méthodes de RAT et notamment celles dédiées à la langue Arabe. Ensuite, nous décrivons quatre contributions permettant d'améliorer la performance des méthodes existantes. Dans la première contribution, nous proposons une nouvelle méthode de RAT modélisant le texte sous forme de graphe bidimensionnel dont les nœuds représentent les phrases du texte et les arcs sont étiquetés par des scores statistique et sémantique relatifs au degré de similarité entre chaque paire de phrases. De plus, nous avons intégré un algorithme d'élimination de la redondance et une phase préalable de prétraitement (stemming) permettant d'améliorer davantage la performance de la méthode proposée. Dans la deuxième contribution, nous proposons une méthode de RAT basée sur l’apprentissage profond. Elle consiste à utiliser le variational autoencoder (VAE) en tant que technique d'apprentissage non supervisée des caractéristiques afin de générer, pour chaque phrase, une représentation abstraite. Celle-ci est exploitée pour classer les phrases du texte selon la similarité par rapport à une requête et par la suite extraire celles les plus pertinentes. Une autre alternative proposée consiste à intégrer cette représentation dans le calcul de la similarité entre chaque paire de phrases en adoptant le modèle de graphe précédent (sans l'usage de la requête utilisateur). Cette méthode permet, d'une part, la réduction de la dimensionnalité, et d'autre part, l'amélioration du processus d'extraction des phrases pertinentes. Dans notre troisième contribution, nous adoptons la représentation distribuée des mots (Word2vec) comme entrée pour l’entrainement de plusieurs modèles de réseaux de neurones non supervisés. Les nouvelles représentations obtenues des phrases sont utilisées pour calculer la similarité entre les paires des phrases pour construire le graphe précédent. Nous proposons également des modèles d’apprentissage ensembliste pour améliorer la qualité des RAT Arabe. Enfin, notre quatrième contribution consiste à adopter les techniques de clustering pour regrouper les textes en plusieurs clusters pour lesquels nous identifions l’espace des sujets associés (thématiques) par la méthode d’allocation de Dirichlet latente. Ensuite, nous utilisons la représentation des textes de chaque cluster comme données d’entrainement des réseaux de neurones non supervisés et des techniques ensemblistes pour l’apprentissage de nouvelles représentations abstraites. Celles-ci sont exploitées pour classer les phrases du texte à résumer selon un modèle basé sur les graphes. L'ensemble des méthodes proposées est évalué en utilisant plusieurs corpus. Les résultats obtenus montrent l'intérêt de nos propos. |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Résumé automatique |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Apprentissage automatique |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Réseau de neurone |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Langue arabe |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Automatic summarization |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Machine learning |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Neural networks |
| 653 ## - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Arabic language |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Meknassi, Mohammed |
| 9 (RLIN) | 34012 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Satori, Khalid |
| 9 (RLIN) | 34013 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Ouhbi, Brahim |
| 9 (RLIN) | 34014 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Zarghili, Arsalane |
| 9 (RLIN) | 34015 |
| 700 ## - MEMBRES DE JURY | |
| Dates associated with a name | Aouragh, Si Lhoussain |
| 9 (RLIN) | 34016 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Ouatik El Alaoui, Saïd |
| 9 (RLIN) | 34017 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | Alaoui Zidani, Khalid |
| 9 (RLIN) | 34018 |
| 700 ## - MEMBRES DE JURY | |
| Personal name | En Nahnahi, Noureddine |
| 9 (RLIN) | 34019 |
| 710 ## - ADDED ENTRY--CORPORATE NAME | |
| Université | Université Sidi Mohammed Ben Abdellah - Fès |
| Faculté | |
| 9 (RLIN) | 34020 |
| 856 ## - ELECTRONIC LOCATION AND ACCESS | |
| Uniform Resource Identifier | <a href="https://toubkal.imist.ma/handle/123456789/12743?show=full">https://toubkal.imist.ma/handle/123456789/12743?show=full</a> |
| 942 ## - ADDED ENTRY ELEMENTS (KOHA) | |
| Source of classification or shelving scheme | |
| Koha item type | Thèse universitaire |
| Withdrawn status | Lost status | Source of classification or shelving scheme | Damaged status | Not for loan | Permanent Location | Current Location | Date acquired | Total Checkouts | Full call number | Barcode | Date last seen | Price effective from | Koha item type | Public note |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| La bibliothèque des sciences de l'ingénieur | La bibliothèque des sciences de l'ingénieur | 04/14/2021 | TH-006.32 ALA | 0000000031263 | 04/14/2021 | 04/14/2021 | Thèse universitaire | Contient un CD-ROM |
