IMIST


Contributions to the Improvement of Automatic Summarization of Arabic Texts (notice n° 53414)

000 -LEADER
fixed length control field 04648nam a22004337a 4500
003 - CONTROL NUMBER IDENTIFIER
control field IMIST
005 - DATE AND TIME OF LATEST TRANSACTION
control field 20210414121407.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 210414b ||||| |||| 00| 0 eng d
040 ## - CATALOGING SOURCE
Original cataloging agency IMIST
Language of cataloging fre
Transcribing agency IMIST
Description conventions rda
044 ## - COUNTRY OF PUBLISHING/PRODUCING ENTITY CODE
MARC country code MA
082 ## - DEWEY DECIMAL CLASSIFICATION NUMBER
Edition number 22
Classification number 006.32
100 ## - MAIN ENTRY--PERSONAL NAME
Personal name Alami, Nabil
9 (RLIN) 34011
245 ## - TITLE STATEMENT
Title Contributions to the Improvement of Automatic Summarization of Arabic Texts
Statement of responsibility, etc Nabil Alami
260 ## - PUBLICATION, DISTRIBUTION, ETC. (IMPRINT)
Place of publication, distribution, etc Fès
Name of publisher, distributor, etc Université Sidi Mohammed Ben Abdellah
Date of publication, distribution, etc 2018
336 ## - CONTENT TYPE
Source rdacontent
Content Type Term text
Content Type Code txt
337 ## - MEDIA TYPE
Source rdamedia
Media Type Term unmediated
Media Type Code n
338 ## - CARRIER TYPE
Source rdacarrier
Carrier Type Term volume
Carrier Type Code nc
502 ## - DISSERTATION NOTE
Degree type PH.D
520 ## - SUMMARY, ETC.
Summary, etc Ce travail de thèse s’inscrit dans le cadre du résumé automatique des textes en langue Arabe (RAT). Nous nous sommes particulièrement intéressés à l’amélioration des méthodes extractives en s'appuyant sur des approches statistique, sémantique et d'apprentissage automatique. Dans un premier temps, nous présentons un état de l’art concernant les principales méthodes de RAT et notamment celles dédiées à la langue Arabe. Ensuite, nous décrivons quatre contributions permettant d'améliorer la performance des méthodes existantes. Dans la première contribution, nous proposons une nouvelle méthode de RAT modélisant le texte sous forme de graphe bidimensionnel dont les nœuds représentent les phrases du texte et les arcs sont étiquetés par des scores statistique et sémantique relatifs au degré de similarité entre chaque paire de phrases. De plus, nous avons intégré un algorithme d'élimination de la redondance et une phase préalable de prétraitement (stemming) permettant d'améliorer davantage la performance de la méthode proposée. Dans la deuxième contribution, nous proposons une méthode de RAT basée sur l’apprentissage profond. Elle consiste à utiliser le variational autoencoder (VAE) en tant que technique d'apprentissage non supervisée des caractéristiques afin de générer, pour chaque phrase, une représentation abstraite. Celle-ci est exploitée pour classer les phrases du texte selon la similarité par rapport à une requête et par la suite extraire celles les plus pertinentes. Une autre alternative proposée consiste à intégrer cette représentation dans le calcul de la similarité entre chaque paire de phrases en adoptant le modèle de graphe précédent (sans l'usage de la requête utilisateur). Cette méthode permet, d'une part, la réduction de la dimensionnalité, et d'autre part, l'amélioration du processus d'extraction des phrases pertinentes. Dans notre troisième contribution, nous adoptons la représentation distribuée des mots (Word2vec) comme entrée pour l’entrainement de plusieurs modèles de réseaux de neurones non supervisés. Les nouvelles représentations obtenues des phrases sont utilisées pour calculer la similarité entre les paires des phrases pour construire le graphe précédent. Nous proposons également des modèles d’apprentissage ensembliste pour améliorer la qualité des RAT Arabe. Enfin, notre quatrième contribution consiste à adopter les techniques de clustering pour regrouper les textes en plusieurs clusters pour lesquels nous identifions l’espace des sujets associés (thématiques) par la méthode d’allocation de Dirichlet latente. Ensuite, nous utilisons la représentation des textes de chaque cluster comme données d’entrainement des réseaux de neurones non supervisés et des techniques ensemblistes pour l’apprentissage de nouvelles représentations abstraites. Celles-ci sont exploitées pour classer les phrases du texte à résumer selon un modèle basé sur les graphes. L'ensemble des méthodes proposées est évalué en utilisant plusieurs corpus. Les résultats obtenus montrent l'intérêt de nos propos.
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Résumé automatique
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Apprentissage automatique
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Réseau de neurone
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Langue arabe
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Automatic summarization
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Machine learning
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Neural networks
653 ## - INDEX TERM--UNCONTROLLED
Uncontrolled term Arabic language
700 ## - MEMBRES DE JURY
Personal name Meknassi, Mohammed
9 (RLIN) 34012
700 ## - MEMBRES DE JURY
Personal name Satori, Khalid
9 (RLIN) 34013
700 ## - MEMBRES DE JURY
Personal name Ouhbi, Brahim
9 (RLIN) 34014
700 ## - MEMBRES DE JURY
Personal name Zarghili, Arsalane
9 (RLIN) 34015
700 ## - MEMBRES DE JURY
Dates associated with a name Aouragh, Si Lhoussain
9 (RLIN) 34016
700 ## - MEMBRES DE JURY
Personal name Ouatik El Alaoui, Saïd
9 (RLIN) 34017
700 ## - MEMBRES DE JURY
Personal name Alaoui Zidani, Khalid
9 (RLIN) 34018
700 ## - MEMBRES DE JURY
Personal name En Nahnahi, Noureddine
9 (RLIN) 34019
710 ## - ADDED ENTRY--CORPORATE NAME
Université Université Sidi Mohammed Ben Abdellah - Fès
Faculté
9 (RLIN) 34020
856 ## - ELECTRONIC LOCATION AND ACCESS
Uniform Resource Identifier <a href="https://toubkal.imist.ma/handle/123456789/12743?show=full">https://toubkal.imist.ma/handle/123456789/12743?show=full</a>
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme
Koha item type Thèse universitaire
Exemplaires
Withdrawn status Lost status Source of classification or shelving scheme Damaged status Not for loan Permanent Location Current Location Date acquired Total Checkouts Full call number Barcode Date last seen Price effective from Koha item type Public note
          La bibliothèque des sciences de l'ingénieur La bibliothèque des sciences de l'ingénieur 04/14/2021   TH-006.32 ALA 0000000031263 04/14/2021 04/14/2021 Thèse universitaire Contient un CD-ROM
© Tous droits résérvés IMIST/CNRST
Angle Av. Allal Al Fassi et Av. des FAR, Hay Ryad, BP 8027, 10102 Rabat, Maroc
Tél:(+212) 05 37.56.98.00
CNRST / IMIST

Propulsé par Koha