aller au contenu
Automatic lexicon generation for unsupervised part-of-speech tagging using only unannotated text
FermerAperçu de cet ouvrage

Automatic lexicon generation for unsupervised part-of-speech tagging using only unannotated text

Auteur : Dennis V Pereira
Éditeur : [Blacksburg, Va. : University Libraries, Virginia Polytechnic Institute and State University, 2004]
Dissertation : Thesis (M.S.)--Virginia Polytechnic Institute and State University, 2004.
Édition/format :   Thèse/dissertation : Document : Thèse/mémoire : Publication gouvernementale provinciale ou d'état   Fichier informatique : Anglais
Résumé :
With the growing number of textual resources available, the ability to understand them becomes critical. An essential first step in understanding these sources is the ability to identify the parts-of-speech in each sentence. The goal of this research is to propose, improve, and implement an algorithm capable of finding terms (words in a corpus) that are used in similar ways - a term categorizer. Such a term  Lire la suite...
Évaluation :

(pas encore évalué) 0 avec des critiques - Soyez le premier.

 

Trouver un exemplaire en ligne

Liens vers cet ouvrage

Trouver un exemplaire dans la bibliothèque

Récupération en cours... Recherche de bibliothèques qui possèdent cet ouvrage...

Détails

Type d’ouvrage : Document, Thèse/mémoire, Publication gouvernementale, Publication gouvernementale provinciale ou d'état, Ressource Internet
Format : Ressource Internet, Fichier informatique
Tous les auteurs / collaborateurs : Dennis V Pereira
Numéro OCLC : 56569925
Notes : Title from electronic submission form.
Vita.
Abstract.
Détails : System requirements: PC, World Wide Web browser and PDF reader.; Available electronically via Internet.
Responsabilité : Dennis V. Pereira.

Résumé :

With the growing number of textual resources available, the ability to understand them becomes critical. An essential first step in understanding these sources is the ability to identify the parts-of-speech in each sentence. The goal of this research is to propose, improve, and implement an algorithm capable of finding terms (words in a corpus) that are used in similar ways - a term categorizer. Such a term categorizer can be used to find a particular part-of-speech, i.e. nouns in a corpus, and generate a lexicon. The proposed work is not dependent on any external sources of information, such as dictionaries, and it shows a significant improvement (30%) over an existing method of categorization. More importantly, the proposed algorithm can be applied as a component of an unsupervised part-of-speech tagger, making it truly unsupervised, requiring only unannotated text. The algorithm is discussed in detail, along with its background, and its performance. Experimentation shows that the proposed algorithm performs within 3% of the baseline, the Penn-TreeBank Lexicon.

Critiques

Critiques fournies par les utilisateurs
Récupération des critiques de weRead...
Récupération des critiques de GoodReads...
Récupération des critiques d’Amazon...

Tags

Soyez le premier.
Confirmez cette demande

Vous avez peut-être déjà demandé cet ouvrage. Veuillez sélectionner OK si vous voulez poursuivre avec cette demande quand même.

Fermer la fenêtre

Veuillez vous identifier dans WorldCat 

Vous n’avez pas de compte? Vous pouvez facilement créer un compte gratuit.