ProjetsMaster 1 → Compilation

Création d'un compilateur.

Le projet a pour but de faire ressortir le sentiment général des tweets par rapport à un sujet. Ceci est très utile pour connaître les tendances par rapport à un sujet. Ce type d’application peut être très utile. On pense notamment au secteur de la politique, du marketing …
L’application permet de visualiser la proportion de tweets négatifs, neutres et positifs concernant une recherche. Grâce à cela, il est possible de faire ressortir la tendance globale de la recherche.

Problématique

Twitter est une place incontournable sur le web où les idées et les avis sont monnaie courante. Bon nombre d’utilisateurs échangent sur des sujets et confrontent leurs avis. Chaque minute, 350 000 tweets sont postés sur Twitter.
La problématique: parmi cette masse d’informations, comment faire ressortir la tendance ou l’avis général sur un sujet donné ?

Algos

1. Keywords

Cette classification utilise deux listes: l’une contenant des mots dits “négatifs” et l’autre des mots à tendance “positive”.
Cette classification est la plus basique de toutes. Son fonctionnement se limite à compter la proportion de mots positifs et négatifs et d’ainsi en faire ressortir la tendance du tweet.

2. Classification KNN

La classification KNN se base sur la distance qui sépare 2 tweets. Plus la distance est courte, plus les tweets se ressemblent. Des tweets proches syntaxiquement ont de grandes chances d’être d’une polarité identique.

3. Classification Bayésienne

Bayésienne est la classification la plus poussée. Elle se base sur la probabilité qu’un tweet appartienne à une classe grâce à trois corpus de mots construits à partir des tweets de références pour chaque classe. La classification Bayésienne a été implémentée de trois manières différentes:

  • - Bayésienne Uni-gramme par présence
  • - Bayésienne Uni-gramme par fréquence
  • - Bayésienne Bi-gramme par présence
  • - Bayésienne Bi-gramme par fréquence
  • - Bayésienne Uni-gramme + Bi-gramme présence
  • - Bayésienne Uni-gramme + Bi-gramme fréquence

Chacune de ces implémentations de Bayésienne est de nouveau implémentée pour prendre en compte soit la présence d’un mot ou sa fréquence d’apparition dans le tweet.

Résultats

Pour comparer les différentes méthodes de classification, nous utilisons la méthode de cross comparaison. Cette méthode consiste à:

  • - Copier la base de référence.
  • - Découper la base en plusieurs parties.
  • - Exécuter une classification automatique sur chaque partie en utilisant les autres comme référence.
  • - Comparer les classifications des tweets de la référence avec celles créées par la cross comparaison.

Un peu plus sur les résultats...

Ce type de comparaison nous a permis d’améliorer nos méthodes de classification. Par exemple, nous nous sommes rendu compte que la suppression des mots ayant moins de 3 lettres permettait un gain de précision de l’ordre de 5% pour toutes les classifications (excepté Keywords, où cette technique n’est pas appliquée).