|
11 | 11 | \index{big data@\emph{big data}} |
12 | 12 |
|
13 | 13 |
|
14 | | -\objectifs{\emph{Big data}, intelligence artificielle, \emph{deep learning}, réseau de neurones, \emph{machine learning}\ldots{} plein de mots compliqués ! Le but commun est de faire exécuter à un ordinateur de tâches de plus en plus complexes : \emph{choisir} (par exemple trouver un bon élément parmi des milliards selon plusieurs critères), \emph{décider} (séparer des photos de chats de photos de voitures), \emph{prévoir} (un malade a de la fièvre et le nez qui coule, quelle maladie est la plus probable ?). |
15 | | -Dans cette première partie on va utiliser des outils classiques de statistique et de probabilité pour résoudre des problèmes amusants.} |
| 14 | +\objectifs{\emph{Big data}, intelligence artificielle, \emph{deep learning}, réseau de neurones, \emph{machine learning}\ldots{} plein de mots compliqués ! Le but commun est de faire exécuter à un ordinateur des tâches de plus en plus complexes : \emph{choisir} (par exemple trouver un bon élément parmi des milliards selon plusieurs critères), \emph{décider} (séparer des photos de chats de photos de voitures), \emph{prévoir} (un malade a de la fièvre et le nez qui coule, quelle maladie est la plus probable ?). |
| 15 | +Dans cette première partie, on va utiliser des outils classiques de statistique et de probabilité pour résoudre des problèmes amusants.} |
16 | 16 |
|
17 | 17 | \bigskip |
18 | 18 |
|
|
77 | 77 | Compare l'âge moyen calculé à partir de l'échantillon avec l'âge moyen de toute la liste. Quelle taille de l'échantillon permet d'avoir une estimation à $1$ an près ? |
78 | 78 |
|
79 | 79 | \item Programme une fonction \ci{probabilite_initiale(lettre,debut,fin,fichier)} |
80 | | - qui estime la probabilité que le nom d'une personne commence par la lettre donnée à partir d'un échantillon. |
| 80 | + qui estime la probabilité que le nom d'une personne commence par la lettre donnée à partir d'un échantillon de la liste. |
81 | 81 | Pour cela on approche la probabilité par la formule : |
82 | 82 | $$\text{probabilité} \quad \simeq \quad \frac{\text{nombre d'occurences}}{\text{nombre total d'éléments}}$$ |
83 | 83 |
|
|
460 | 460 | \item \textbf{Travailler plus pour gagner plus.} |
461 | 461 |
|
462 | 462 | \'Ecris un petit programme qui demande à l'utilisateur \og{}Quelle note aimerais-tu avoir ?\fg{} |
463 | | - et à partir de la réponse donnée affiche une phrase du type \og{}Tu dois travailler au moins 2 heures et 30 minutes.\fg{} |
| 463 | + et à partir de la réponse donnée affiche une phrase du type \og{}Tu dois travailler au moins 2 heures et 30 minutes.\fg{}. |
464 | 464 |
|
465 | 465 | \emph{Indications.} |
466 | 466 | \begin{itemize} |
|
536 | 536 | \textbf{Classification.} |
537 | 537 |
|
538 | 538 | On veut savoir si quelqu'un de taille $x=169$ cm est plutôt un homme ou une femme ? |
539 | | -On a donc deux densités de probabilité : on calcule $p_h(x)$ (comme si c'était un homme) et $p_f(x)$ (comme si c'était une femme) et on compare c'est deux valeurs. |
| 539 | +On a donc deux densités de probabilité : on calcule $p_h(x)$ (comme si c'était un homme) et $p_f(x)$ (comme si c'était une femme) et on compare ces deux valeurs. |
540 | 540 | Si $p_h(x)>p_f(x)$ alors c'est plus probablement un homme, sinon c'est plutôt une femme. |
541 | 541 |
|
542 | 542 | Ici on calcule $p_h(x) \simeq 0.035$ et $p_f(x) \simeq 0.061$, donc avec nos données, quelqu'un de $169$ cm est plus probablement une femme. |
|
575 | 575 |
|
576 | 576 | \item \textbf{Homme ou femme par la taille.} |
577 | 577 |
|
578 | | - On donne une taille $x$, par exemple $x=170$, on souhaite savoir si c'est plus probablement un homme ou une femme. |
| 578 | + On donne la taille $x$ d'une personne, par exemple $x=170$, on souhaite savoir si cette personne est plus probablement un homme ou une femme. |
579 | 579 | Pour cela calcule la densité de probabilité $p_h(x)$ associée à $\mu_h$ et $\sigma^2_h$ et la densité de probabilité $p_f(x)$ associée à $\mu_f$ et $\sigma^2_f$. |
580 | 580 |
|
581 | 581 | Si $p_h(x)>p_f(x)$ alors il est plus probable que ce soit un homme, sinon c'est plutôt une femme. |
582 | 582 |
|
583 | 583 | \emph{Remarques.} |
584 | 584 | \begin{itemize} |
585 | 585 | \item Ce n'est bien sûr pas une certitude ! On va faire mieux dans la question suivante en prenant aussi en compte le poids. |
586 | | - \item Les nombres sont très petits, il peut être plus parlant de regarder si |
| 586 | + \item Les nombres étant très petits, il peut être plus parlant de regarder si |
587 | 587 | $p_h(x)/p_f(x)$ est plus grand ou plus petit que $1$. |
588 | 588 | \end{itemize} |
589 | 589 |
|
|
600 | 600 |
|
601 | 601 | \mycenterline{\ci{(164,68),(162,52),(170,68),(161,76),(167,67)]}} |
602 | 602 |
|
603 | | - Pour une taille $x$, on a maintenant une probabilité $p_h^{\text{taille}}(x)$ et $p_f^{\text{taille}}(x)$. En calculant des moyennes et des variances on obtient |
| 603 | + Pour une taille $x$, on a maintenant une probabilité $p_h^{\text{taille}}(x)$ et $p_f^{\text{taille}}(x)$. En calculant des moyennes et des variances, on obtient |
604 | 604 | pour un poids $y$ une probabilité $p_h^{\text{poids}}(y)$ et $p_f^{\text{poids}}(y)$. |
605 | 605 | On multiplie les probabilités pour déterminer si une donnée correspond plutôt à un homme ou une femme. On prend une personne de (taille,\,poids) = $(x,y)$. Si on a :\\ |
606 | 606 | $$p_h^{\text{taille}}(x) \cdot p_h^{\text{poids}}(y) \ \ > \ \ |
607 | 607 | p_f^{\text{taille}}(x) \cdot p_f^{\text{poids}}(y)$$ |
608 | | - alors c'est plus probablement un homme, sinon c'est plutôt une femme. |
| 608 | + alors c'est plus probablement un homme, sinon c'est plus probablement une femme. |
609 | 609 |
|
610 | | - Une personne de taille $176$ cm pesant $64$ kg est plutôt un homme ou une femme ? |
| 610 | + Une personne de taille $176$ cm pesant $64$ kg est-elle plutôt un homme ou une femme ? |
611 | 611 |
|
612 | 612 |
|
613 | 613 | \end{enumerate} |
|
622 | 622 | \objectifs{Objectifs : classer des phrases dans une catégorie en fonction des mots qu'elle contient.} |
623 | 623 |
|
624 | 624 | Voici une liste de titres de sport : |
625 | | - |
626 | 625 | \begin{center} |
627 | 626 | \begin{minipage}{0.7\textwidth} |
628 | 627 | \begin{lstlisting} |
|
648 | 647 | \end{minipage} |
649 | 648 | \end{center} |
650 | 649 |
|
651 | | -\`A partir de ces titres déjà classés sport/pas sport tu vas faire déterminer par l'ordinateur si les phrases suivantes parlent de sport ou pas : |
| 650 | +\`A partir de ces titres déjà classés sport/pas sport, tu vas faire déterminer par l'ordinateur si les phrases suivantes parlent de sport : |
652 | 651 | \mycenterline{\ci{"victoire de Marseille"}} |
653 | 652 | \mycenterline{\ci{"un beau chien"}} |
654 | 653 | \mycenterline{\ci{"Paris écrase Barcelone en finale"}} |
|
687 | 686 |
|
688 | 687 | Pour savoir si la phrase \ci{"la finale de Paris"} parle de sport ou pas : |
689 | 688 | \begin{itemize} |
690 | | - \item on calcule la probabilité $p(\text{phrase}|\text{sport})$ de la phrase donnée par rapport à la liste des mots de sport, |
| 689 | + \item on calcule la probabilité $p(\text{phrase}|\text{sport})$ de la phrase donnée par rapport à la liste des mots des titres parlant de sport, |
691 | 690 | \item on calcule la probabilité $p(\text{phrase}|\text{pas sport})$ de la phrase donnée mais cette fois par rapport à la liste des mots des titres ne parlant pas de sport, |
692 | 691 | \item si $p(\text{phrase}|\text{sport}) > p(\text{phrase}|\text{pas sport})$ alors il probable que la phrase concerne le sport. |
693 | 692 | \end{itemize} |
|
706 | 705 |
|
707 | 706 |
|
708 | 707 | \item \textbf{Probabilité modifiée d'un mot.} |
709 | | - On a un problème avec la phrase \ci{"le coach perd la finale"} car le mot \ci{"perd"} n'apparaît pas dans nos titres, donc la probabilité de ce mot est $p(m) = 0$. |
| 708 | + On a un problème avec la phrase \ci{"le coach perd la finale"} car le mot \ci{"perd"} n'apparaît pas dans nos titres, la probabilité de ce mot est donc $p(m) = 0$. |
710 | 709 | Aussi lorsque l'on calcule la probabilité de la phrase, on obtient |
711 | 710 | $p(\text{phrase}|\text{sport}) = 0$ et $p(\text{phrase}|\text{pas sport})=0$ (car on a à chaque fois un facteur nul). |
712 | 711 |
|
|
0 commit comments