Skip to content

Commit bf1719f

Browse files
committed
typos signalées par François
1 parent 813d7f9 commit bf1719f

File tree

7 files changed

+46
-48
lines changed

7 files changed

+46
-48
lines changed

bigdata/bigdata-1.pdf

-69 Bytes
Binary file not shown.

bigdata/bigdata-1.tex

Lines changed: 13 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -11,8 +11,8 @@
1111
\index{big data@\emph{big data}}
1212

1313

14-
\objectifs{\emph{Big data}, intelligence artificielle, \emph{deep learning}, réseau de neurones, \emph{machine learning}\ldots{} plein de mots compliqués ! Le but commun est de faire exécuter à un ordinateur de tâches de plus en plus complexes : \emph{choisir} (par exemple trouver un bon élément parmi des milliards selon plusieurs critères), \emph{décider} (séparer des photos de chats de photos de voitures), \emph{prévoir} (un malade a de la fièvre et le nez qui coule, quelle maladie est la plus probable ?).
15-
Dans cette première partie on va utiliser des outils classiques de statistique et de probabilité pour résoudre des problèmes amusants.}
14+
\objectifs{\emph{Big data}, intelligence artificielle, \emph{deep learning}, réseau de neurones, \emph{machine learning}\ldots{} plein de mots compliqués ! Le but commun est de faire exécuter à un ordinateur des tâches de plus en plus complexes : \emph{choisir} (par exemple trouver un bon élément parmi des milliards selon plusieurs critères), \emph{décider} (séparer des photos de chats de photos de voitures), \emph{prévoir} (un malade a de la fièvre et le nez qui coule, quelle maladie est la plus probable ?).
15+
Dans cette première partie, on va utiliser des outils classiques de statistique et de probabilité pour résoudre des problèmes amusants.}
1616

1717
\bigskip
1818

@@ -77,7 +77,7 @@
7777
Compare l'âge moyen calculé à partir de l'échantillon avec l'âge moyen de toute la liste. Quelle taille de l'échantillon permet d'avoir une estimation à $1$ an près ?
7878

7979
\item Programme une fonction \ci{probabilite_initiale(lettre,debut,fin,fichier)}
80-
qui estime la probabilité que le nom d'une personne commence par la lettre donnée à partir d'un échantillon.
80+
qui estime la probabilité que le nom d'une personne commence par la lettre donnée à partir d'un échantillon de la liste.
8181
Pour cela on approche la probabilité par la formule :
8282
$$\text{probabilité} \quad \simeq \quad \frac{\text{nombre d'occurences}}{\text{nombre total d'éléments}}$$
8383

@@ -460,7 +460,7 @@
460460
\item \textbf{Travailler plus pour gagner plus.}
461461

462462
\'Ecris un petit programme qui demande à l'utilisateur \og{}Quelle note aimerais-tu avoir ?\fg{}
463-
et à partir de la réponse donnée affiche une phrase du type \og{}Tu dois travailler au moins 2 heures et 30 minutes.\fg{}
463+
et à partir de la réponse donnée affiche une phrase du type \og{}Tu dois travailler au moins 2 heures et 30 minutes.\fg{}.
464464

465465
\emph{Indications.}
466466
\begin{itemize}
@@ -536,7 +536,7 @@
536536
\textbf{Classification.}
537537

538538
On veut savoir si quelqu'un de taille $x=169$ cm est plutôt un homme ou une femme ?
539-
On a donc deux densités de probabilité : on calcule $p_h(x)$ (comme si c'était un homme) et $p_f(x)$ (comme si c'était une femme) et on compare c'est deux valeurs.
539+
On a donc deux densités de probabilité : on calcule $p_h(x)$ (comme si c'était un homme) et $p_f(x)$ (comme si c'était une femme) et on compare ces deux valeurs.
540540
Si $p_h(x)>p_f(x)$ alors c'est plus probablement un homme, sinon c'est plutôt une femme.
541541

542542
Ici on calcule $p_h(x) \simeq 0.035$ et $p_f(x) \simeq 0.061$, donc avec nos données, quelqu'un de $169$ cm est plus probablement une femme.
@@ -575,15 +575,15 @@
575575

576576
\item \textbf{Homme ou femme par la taille.}
577577

578-
On donne une taille $x$, par exemple $x=170$, on souhaite savoir si c'est plus probablement un homme ou une femme.
578+
On donne la taille $x$ d'une personne, par exemple $x=170$, on souhaite savoir si cette personne est plus probablement un homme ou une femme.
579579
Pour cela calcule la densité de probabilité $p_h(x)$ associée à $\mu_h$ et $\sigma^2_h$ et la densité de probabilité $p_f(x)$ associée à $\mu_f$ et $\sigma^2_f$.
580580

581581
Si $p_h(x)>p_f(x)$ alors il est plus probable que ce soit un homme, sinon c'est plutôt une femme.
582582

583583
\emph{Remarques.}
584584
\begin{itemize}
585585
\item Ce n'est bien sûr pas une certitude ! On va faire mieux dans la question suivante en prenant aussi en compte le poids.
586-
\item Les nombres sont très petits, il peut être plus parlant de regarder si
586+
\item Les nombres étant très petits, il peut être plus parlant de regarder si
587587
$p_h(x)/p_f(x)$ est plus grand ou plus petit que $1$.
588588
\end{itemize}
589589

@@ -600,14 +600,14 @@
600600

601601
\mycenterline{\ci{(164,68),(162,52),(170,68),(161,76),(167,67)]}}
602602

603-
Pour une taille $x$, on a maintenant une probabilité $p_h^{\text{taille}}(x)$ et $p_f^{\text{taille}}(x)$. En calculant des moyennes et des variances on obtient
603+
Pour une taille $x$, on a maintenant une probabilité $p_h^{\text{taille}}(x)$ et $p_f^{\text{taille}}(x)$. En calculant des moyennes et des variances, on obtient
604604
pour un poids $y$ une probabilité $p_h^{\text{poids}}(y)$ et $p_f^{\text{poids}}(y)$.
605605
On multiplie les probabilités pour déterminer si une donnée correspond plutôt à un homme ou une femme. On prend une personne de (taille,\,poids) = $(x,y)$. Si on a :\\
606606
$$p_h^{\text{taille}}(x) \cdot p_h^{\text{poids}}(y) \ \ > \ \
607607
p_f^{\text{taille}}(x) \cdot p_f^{\text{poids}}(y)$$
608-
alors c'est plus probablement un homme, sinon c'est plutôt une femme.
608+
alors c'est plus probablement un homme, sinon c'est plus probablement une femme.
609609

610-
Une personne de taille $176$ cm pesant $64$ kg est plutôt un homme ou une femme ?
610+
Une personne de taille $176$ cm pesant $64$ kg est-elle plutôt un homme ou une femme ?
611611

612612

613613
\end{enumerate}
@@ -622,7 +622,6 @@
622622
\objectifs{Objectifs : classer des phrases dans une catégorie en fonction des mots qu'elle contient.}
623623

624624
Voici une liste de titres de sport :
625-
626625
\begin{center}
627626
\begin{minipage}{0.7\textwidth}
628627
\begin{lstlisting}
@@ -648,7 +647,7 @@
648647
\end{minipage}
649648
\end{center}
650649

651-
\`A partir de ces titres déjà classés sport/pas sport tu vas faire déterminer par l'ordinateur si les phrases suivantes parlent de sport ou pas :
650+
\`A partir de ces titres déjà classés sport/pas sport, tu vas faire déterminer par l'ordinateur si les phrases suivantes parlent de sport :
652651
\mycenterline{\ci{"victoire de Marseille"}}
653652
\mycenterline{\ci{"un beau chien"}}
654653
\mycenterline{\ci{"Paris écrase Barcelone en finale"}}
@@ -687,7 +686,7 @@
687686

688687
Pour savoir si la phrase \ci{"la finale de Paris"} parle de sport ou pas :
689688
\begin{itemize}
690-
\item on calcule la probabilité $p(\text{phrase}|\text{sport})$ de la phrase donnée par rapport à la liste des mots de sport,
689+
\item on calcule la probabilité $p(\text{phrase}|\text{sport})$ de la phrase donnée par rapport à la liste des mots des titres parlant de sport,
691690
\item on calcule la probabilité $p(\text{phrase}|\text{pas sport})$ de la phrase donnée mais cette fois par rapport à la liste des mots des titres ne parlant pas de sport,
692691
\item si $p(\text{phrase}|\text{sport}) > p(\text{phrase}|\text{pas sport})$ alors il probable que la phrase concerne le sport.
693692
\end{itemize}
@@ -706,7 +705,7 @@
706705

707706

708707
\item \textbf{Probabilité modifiée d'un mot.}
709-
On a un problème avec la phrase \ci{"le coach perd la finale"} car le mot \ci{"perd"} n'apparaît pas dans nos titres, donc la probabilité de ce mot est $p(m) = 0$.
708+
On a un problème avec la phrase \ci{"le coach perd la finale"} car le mot \ci{"perd"} n'apparaît pas dans nos titres, la probabilité de ce mot est donc $p(m) = 0$.
710709
Aussi lorsque l'on calcule la probabilité de la phrase, on obtient
711710
$p(\text{phrase}|\text{sport}) = 0$ et $p(\text{phrase}|\text{pas sport})=0$ (car on a à chaque fois un facteur nul).
712711

bigdata/bigdata-2.pdf

-39 Bytes
Binary file not shown.

0 commit comments

Comments
 (0)