WorldCat Identities

Biau, Gérard

Overview
Works: 36 works in 61 publications in 3 languages and 1,832 library holdings
Genres: Textbooks 
Roles: Author, Author of afterword, colophon, etc., Thesis advisor, Opponent, Other, 956, Contributor
Classifications: QA278.2, 570.151
Publication Timeline
.
Most widely held works by Gérard Biau
Mathématiques et statistique pour les sciences de la nature modéliser, comprendre et appliquer by Gérard Biau( )

8 editions published in 2010 in French and held by 1,411 WorldCat member libraries worldwide

"Ce livre présente un choix de concepts et d'outils pouvant constituer le programme de mathématiques des trois premières années d'études universitaires en sciences de la nature ou de la vie. Plus généralement, l'ouvrage s'adresse à tout lecteur curieux de découvrir une présentation précise, mais sans excès de théorie, des concepts mathématiques indispensables à la modélisation des phénomènes naturels. La première partie est consacrée à l'étude des fonctions (à une ou plusieurs variables), au calcul des probabilités et aux liens entre probabilités et statistique. La deuxième traite de thèmes statistiques plus élaborés (estimations, tests d'hypothèses, régression). Enfin, la troisième partie est dédiée aux équations différentielles et à l'algèbre linéaire. Chaque chapitre insiste sur la nécessité de savoir modéliser, comprendre et appliquer. De nombreux exercices (avec solutions) permettent de compléter l'exposé et d'ouvrir vers davantage d'applications."--Page 4 de couv
Lectures on the nearest neighbor method by Gérard Biau( )

11 editions published between 2015 and 2016 in English and held by 332 WorldCat member libraries worldwide

"This text presents a wide-ranging and rigorous overview of nearest neighbor methods, one of the most important paradigms in machine learning. Now in one self-contained volume, this book systematically covers key statistical, probabilistic, combinatorial and geometric ideas for understanding, analyzing and developing nearest neighbor methods" -- Provided by publisher
Nos réalités augmentées : ces 0 et ces 1 qui envahissent nos vies by Philippe Boyer( Book )

1 edition published in 2017 in French and held by 25 WorldCat member libraries worldwide

"La révolution numérique, jusqu'où ?" Ainsi pourrait se résumer cet ouvrage dont l'objet est de comprendre le numérique pour mieux pouvoir l'adopter et imaginer notre quotidien à ses côtés. Dans ce monde en mouvement, où les nouvelles technologies bouleversent notre rapport au temps, au travail, à l'éthique..., il ne s'agit plus seulement de poser des questions mais de tenter d'y répondre en prenant soin d'analyser ces nouvelles tendances de fond qui placent les nouvelles technologies au centre des enjeux. Parce que le monde est entré dans la révolution digitale, bouleversement radical de l'économie et de la société qui fait apparaître de nouveaux gisements de création d'emplois et de valeur, tout en représentant de nouveaux défis pour de nombreux secteurs traditionnels, l'enjeu de ce livre est de comprendre et de décrypter le numérique pour en tirer parti et imaginer le monde de demain. En langage clair, et par le biais d'articles courts, "Nos réalités augmentées" décrypte les grandes tendances du numérique et de ses conséquences sur nos vies. Travail, intelligence artificielle, ordinateur du futur, santé connectée, villes intelligentes, école, culture
Nonparametric Forecasting of the Manufacturing Output Growth with Firm-level Survey Data by Gérard Biau( )

2 editions published between 2006 and 2008 in English and held by 13 WorldCat member libraries worldwide

Estimation of precipitation by kriging in EOF space( Book )

1 edition published in 1997 in English and held by 12 WorldCat member libraries worldwide

Nonparametric Forecasting of the Manufacturing Output Growth with Firm-level Survey Data by Gérard Biau( )

2 editions published in 2008 in English and held by 9 WorldCat member libraries worldwide

A large majority of summary indicators derived from the individual responses to qualitative Business Tendency Surveys (which are mostly three-modality questions) result from standard aggregation and quantification methods. This is typically the case for the indicators called balances of opinion, which are currently used in short term analysis and considered by forecasters as explanatory variables in many models. In the present paper, we discuss a new statistical approach to forecast the manufacturing growth from firm-survey responses. We base our predictions on a forecasting algorithm inspired by the random forest regression method, which is known to enjoy good prediction properties. Our algorithm exploits the heterogeneity of the survey responses, works fast, is robust to noise and allows for the treatment of missing values. Starting from a real application on a French dataset related to the manufacturing sector, this procedure appears as a competitive method compared with traditional algorithms
Estimation of Precipitation by Kriging in EOF Space( Book )

2 editions published in 1997 in German and English and held by 4 WorldCat member libraries worldwide

Estimation de densité en dimension élevée et classification de courbes by Laurent Rouvière( Book )

2 editions published in 2005 in English and held by 2 WorldCat member libraries worldwide

Quelques problèmes d'apprentissage statistique en présence de données incomplètes by Maximilien Baudry( )

1 edition published in 2020 in English and held by 1 WorldCat member library worldwide

Most statistical methods are not designed to directly work with incomplete data. The study of data incompleteness is not new and strong methods have been established to handle it prior to a statistical analysis. On the other hand, deep learning literature mainly works with unstructured data such as images, text or raw audio, but very few has been done on tabular data. Hence, modern machine learning literature tackling data incompleteness on tabular data is scarce. This thesis focuses on the use of machine learning models applied to incomplete tabular data, in an insurance context. We propose through our contributions some ways to model complex phenomena in presence of incompleteness schemes, and show that our approaches outperform the state-of-the-art models
Classification et modélisation de sorties fonctionnelles de codes de calcul : application aux calculs thermo-hydrauliques accidentels dans les réacteurs à eau pressurisés (REP) by Benjamin Auder( Book )

1 edition published in 2011 in French and held by 1 WorldCat member library worldwide

Compte-tenu de la complexité des systèmes industriels actuels et des progrès en calcul scientifique, les codes utilisés pour modéliser des phénomènes physiques en ingénierie nucléaire sont souvent coûteux en temps. Il est cependant nécessaire de réaliser des analyses statistiques sur certains événements, et ces analyses demandent de multiples applications du code pour être précises. C'est pourquoi le temps de simulation doit être réduit, en modélisant le code de calcul par une fonction de coût CPU négligeable. Cette modélisation s'effectue sur la base d'un échantillon de quelques centaines de résultats de calculs physiques. Ce travail s'inscrit dans le cadre relativement peu étudié des codes de calcul à réponses fonctionnelles 1D. Ces dernières modélisent l'évolution de paramètres physiques dans le temps, pour un état initial. Différents types d'évolution peuvent se dégager ; c'est pourquoi les (entrées-)sorties sont d'abord divisées en K groupes, une méthode basée sur l'erreur de classification supervisée permettant de sélectionner ce dernier nombre automatiquement. Afin de contourner la difficulté liée aux réponses fonctionnelles, l'idée principale consiste à représenter ces dernières en dimension réduite pour effectuer la régression dans le cadre vectoriel. Pour cela nous proposons une alternative non linéaire à la décomposition sur une base, accompagnée de sa justification théorique. Nous montrons que l'application ainsi construite permet d'approximer une large classe de codes, et est complémentaire de l'approche classique (utilisant une base de fonctions) sur les jeux de données CEA
Agrégation d'estimateurs et de classificateurs : théorie et méthodes by Benjamin Guedj( Book )

1 edition published in 2013 in English and held by 1 WorldCat member library worldwide

This thesis is devoted to the study of both theoretical and practicalproperties of various aggregation techniques. We first extend thePAC-Bayesian theory to the high dimensional paradigm in the additiveand logistic regression settings. We prove that our estimators arenearly minimax optimal, and we provide an MCMC implementation, backedup by numerical simulations. Next, we introduce an original nonlinearaggregation strategy. Its theoretical merits are presented, and webenchmark the method--called COBRA--on alengthy series of numerical experiments. Finally, a Bayesian approachto model admixture in population genetics is presented, along with itsMCMC implementation. All approaches introduced in this thesis arefreely available on the author's website
Apprentissage statistique non supervisé : grande dimension et courbes principales by Aurélie Fischer( Book )

1 edition published in 2011 in French and held by 1 WorldCat member library worldwide

Le contexte général de cette thèse est celui de l'apprentissage statistique non supervisé. Nous nous intéressons aux problématiques de la quantification et des courbes principales, que nous étudions dans deux parties successives. La première partie, qui concerne la quantification, se divise en trois chapitres. Le premier chapitre présente quelques propriétés théoriques de la quantification et du clustering dans un espace de Banach, en utilisant des divergences de Bregman comme notion de distance. Dans le deuxième chapitre, qui traite du clustering de courbes dans le cadre de l'industrie nucléaire, nous examinons une méthode de réduction de la dimension reposant sur la projection sur une base hilbertienne. Le troisième chapitre est dédié au choix du nombre de groupes en clustering. La seconde partie de la thèse, consacrée aux courbes principales, comporte deux chapitres. Ces courbes paramétrées passant « au milieu » d'un nuage de points peuvent être vues comme une généralisation non linéaire de l'Analyse en Composantes Principales. Comme il existe différents points de vue sur les courbes principales, le premier chapitre propose une synthèse bibliographique sur ce sujet. Selon la définition retenue, une courbe principale dépend de certains paramètres, comme la longueur ou la courbure, qui doivent être correctement déterminés pour obtenir une courbe reflétant précisément la forme des données sans pour autant relier tous les points. Dans le second chapitre, adoptant une définition basée sur la minimisation d'un critère empirique de type moindres carrés, nous considérons le problème du choix de ces paramètres sous l'angle de la sélection de modèle par pénalisation
Contributions à l'inférence statistique en présence de censure multivariée by Svetlana Gribkova( )

1 edition published in 2014 in French and held by 1 WorldCat member library worldwide

The main purpose of this thesis is to explore several approaches for studying multivariate censored data: nonparametric estimation of the joint distribution function, modeling dependence with copulas and k-clustering for the exploratory analysis. Chapter 1 presents the general framework and the contributions of this thesis. Chapter 2 deals with the estimation of the joint distribution function of two censored variables in a simplified survival model in which the difference between two censoring variables is observed. We provide a new nonparametric estimator of the joint distribution function and we establish the asymptotic normality of the integrals with respect to its associated measure. Chapter 3 is devoted to nonparametric copula estimation under bivariate censoring. We provide a discrete and two smooth copula estimators along with two estimators of its density. The discrete estimator can be seen as an extension of the empirical copula under censoring. Chapter 4 provides a new exploratory approach for censored data analysis. We consider a multivariate configuration with one variable subjected to censoring and the others completely observed. We extend the probabilistic k-quantization method in the case of random vector with one censored component. The definitions of the empirical distortion and of empirically optimal quantizer are generalized in presence of one-dimensional censoring. We study the asymptotic properties of the distortion of the empirically optimal quantizer and we provide a non-asymptotic exponential bound for the rate of convergence. Our results are then applied to construct a new two-step clustering algorithm for censored data
Estimation statistique non paramétrique appliquée à la surveillance des eaux côtières by Sami Capderou( )

1 edition published in 2018 in English and held by 1 WorldCat member library worldwide

La protection de l'environnement, en particulier celle des systèmes aquatiques, est une des priorités de nos sociétés. L'utilisation de capteurs biologiques permettant de tester la qualité de l'eau en continue est une voie possible de surveillance intégrée des milieux aquatiques. Cette démarche a été mise en place avec succès sur des mollusques bivalves équipés d'électrodes légères qui respectent leur comportement naturel, on parle alors de valvométrie. Le but de cette thèse est de calculer et traiter automatiquement la vitesse de mouvement des valves de mollusques bivalves installés dans divers milieux aquatiques. Les années d'enregistrements déjà acquises nous permettrons, à partir de nos modèles, de détecter s'il existe des variations de la vitesse de mouvement des valves liées aux variations de température. Plus particulièrement, nous avons étudié les dérivées de différents estimateurs non paramétriques d'une fonction de régression : l'estimateur récursif de Nadaraya-Watson, l'estimateur de Johnston, l'estimateur de Wand-Jones ainsi que l'estimateur de Révész. Nous avons aussi pris en compte la version déterministe de l'estimateur de Nadaraya-Watson. Pour chacun des estimateurs nous avons mené une étude sur les comportement asymptotiques en particulier la convergence presque sûre et la normalité asymptotique. Nous avons illustré numériquement ces propriétés et appliqué ces nouvelles méthodes d'estimations sur des données réelles afin de valider, ou non, les hypothèses environnementales émises par les biologistes
Estimation récursive pour des modèles semi-paramétriques by ThiMongNgoc Nguyen( )

1 edition published in 2010 in French and held by 1 WorldCat member library worldwide

Apprentissage automatique et extrêmes pour la détection d'anomalies by Nicolas Goix( )

1 edition published in 2016 in English and held by 1 WorldCat member library worldwide

Anomaly detection is not only a useful preprocessing step for training machine learning algorithms. It is also a crucial component of many real-world applications, from various fields like finance, insurance, telecommunication, computational biology, health or environmental sciences. Anomaly detection is also more and more relevant in the modern world, as an increasing number of autonomous systems need to be monitored and diagnosed. Important research areas in anomaly detection include the design of efficient algorithms and their theoretical study but also the evaluation of such algorithms, in particular when no labeled data is available -- as in lots of industrial setups. In other words, model design and study, and model selection. In this thesis, we focus on both of these aspects. We first propose a criterion for measuring the performance of any anomaly detection algorithm. Then we focus on extreme regions, which are of particular interest in anomaly detection, to obtain lower false alarm rates. Eventually, two heuristic methods are proposed, the first one to evaluate anomaly detection algorithms in the case of high dimensional data, the other to extend the use of random forests to the one-class setting
Régression isotonique itérée by Nicolas Jégou( )

1 edition published in 2012 in French and held by 1 WorldCat member library worldwide

This thesis is part of non parametric univariate regression. Assume that the regression function is of bounded variation then the Jordan's decomposition ensures that it can be written as the sum of an increasing function and a decreasing function. We propose and analyse a novel estimator which combines the isotonic regression related to the estimation of monotonefunctions and the backfitting algorithm devoted to the estimation of additive models. The first chapter provides an overview of the references related to isotonic regression and additive models. The next chapter is devoted to the theoretical study of iterative isotonic regression. As a first step we show that increasing the number of iterations tends to reproduce the data. Moreover, we manage to identify the individual limits by making a connexion with the general property of isotonicity of projection onto convex cones and deriving another equivalent algorithm based on iterative bias reduction. Finally, we establish the consistency of the estimator.The third chapter is devoted to the practical study of the estimator. As increasing the number of iterations leads to overfitting, it is not desirable to iterate the procedure until convergence. We examine stopping criteria based on adaptations of criteria usually used in the context of linear smoothing methods (AIC, BIC, ...) as well as criteria assuming the knowledge of thenumber of modes of the regression function. As it is observed an interesting behavior of the method when the regression function has breakpoints, we apply the algorithm to CGH-array data where breakopoints detections are of crucial interest. Finally, an application to the estimation of unimodal functions is proposed
Apprentissage à "grande échelle" : contribution à l'étude d'algorithmes de clustering répartis asynchrones by Benoît Patra( Book )

1 edition published in 2012 in English and held by 1 WorldCat member library worldwide

Les thèmes abordés dans ce manuscrit de thèse sont inspirés de problématiques de recherche rencontrées par la société Lokad, qui sont résumées dans le premier chapitre. Le Chapitre 2 est consacré à l'étude d'une méthode non paramétrique de prévision des quantiles d'une série temporelle. Nous démontrons, en particulier, que la technique proposée converge sous des hypothèses minimales. La suite des travaux porte sur des algorithmes de clustering répartis et asynchrones (DALVQ). Ainsi, le Chapitre 3 propose tout d'abord une description mathématique de ces modèles précédent, et se poursuit ensuite par leur étude théorique. Notamment, nous démontrons l'existence d'un consensus asymptotique et la convergence presque sûre de la procédure vers des points critiques de la distortion. Le chapitre suivant propose des réflexions ainsi que des expériences sur les schémas de parallélisation à mettre en place pour une réalisation effective des algorithmes de type DALVQ. Enfin, le cinquième et dernier chapitre présente une implémentation de ces méthodes sur la plate-forme de Cloud Computing Microsoft Windows Azure. Nous y étudions, entre autres thèmes, l'accélération de la convergence de l'algorithme par l'augmentation de ressources parallèles. Nous le comparons ensuite avec la méthode dite de Lloyd, elle aussi répartie et déployée sur Windows Azure
Forêts uniformément aléatoires et détection des irrégularités aux cotisations sociales by Saïp Ciss( )

1 edition published in 2014 in French and held by 1 WorldCat member library worldwide

We present in this thesis an application of machine learning to irregularities in the case of social contributions. These are, in France, all contributions due by employees and companies to the "Sécurité sociale", the french system of social welfare (alternative incomes in case of unemployement, Medicare, pensions, ...). Social contributions are paid by companies to the URSSAF network which in charge to recover them. Our main goal was to build a model that would be able to detect irregularities with a little false positive rate. We, first, begin the thesis by presenting the URSSAF and how irregularities can appear, how can we handle them and what are the data we can use. Then, we talk about a new machine learning algorithm we have developped for, "random uniform forests" (and its R package "randomUniformForest") which are a variant of Breiman "random Forests" (tm), since they share the same principles but in in a different way. We present theorical background of the model and provide several examples. Then, we use it to show, when irregularities are fraud, how financial situation of firms can affect their propensity for fraud. In the last chapter, we provide a full evaluation for declarations of social contributions of all firms in Ile-de-France for year 2013, by using the model to predict if declarations present irregularities or not
Quantification vectorielle en grande dimension : vitesses de convergence et sélection de variables by Clément Levrard( )

1 edition published in 2014 in English and held by 1 WorldCat member library worldwide

The distortion of the quantizer built from a n-sample of a probability distribution over a vector space with the famous k-means algorithm is firstly studied in this thesis report. To be more precise, this report aims to give oracle inequalities on the difference between the distortion of the k-means quantizer and the minimum distortion achievable by a k-point quantizer, where the influence of the natural parameters of the quantization issue should be precisely described. For instance, some natural parameters are the distribution support, the size k of the quantizer set of images, the dimension of the underlying Euclidean space, and the sample size n. After a brief summary of the previous works on this topic, an equivalence between the conditions previously stated for the excess distortion to decrease fast with respect to the sample size and a technical condition is stated, in the continuous density case. Interestingly, this condition looks like a technical condition required in statistical learning to achieve fast rates of convergence. Then, it is proved that the excess distortion achieves a fast convergence rate of 1/n in expectation, provided that this technical condition is satisfied. Next, a so-called margin condition is introduced, which is easier to understand, and it is established that this margin condition implies the technical condition mentioned above. Some examples of distributions satisfying this margin condition are exposed, such as the Gaussian mixtures, which are classical distributions in the clustering framework. Then, provided that this margin condition is satisfied, an oracle inequality on the excess distortion of the k-means quantizer is given. This convergence result shows that the excess distortion decreases with a rate 1/n and depends on natural geometric properties of the probability distribution with respect to the size of the set of images k. Suprisingly the dimension of the underlying Euclidean space seems to play no role in the convergence rate of the distortion. Following the latter point, the results are directly extended to the case where the underlying space is a Hilbert space, which is the adapted framework when dealing with curve quantization. However, high-dimensional quantization often needs in practical a dimension reduction step, before proceeding to a quantization algorithm. This motivates the following study of a variable selection procedure adapted to the quantization issue. To be more precise, a Lasso type procedure adapted to the quantization framework is studied. The Lasso type penalty applies to the set of image points of the quantizer, in order to obtain sparse image points. The outcome of this procedure is called the Lasso k-means quantizer, and some theoretical results on this quantizer are established, under the margin condition introduced above. First it is proved that the image points of such a quantizer are close to the image points of a sparse quantizer, achieving a kind of tradeoff between excess distortion and size of the support of image points. Then an oracle inequality on the excess distortion of the Lasso k-means quantizer is given, providing a convergence rate of 1/n^(1/2) in expectation. Moreover, the dependency of this convergence rate on different other parameters is precisely described. These theoretical predictions are illustrated with numerical experimentations, showing that the Lasso k-means procedure mainly behaves as expected. However, the numerical experimentations also shed light on some drawbacks concerning the practical implementation of such an algorithm
 
moreShow More Titles
fewerShow Fewer Titles
Audience Level
0
Audience Level
1
  Kids General Special  
Audience level: 0.15 (from 0.02 for Mathémati ... to 0.99 for Nonparamet ...)

Alternative Names
Biau, G.

Languages
English (25)

French (15)

German (1)