WorldCat Identities

Coti, Camille (1984-....).

Overview
Works: 7 works in 8 publications in 2 languages and 9 library holdings
Roles: Opponent, Contributor, Author
Publication Timeline
.
Most widely held works by Camille Coti
Fast machine reassignment by Franck Butelle( )

1 edition published in 2015 in English and held by 2 WorldCat member libraries worldwide

Environnements d'exécution pour applications parallèles communiquant par passage de messages pour les systèmes à grande échelle et les grilles de calcul by Camille Coti( Book )

2 editions published in 2009 in French and held by 2 WorldCat member libraries worldwide

L'environnement d'exécution est un composant clé de l'environnement de programmation et d'exécution d'applications parallèles. Il fournit des services aux processus de l'application parallèle. Parmi ces services, les plus fondamentaux sont la mise en relation des processus entre eux et la transmission des signaux et des entrées-sorties. Cette thèse porte sur l'étude des environnements d'exécution à grande échelle et les services rendus à l'application sur des systèmes de grande taille. La première partie étudie les performances de l'environnement d'exécution à grande échelle et propose une approche centrée sur les topologies pour supporter l'application de manière efficace. La seconde partie étudie un rôle supplémentaire rempli par l'environnement d'exécution dans des systèmes constitué d'un grand nombre de composants avec le support de la tolérance aux défaillances. La troisième et la quatrième partie concernent un type particulier de systèmes à grande échelle avec les grilles de calcul. Ces systèmes présentent des particularités spécifiques à l'utilisation de ressources géographiquement distantes et à l'hétérogénéité de ces ressources. Les problématiques de connectivité sur les grilles de calcul et une extension de l'environnement d'exécution conçue pour y faire face sont présentées dans la troisième partie de cette thèse. La quatrième partie présente une méthode de conception d'applications destinées aux grilles de calcul et des exemples d'applications typiques présentant de bonnes performances
Quasi optimal model checking for concurrent systems by Thi Thanh Huyen Nguyen( )

1 edition published in 2018 in English and held by 1 WorldCat member library worldwide

En effectuant une exploration exhaustive de tous les comportements possibles du système, le model checking fait face au problème de l'explosion de cet espace d'états. Notre but est de vérifier des programmes concurrents. Nous avons proposé de combiner la DPOR et le dépliage dans un algorithme appelé POR basée sur le dépliage. Dans cette thèse, nous prouvons que le calcul des alternatives dans une DPOR optimale est un problème NP-complet. Nous proposons une approche hybride appelée réduction d'ordre partiel quasi-optimale (QPOR). En particulier, nous proposons une nouvelle notion d'alternative k-partielle et un algorithme en temps polynomial. Une autre contribution algorithmique de cette thèse est la représentation des relations de causalité et de conflit dans le dépliage comme un ensemble d'arbres dans lequel les événements sont encodés comme un ou deux nœuds dans deux arbres différents. Nous montrons que vérifier la causalité et le conflit entre deux événements revient à une traversée efficace d'un des deux arbres. Nous détaillons l'implémentation de l'algorithme et les structures de données utilisées dans un nouvel outil. Outre les améliorations algorithmiques garanties par QPOR, la parallélisation est un autre moyen d'accélérer l'exploration. Par conséquent, nous proposons un algorithme de QPOR parallèle. Enfin, nous présentons des expériences sur l'implémentation séquentielle de QPOR et comparons les résultats avec d'autres outils de test et de vérification afin d'évaluer l'efficacité de nos algorithmes. L'analyse des résultats montre que notre outil présente de meilleures performances que ceux-ci
Calcul haute performance : vers de meilleures prédictions de performance et expériences by Tom Cornebize( )

1 edition published in 2021 in English and held by 1 WorldCat member library worldwide

The scientific community relies more and more on computations, notably for numerical simulation and data processing. While many scientific advances were made possible by the technological progress of computers, additional performance gains are still required for larger scale projects.The race for performance is addressed with a growing hardware and software complexity, which in turn increases the performance variability. This can make the experimental study of performance extremely challenging, raising concerns of reproducibility of the experiments, akin to the problems already faced by natural sciences.Our contributions are twofold. First, we present a methodology for predicting the performance of parallel non-trivial applications through simulation. We describe several models for communications and computations, with an increasing complexity. We compare these models through an extensive validation by matching our predictions with real experiments. This validation shows that modeling the spatial and temporal variability of the platform is essential for faithful predictions. As a consequence, predictions require careful sensibility analysis accounting for the uncertainty on the resource models, which we illustrate through several case studies. Second, we present the lessons learned while making the numerous experiments required in the first part and how we improved our methodology. We show that measurements can suffer from multiple experimental biases and we explain how some of these biases can be overcome. We also present how we implemented systematic performance non-regression testing, which allowed us to detect many significant changes of the platform throughout this thesis
Modélisation de performance et simulation d'applications OpenMP by Idriss Daoudi( )

1 edition published in 2021 in French and held by 1 WorldCat member library worldwide

Anticipating the behavior of applications, studying, and designing algorithms are some of the most important purposes for the performance and correction studies about simulations and applications relating to intensive computing. Many frameworks were designed to simulate large distributed computing infrastructures and the applications running on them. At the node level, some frameworks have also been proposed to simulate task-based parallel applications. However, one missing critical capability from these works is the ability to take Non-Uniform Memory Access (NUMA) effects into account, even though virtually every HPC (High Performance Computing) platform nowadays exhibits such effects. We model different shared-memory architectures by performing our own measures in order to obtain their characteristics. We thus present in this PhD a new simulator for dependency-based task-parallel applications, that enables experimenting with multiple data locality models. It is based on collecting a trace of the sequential execution of the targeted application using the standard OpenMP tracing interface, OMPT (OpenMP Trace). We also introduce three models, two of them being locality-aware performance models: a first model that only takes into account tasks execution time, a lightweight model that uses topology information to weight data transfers, and eventually a more complex model that takes into account data storage in the LLC (Last Level Cache, generally L3). We validate both models on dense linear algebra test cases and show that, on average, our simulator reproducibly and quickly predicts execution time with a small relative error and allows the experimentation and studying of various scheduling heuristics
High Performance Parallel Algorithms for Tensor Decompositions by Oguz Kaya( )

1 edition published in 2017 in English and held by 1 WorldCat member library worldwide

La factorisation des tenseurs est au coeur des méthodes d'analyse des données massives multidimensionnelles dans de nombreux domaines, dont les systèmes de recommandation, les graphes, les données médicales, le traitement du signal, la chimiométrie, et bien d'autres.Pour toutes ces applications, l'obtention rapide de la décomposition des tenseurs est cruciale pour pouvoir traiter manipuler efficacement les énormes volumes de données en jeu.L'objectif principal de cette thèse est la conception d'algorithmes pour la décomposition de tenseurs multidimensionnels creux, possédant de plusieurs centaines de millions à quelques milliards de coefficients non-nuls. De tels tenseurs sont omniprésents dans les applications citées plus haut.Nous poursuivons cet objectif via trois approches.En premier lieu, nous proposons des algorithmes parallèles à mémoire distribuée, comprenant des schémas de communication point-à-point optimisés, afin de réduire les coûts de communication. Ces algorithmes sont indépendants du partitionnement des éléments du tenseur et des matrices de faible rang. Cette propriété nous permet de proposer des stratégies de partitionnement visant à minimiser le coût de communication tout en préservant l'équilibrage de charge entre les ressources. Nous utilisons des techniques d'hypergraphes pour analyser les paramètres de calcul et de communication de ces algorithmes, ainsi que des outils de partitionnement d'hypergraphe pour déterminer des partitions à même d'offrir un meilleur passage à l'échelle. Deuxièmement, nous étudions la parallélisation sur plate-forme à mémoire partagée de ces algorithmes. Dans ce contexte, nous déterminons soigneusement les tâches de calcul et leur dépendances, et nous les exprimons en termes d'une structure de données idoine, et dont la manipulation permet de révéler le parallélisme intrinsèque du problème. Troisièmement, nous présentons un schéma de calcul en forme d'arbre binaire pour représenter les noyaux de calcul les plus coûteux des algorithmes, comme la multiplication du tenseur par un ensemble de vecteurs ou de matrices donnés. L'arbre binaire permet de factoriser certains résultats intermédiaires, et de les ré-utiliser au fil du calcul. Grâce à ce schéma, nous montrons comment réduire significativement le nombre et le coût des multiplications tenseur-vecteur et tenseur-matrice, rendant ainsi la décomposition du tenseur plus rapide à la fois pour la version séquentielle et la version parallèle des algorithmes.Enfin, le reste de la thèse décrit deux extensions sur des thèmes similaires. La première extension consiste à appliquer le schéma d'arbre binaire à la décomposition des tenseurs denses, avec une analyse précise de la complexité du problème et des méthodes pour trouver la structure arborescente qui minimise le coût total. La seconde extension consiste à adapter les techniques de partitionnement utilisées pour la décomposition des tenseurs creux à la factorisation des matrices non-négatives, problème largement étudié et pour lequel nous obtenons des algorithmes parallèles plus efficaces que les meilleurs actuellement connus.Tous les résultats théoriques de cette thèse sont accompagnés d'implémentations parallèles,aussi bien en mémoire partagée que distribuée. Tous les algorithmes proposés, avec leur réalisation sur plate-forme HPC, contribuent ainsi à faire de la décomposition de tenseurs un outil prometteur pour le traitement des masses de données actuelles et à venir
A parallel iterative solver for large sparse linear systems enhanced with randomization and GPU accelerator, and its resilience to soft errors by Aygul Jamal( )

1 edition published in 2017 in English and held by 1 WorldCat member library worldwide

In this PhD thesis, we address three challenges faced by linear algebra solvers in the perspective of future exascale systems: accelerating convergence using innovative techniques at the algorithm level, taking advantage of GPU (Graphics Processing Units) accelerators to enhance the performance of computations on hybrid CPU/GPU systems, evaluating the impact of errors in the context of an increasing level of parallelism in supercomputers. We are interested in studying methods that enable us to accelerate convergence and execution time of iterative solvers for large sparse linear systems. The solver specifically considered in this work is the parallel Algebraic Recursive Multilevel Solver (pARMS), which is a distributed-memory parallel solver based on Krylov subspace methods.First we integrate a randomization technique referred to as Random Butterfly Transformations (RBT) that has been successfully applied to remove the cost of pivoting in the solution of dense linear systems. Our objective is to apply this method in the ARMS preconditioner to solve more efficiently the last Schur complement system in the application of the recursive multilevel process in pARMS. The experimental results show an improvement of the convergence and the accuracy. Due to memory concerns for some test problems, we also propose to use a sparse variant of RBT followed by a sparse direct solver (SuperLU), resulting in an improvement of the execution time.Then we explain how a non intrusive approach can be applied to implement GPU computing into the pARMS solver, more especially for the local preconditioning phase that represents a significant part of the time to compute the solution. We compare the CPU-only and hybrid CPU/GPU variant of the solver on several test problems coming from physical applications. The performance results of the hybrid CPU/GPU solver using the ARMS preconditioning combined with RBT, or the ILU(0) preconditioning, show a performance gain of up to 30% on the test problems considered in our experiments.Finally we study the effect of soft fault errors on the convergence of the commonly used flexible GMRES (FGMRES) algorithm which is also used to solve the preconditioned system in pARMS. The test problem in our experiments is an elliptical PDE problem on a regular grid. We consider two types of preconditioners: an incomplete LU factorization with dual threshold (ILUT), and the ARMS preconditioner combined with RBT randomization. We consider two soft fault error modeling approaches where we perturb the matrix-vector multiplication and the application of the preconditioner, and we compare their potential impact on the convergence of the solver
 
Audience Level
0
Audience Level
1
  General Special  
Audience level: 0.95 (from 0.89 for Fast machi ... to 0.99 for A parallel ...)

WorldCat IdentitiesRelated Identities
Alternative Names
Camille Coti onderzoeker

Languages