Research question

Published on
Embed video
Share video
Ask about this video

Scene 1 (0s)

[Virtual Presenter] "Herzlich willkommen zu unserem Training über die Anwendung von Sprachmodellen. In den nächsten 15 Minuten werden wir uns damit beschäftigen, wie wir Sprachmodelle auf die effizienteste Art und Weise nutzen können. Mein Name ist [Name], ich unterrichte an einer Hochschule und freue mich, heute meine Expertise zu diesem Thema mit Ihnen zu teilen. Der Titel unserer heutigen Sitzung lautet: "Forschungsfrage: Wie können Sprachmodelle ressourcenschonend eingesetzt werden?" Wir werden uns mit den neuesten Erkenntnissen und Techniken beschäftigen, um Ihnen dabei zu helfen, Ihre Forschungsfrage bestmöglich zu beantworten. Lassen Sie uns beginnen!.

Scene 2 (41s)

[Audio] Im Rahmen unserer Präsentation beschäftigen wir uns heute mit der Frage der effizienten Nutzung von Sprachmodellen. Wir haben 3 verschiedene Modelle mit 4, 8 und 7,3 Milliarden Parametern getestet und festgestellt, dass größere Modelle möglicherweise nicht auf einem Raspberry Pi ausgeführt werden können. Dies kann Auswirkungen auf die Effizienz und den Ressourcenverbrauch haben. Daher ist es wichtig, die Größe und Komplexität von Sprachmodellen sorgfältig zu analysieren und passende Modelle für die gewünschten Anwendungen auszuwählen. Im folgenden Teil unserer Präsentation werden wir uns genauer mit den verschiedenen Modellen, ihren Entwicklern, Parametern, Modellgrößen, Trainingdaten und CO₂-Emissionen befassen. Unser Ziel ist es, Ihnen durch diese Informationen zu ermöglichen, bewusste Entscheidungen zu treffen und Sprachmodelle effizienter einzusetzen..

Scene 3 (1m 41s)

[Audio] As researchers, we are constantly striving to optimize our work in natural language processing. One effective approach is through the use of language models, designed to extract valuable information from large amounts of text. However, as data becomes more complex, we must find ways to use these models efficiently. This is where SQuAD 2.0, a dataset of 50 randomly selected questions and answers, comes into play. It was created for evaluating machine learning models on question-answering tasks and provides a standardized resource for benchmarking and improving their performance. For instance, one question in the dataset is on prime numbers and the main role of primes in number theory. The answer, "The fundamental theorem of arithmetic," is a fundamental concept in number theory. The dataset contains many other valuable questions and answers. In summary, SQuAD 2.0 is a crucial tool for language processing researchers, allowing us to not only benchmark model performance, but also improve our efficiency and accuracy. So, make use of this valuable resource and optimize your work with language models..

Scene 4 (2m 58s)

[Audio] Slide 4: Our research question is 'How can we use language models in the most resource-efficient way possible?' To answer this, we conducted a study using the Raspberry Pi as our system under test. The Raspberry Pi is a popular, low-cost, single-board computer commonly used for education and hobbies. We upgraded to the 8GB version to accommodate larger language models in the RAM. In terms of hardware, we used the Raspberry Pi 5 Model B with a 64-bit quad-core processor and 8GB of RAM. Our software of choice was the latest Raspberry Pi OS, version 12, also known as 'bookworm'. The software used for our research, Ollama, is an open-source development by Umwelt-Campus Birkenfeld and is available on GitHub. Using this combination of hardware and software, we were able to efficiently run our language models on the Raspberry Pi. More details on our findings will be discussed in the upcoming slides. We will continue to explore the use of language models in a resource-efficient manner..

Scene 5 (4m 10s)

[Audio] Wir sind nun bei Folie Nummer 5 von insgesamt 16 Folien unserer Präsentation. Hier geht es um die Forschungsfrage, wie Sprachmodelle effizient genutzt werden können. Zur Beantwortung betrachten wir den Unterschied zwischen zwei verschiedenen Messaufbauten, die in unserem Projekt untersucht wurden. Der Messaufbau auf der linken Seite zeigt, dass das Multimeter zwischen dem Raspberry und der Steckdose platziert ist. Es misst den Stromverbrauch und gibt einen Wert pro Sekunde in Volt und Ampere aus. Der andere Messaufbau auf der rechten Seite zeigt, dass das Multimeter per USB mit einem Laptop verbunden ist und eine Software die Daten aufzeichnet. Wir haben festgestellt, dass dieser Messaufbau die effizienteste Möglichkeit ist, den Energieverbrauch von Sprachmodellen zu messen. Dadurch können wir gezielt optimieren, um die Ressourcen bestmöglich zu nutzen. Auf der nächsten Folie werden wir uns genauer mit den Ergebnissen unserer Untersuchungen beschäftigen..

Scene 6 (5m 10s)

[Audio] In this training video, we will discuss the most resource-efficient way to use language models. This is slide number 6 out of 16. As researchers, we aim to optimize our processes and reduce our environmental impact, including the use of language models. To effectively use these models, we must consider three important factors: correctness, completeness, and relevance. Correctness refers to the accuracy of the generated responses, which can be evaluated with a weighting of 0.5. Completeness, representing the range and variety of responses, will be evaluated with a weighting of 0.3. Lastly, relevance, which considers the applicability and value of the responses to the research question, will be evaluated with a weighting of 0.2. By prioritizing these factors, we can use language models in the most efficient way, taking into account the quality of responses, runtime, and energy consumption. Thank you for attending this presentation. We hope you have a better understanding of how to use language models in a more environmentally-friendly and effective manner. Stay tuned for the remaining slides in our training video. Thank you..

Scene 7 (6m 29s)

[Audio] In this presentation, we will discuss research questions surrounding language models. Slide number 7 will focus on the most resource-efficient way to use these models. On September 8th, 2025, Umwelt-Campus Birkenfeld conducted a study on the quality of generated responses by language models. The study evaluated three weighted factors: correctness, completeness, and relevance. We will dive into the results of this evaluation in slide number 7, as the weighting of these factors has a significant impact on the overall quality of the generated responses. We will analyze each factor individually, starting with correctness, which has a weight of 0.5. This factor measures the accuracy of the language model's responses and is crucial in providing correct information. Next, we will discuss completeness, which has a weight of 0.3. This factor measures the level of detail and comprehensiveness in the responses, ensuring accuracy and relevance. Lastly, we will explore relevance, with a weight of 0.2, which measures how well the responses are related to the input query and satisfying the user's needs. In conclusion, finding the right balance between correctness, completeness, and relevance is crucial in efficiently using language models and providing high-quality responses. Thank you for considering this information and stay tuned for further results in the following slides..

Scene 8 (8m 5s)

[Audio] Heute werden wir uns in der Lektion "Forschungsfragen" mit der effizienten Nutzung von Sprachmodellen beschäftigen. In der vorherigen Lektion haben wir gelernt, wie wir Sprachmodelle für die Forschung einsetzen können. Nun werden wir uns darauf konzentrieren, wie wir diese Modelle am effizientesten nutzen. Wir haben alle Fragen aus unserem Datensatz mit verschiedenen Modellen beantwortet, sowohl manuell als auch mit Hilfe von ChatGPT4-o. Dabei haben wir uns auf die Kriterien Genauigkeit, Vollständigkeit und Relevanz konzentriert. Bei der manuellen Bewertung war das Modell Mistral 7B das beste, auch bei der maschinellen Bewertung mit ChatGPT4-o erzielte dieses Modell die besten Ergebnisse. Somit können wir sagen, dass das Modell Mistral 7B sich am besten für die effiziente Nutzung von Sprachmodellen in der Forschung eignet. Wir haben gesehen, dass dieses Modell die qualitativ besten Antworten generieren kann. In der nächsten Lektion werden wir uns mit der praktischen Anwendung von Sprachmodellen beschäftigen..

Scene 9 (9m 8s)

[Audio] In unserer heutigen Präsentation über Forschungsfragen werden wir uns auf Folie 9 von insgesamt 16 damit beschäftigen, wie wir Sprachmodelle auf die effizienteste Art und Weise nutzen können. Die Resultate, die wir hier sehen, beziehen sich auf die Laufzeitbestimmung unter Verwendung der Anzahl der generierten Tokens pro Sekunde. Ein Token entspricht dabei ungefähr 4 Zeichen englischen Textes. Es ist von großer Bedeutung zu verstehen, wie die Laufzeit der Sprachmodelle mithilfe der generierten Tokens gemessen werden kann, um die Effizienz und Leistungsfähigkeit unserer Modelle besser einzuschätzen. Je schneller und effizienter wir unsere Sprachmodelle einsetzen können, desto schneller kommen wir zu relevanten Ergebnissen. Daher ist es wichtig, die Ressourcen für unsere Forschungsarbeit optimal zu nutzen. Mit diesen Informationen möchte ich Ihnen eine neue Perspektive auf unseren Forschungsprozess geben. Bis zur nächsten Folie..

Scene 10 (10m 13s)

[Audio] "Wir werden uns damit beschäftigen, wie Sprachmodelle auf die bestmögliche Weise genutzt werden können, um Ressourcen zu sparen. Die Geschwindigkeit der Antworten wurde bereits betrachtet und das Modell Phi-3 hat mit 3,514 Token pro Sekunde die schnellste Generierungsgeschwindigkeit gezeigt. Dazu haben wir die Medianwerte untersucht und festgestellt, dass Llama mit 199 das höchste und Phi-3 mit 135 das niedrigste Wert aufweisen. Diese Ergebnisse zeigen, dass Phi-3 nicht nur schnell, sondern auch effizient in der Generierung von Antworten ist. In der nächsten Folie werden wir uns damit beschäftigen, wie wir diese Erkenntnisse in der Praxis anwenden können. Eine gezielte Nutzung von Sprachmodellen kann dazu beitragen, unsere Ressourcen effizienter zu nutzen und somit einen positiven Effekt auf die Umwelt haben. In den verbleibenden sechs Folien werden wir uns weiter mit diesem Thema beschäftigen..

Scene 11 (11m 17s)

[Audio] Slide number 11 will cover the results of our study on energy consumption and the use of language models in a resource-efficient manner. As mentioned in previous slides, language models are essential in areas like natural language processing and artificial intelligence, but their high resource demands are a concern. As educators, it is our responsibility to find ways to optimize their usage. Our study aimed to measure the energy consumption of language models and identify methods for reducing it. We used a device to measure the energy consumption in milliwatt-hours, based on volts and amperes per second. The results showed that the energy consumption is heavily influenced by the weight of the language model. Some cases have shown significantly lower energy consumption with a smaller model weight. The following slides will discuss the significance of model weight and its impact on energy consumption. Striking a balance between weight and performance is crucial in achieving resource efficiency. We will also explore techniques for reducing model weight without compromising accuracy. This not only makes language models more energy-efficient but also conserves resources in the long run. Thank you for your attention. The upcoming slide will address the challenges and solutions in using language models in a resource-efficient manner..

Scene 12 (12m 42s)

[Audio] In unserem zwölften Teil der Präsentation über Forschungsfragen beschäftigen wir uns heute mit der Effizienz von Sprachmodellen und deren optimale Nutzung zur Ressourcenschonung. Wie wir bereits in vorherigen Folien gesehen haben, können Sprachmodelle uns dabei helfen, komplexe Fragen zu beantworten. Doch wie sieht es mit der Geschwindigkeit aus? Nach eingehender Untersuchung haben wir festgestellt, dass das Modell Phi-3 mit 3,514 Token pro Sekunde die schnellste Antwortzeit aufweist. Im Vergleich dazu hat Llama mit 199 Tokens pro Sekunde die höchste Antwortlänge, während Phi-3 mit 135 Tokens pro Sekunde die kürzeste Antwortlänge hat. Nun kommen wir zu unseren Ergebnissen bezüglich des Energieverbrauchs. Wir haben 50 Fragen gestellt und die dafür benötigte Energie gemessen. Dabei hat das Modell Llama mit 3,8B am wenigsten Energie verbraucht, gefolgt von Mistral mit 7B und Phi-3 mit 3,8B. Diese Ergebnisse sind entscheidend für die effiziente Nutzung von Sprachmodellen. Die Auswahl des richtigen Modells für die jeweilige Aufgabe ist dabei von großer Bedeutung, um Zeit und Ressourcen zu sparen. Wir freuen uns darauf, in unserem nächsten Teil die Integration von Sprachmodellen in bestehende Systeme zu behandeln. Vielen Dank für Ihre Aufmerksamkeit und bis zum nächsten Mal..

Scene 13 (14m 16s)

[Audio] In den letzten Jahren ist die Verwendung von Sprachmodellen im Bereich der künstlichen Intelligenz immer wichtiger geworden. Auch in der Forschung werden diese Modelle immer häufiger genutzt, um komplexe Aufgaben zu lösen. Doch wie können wir sie am effizientesten einsetzen? Diese Frage werden wir in diesem Teil unserer Präsentation behandeln. Wir sind nun bei Folie 13 von insgesamt 16, auf der es um die finale Effizienzmetrik geht. Diese Metrik gibt eine Zahl zwischen 0 und 1 basierend auf Energiebedarf, Laufzeit und Qualität der generierten Antworten an. In unseren Experimenten hat sich die Gewichtung der drei Komponenten als besonders wichtig erwiesen. Wir haben uns für eine Gewichtung von 𝑤𝐸 = 0.4, 𝑤𝑇 = 0.3 und 𝑤𝑄 = 0.3 entschieden, wobei der Energiebedarf für uns die größte Rolle spielt. In der Praxis ist es jedoch wichtig, die Gewichtung je nach Anwendungsbereich anzupassen. Zum Beispiel kann es sinnvoller sein, den Energiebedarf höher zu gewichten, während für andere Aufgaben die Laufzeit oder Qualität der Antworten im Vordergrund stehen. Hierbei ist es wichtig, die individuellen Anforderungen der Anwendung zu berücksichtigen, um die bestmögliche Effizienz zu erreichen. Im nächsten Teil unserer Präsentation werden wir uns genauer mit den Auswirkungen der unterschiedlichen Gewichtungen auf die finale Metrik beschäftigen. Wie beeinflussen sie die Effizienz der Sprachmodelle und welche Vorteile ergeben sich für die Anwendung? Diese Fragen werden wir auf Folie 14 von 16 beantworten..

Scene 14 (15m 53s)

[Audio] As we move towards the end of our presentation, let's discuss the most efficient way to use language models. These models have become an integral part of research and development in various fields, but it's becoming more important to use them efficiently as data complexity and size increases. By evaluating metrics for three models - Phi-3, Mistral, and Llama 3, we have found that Phi-3 is the most efficient model on our hardware. It outperforms Mistral and Llama 3 in energy efficiency, duration, and quality. This gives us valuable insight into the effective use of language models. We hope this information will benefit your own research and development projects. Now, let's move on to the final two slides as we conclude our presentation..

Scene 15 (16m 41s)

[Audio] In previous slides, we discussed the benefits of using language models in various industries. Now, the question we will address is how to make the most out of these models in the most efficient way possible. Language models come in different sizes and versions, with varying parameter counts. However, recent studies have shown that even the smallest versions can be used on edge devices without a GPU, allowing us to take advantage of their benefits even with limited resources. Additionally, executing the models on a local edge device ensures data protection. It is important to keep in mind that the time it takes for the model to load into memory may be high, resulting in a longer time to first token. Therefore, it is necessary to critically review the responses generated by the language model, as they are not perfect and our own judgment should be used. As we conclude, let us remember the potential of language models and how to use them efficiently and responsibly..

Scene 16 (17m 45s)

[Audio] Dear students, we have come to the final slide of our presentation on research questions. In this last section, we will be discussing the potential for using language models in the most resource-efficient manner. As we are all aware, conducting experiments is a crucial part of research. In our case, it is necessary to conduct experiments on multiple devices in order to determine the most effective way to use language models. This can involve comparing results from different devices, including laptops, the Nvidia Jetson Orin, and the Raspberry Pi 5. Additionally, we can test out new models, such as the Llama 3.1 and the Google Gemma 2. It is also important to consider experimenting with a larger dataset. The more data we have, the more accurate and reliable our results will be, providing us with a better understanding of how to use language models in the most efficient manner. All of the data and findings from our experiments will be accessible to the public on our platform, https://gitlab.rlp.net/ISS/llms-on-the-edge. We encourage you to explore and analyze the data to further comprehend our results. With that, we have come to the end of our presentation. Thank you for your attention and for joining us in this conversation about research questions. We hope this has been a valuable learning experience for you. Thank you..