25 helmikuun, 2022

Kuinka mitata latenssi oikein 7 minuutissa

latenssin mittaaminen oikein edellyttää, että sinulla on laadukkaita tietoja. On syy, että KPMG: n ”2016 Global CEO Outlook” totesi, että 84% toimitusjohtajista ovat huolissaan tietojen laadusta he perustuvat päätöksiä ja se johtuu aivan liian usein tiedot voivat johtaa harhaan.

ero niiden yritysten välillä, jotka välittävät tiedoistaan ja eivät välitä, on valtava. MIT: n tutkijat havaitsivat, että datalähtöisen suunnittelun omaksuneiden yritysten tuotos on 5-6 prosenttia suurempi kuin mitä niiden muiden investointien ja tietotekniikan käytön vuoksi olisi odotettavissa. Jo tämä syy tekee latenssin ymmärtämisestä kriittisen liiketoiminnan menestykselle.

vain 7 minuutissa opit kaiken, mitä sinun tarvitsee tietää latenssin mittaamisesta

  • kuinka mitata latenssi
  • miksi oikein mittaamalla sillä on merkitystä
  • yleiset sudenkuopat, kun tarkastellaan latenssitietojasi
  • välittömän palautteen kriittisyys
  • miksi ottamattomia tietoja tarvitaan

joten mikä on latenssi?

Dictionary.com latenssi määritellään ”viivästysajaksi, kun laitteistojärjestelmän yksi osa odottaa toiminnon suorittamista toisella komponentilla”. Yksinkertaisemmin sanottuna tämä tarkoittaa funktion kutsumisen ja sen varsinaisen suorittamisen välistä aikaa. Latenssi on luonnostaan kaikissa järjestelmissä; vaikka meillä olisi täydellinen järjestelmä (jota ei ole olemassa), se olisi latentti määrä aikaa se vie elektronit tietokoneen vaihtaa transistorit päälle ja pois tai päinvastoin.

pienten operaatioiden latenssi ei ole iso juttu, mutta miljoonia operaatioita käsiteltäessä on miljoonia latensseja, jotka kasautuvat nopeasti. Latenssia ei määrittele työyksikkö/aika vaan se, miten se käyttäytyy. Seurantatyökalut raportoivat, kuinka kauan se kestää toiminnon alusta toiminnon loppuun.

latenssilla voi olla suuri vaikutus liiketoimintaan, esimerkiksi ”mobiilinopeuden suhteen jokaisella sekunnilla on väliä — jokaista lisäsekuntia kohti tarvitaan mobiilisivu lataamiseen, muunnokset voivat pudota jopa 20%”(lähde). On siis ratkaisevan tärkeää ymmärtää viiveesi mahdollisimman hyvin.

yleiset sudenkuopat, kun tarkastellaan Latenssitietoja:

latenssi ei juuri koskaan seuraa normaalia, Gaussin tai Poissonin jakaumaa. Vaikka latenssisi noudattaisikin jotakin näistä jakaumista johtuen tavasta, jolla havaitsemme latenssin, se tekee keskiarvoista, mediaaneista ja jopa standardipoikkeamista hyödyttömiä! Jos esimerkiksi mittaat sivukuormia, 99.999999999% näistä kuormituksista voi olla huonompi kuin mediaanisi. (Klikkaa tweet tämä tilasto) tämä on osasyy siihen, että satunnaisotanta latenssi aiheuttaa epätarkkoja tietoja, mutta lisää tästä myöhemmin.

tässä vaiheessa luultavasti kysyt itseltäsi, Jos emme käytä mitään keskihajontaa, miten voimme mielekkäästi kuvata viiveitä? Vastaus on, että meidän on tarkasteltava Prosenttipisteitä ja Maksimeja. Useimmat ihmiset ajattelevat itsekseen, Okei, joten katson P95 ja ymmärrän ”yleinen tapaus”. Ongelma tässä on se, että P95 aikoo piilottaa kaikki pahat asiat. Kuten Azul Systemsin teknologiajohtaja Gil Tene sanoo ”Se on ”markkinointijärjestelmä”, jotakuta huijataan.”

otetaan esimerkiksi tämä kaavio:

Editorin huomautus: Tämän kuvakaappauksen tuottanut beeinstant-tuote ei ole enää saatavilla, mutta sen ominaisuudet ovat osa Instanan APM-ja Observability-alustaa.

kun näet tämän kaavion, voit selvästi nähdä, miksi se on mediaani ja keskiarvolla ei ole todellista merkitystä, ne eivät näytä ongelma-aluetta. Kun näet 95. prosenttipisteen ampuvan vasemmalle, luulet näkeväsi ongelman ytimen.

tämä ei tietenkään pidä paikkaansa, vaikka kun lähtee tutkimaan, miksi ohjelmassaan oli hikka, ei näe pahinta 5%: a tapahtuneesta. Tällaisen piikin saaminen edellyttää, että top 5% tiedoista on huomattavasti huonompi.

Katso nyt samaa kuvaajaa, joka näyttää myös 99,99: nnen prosenttipisteen:

Editorin huomautus: Tämän kuvakaappauksen tuottanut beeinstant-tuote ei ole enää saatavilla, mutta sen ominaisuudet ovat osa Instanan APM-ja Observability-alustaa.

tuo punainen viiva on 95. prosenttipiste, kun taas vihreä on 99,99.prosenttipiste. Kuten voitte selvästi nähdä 95. prosenttipiste näyttää vain 2 ulos 22 teidän kysymyksiä! Siksi sinun täytyy tarkastella koko spektri tietoja.

siitäkin huolimatta, että moni saattaa ajatella, että viimeisellä 5%: lla tiedoista ei ole niin suurta merkitystä. Toki, se voisi vain olla virtuaalikoneen uudelleenkäynnistys tai hikka järjestelmään, tai jotain, mutta vaikka se on totta jättämällä se, sanot, että se vain ei tapahdu, kun se voisi olla yksi tärkeimmistä asioista voit kohdistaa!

Gil Tenel haluaa esittää rohkean väitteen, että ”numero yksi indikaattori, josta ei pitäisi koskaan päästä eroon, on maksimiarvo. Tuo ei ole melua, se on signaali. Loppu on melua.”Vaikka maksimi on todellakin suuri yksittäinen järjestelmä suuressa mittakaavassa, ei ole usein käytännöllistä tavoitella vain maksimitapausta. Mikään järjestelmä ei ole täydellinen ja hikka ei tapahdu, laajamittaisessa käytännön järjestelmässä, joka pyrkii maksimitapaukseen, on usein hyvä tapa polttaa kehitystiimisi loppuun.

kun katsot 99.99 TH prosenttipistettä, näet mitä tapahtuu suurimmalle osalle asiakkaistasi ja kaikki siellä näkemäsi piikit ovat todellisia ongelmia, kun taas mahdolliset piikit maksimissasi voivat olla vain häiriö järjestelmässäsi. Kun devops joukkueet keskittävät ponnistelunsa näihin pieni hikka he tekevät niin suuri mahdollisuus kustannukset, koska ne eivät voi sen sijaan työskennellä enemmän suuria kysymyksiä.

on merkille pantavaa, että jos 99,99 th ja maksimi ovat hyvin lähellä toisiaan (ja molemmat ovat piikkinä), se on loistava signaali siitä, että tämä on asia, jonka parissa tiimisi pitäisi työskennellä. Tällä tavalla, Gil on oikeassa, että maksimi on suuri signaali, mutta väärässä, että loput tiedot on vain melua. Kuten näet tässä kaaviossa:

Editorin huomautus: kuten edellä, tämän kuvakaappauksen tuottanut tuote ei ole enää saatavilla, mutta sen ominaisuudet ovat osa Instanan APM-ja Observability-alustaa.

meidän 99.99. prosenttipiste ja maksimi edellisestä esimerkistä täsmäävät täsmälleen. Tämä on hyvä signaali siitä, että mitä se on etsit on todellinen vika eikä vain hikka.

keskimääräiset Prosenttipisteet: kuinka Precomputation aiheuttaa sinulle Virhemaininnan myöhästymisen:

vielä pahempaan sudenkuoppaan ihmiset lankeavat kuin vain katsomalla 95. prosenttipistettä ei tajuta, että heidän prosenttipisteensä ovat keskiarvoja. Keskiarvojen laskeminen on tilastollisesti absurdia;se poistaa kaiken merkityksen siitä, mitä katsot. Olemme jo osoittaneet, että keskiarvot eivät ole hyviä, kun tarkastellaan latenssia,ja jos tarkastellaan keskimääräisiä prosenttipisteitä, ollaan yksinkertaisesti takaisin lähtöruutuun. Monien ohjelmistojen keskiarvo sinun prosenttipisteet ottaa esimerkiksi tämä Grafana kaavio:

Tajusitko sen ennen kuin kaikki prosenttipisteet ovat keskitasoa? X-akselin tilikirjassa lukee niin. LÄHES KAIKKI SEURANTAPALVELUT KESKIMÄÄRIN PROSENTTIPISTEET! Tämä on todellisuutta esikomputaation vuoksi. Kun seurantapalvelu ottaa tietosi, he laskevat tietojen prosenttipisteen kyseiselle minuutille.

sitten kun menet katsomaan 95. prosenttipistettäsi, he näyttävät sinulle keskiarvon kaikista prosenttipisteistäsi. Tämä pikanäppäin” hyvää ” tehdä Palvelun nopeammin, on, todellisuudessa, poistaa kaikki tilastollinen merkitys tiedoistasi.

miksi sinulla on oltava Ottamattomia tietoja, jotta latenssi voidaan mitata oikein:

tunsit sitä tai et, ne tuottavat datan näytteenottoon osallistuvien seurantavälineiden avulla keskiarvotietoja. Lähes jokainen seurantaväline näytteitä niiden tiedot. Otetaan esimerkiksi DataDog; heillä on suuria tietojen menetys. Jos lähetät heille 3 miljoonaa pistettä minuutissa, he eivät ota niitä kaikkia. Sen sijaan, he satunnaisesti näyte pistettä sitten koota ne 1 piste minuutissa.

sinulla täytyy olla ottamattomia tietoja ymmärtääksesi viiveesi. On luontaista, että otokseen tietoja et voi käyttää koko Jakelu! Maksimisi ei ole todellinen maksimisi, eikä maailmanlaajuinen prosenttipisteesi ole tarkka esitys siitä, mitä on tekeillä!

Otosaineisto pahentaa koordinoitua laiminlyöntiä!

tietoja otettaessa jätetään pois. Sano esimerkiksi, että sinulla on 10 000 toimintaa tapahtuu minuutissa lähettämällä 2 datapistettä kukin valvontajärjestelmääsi. Sanotaan, että järjestelmässäsi on bugi ja yksi näistä datapisteistä näyttää sen 10 000 operaatiota kohti. Valvontajärjestelmälläsi on vain 1/20,000 mahdollisuus valita tämä datapisteeksi, jonka se näyttää sinulle maksimina!

jos juokset tarpeeksi kauan, datapiste ilmestyy lopulta, mutta sen seurauksena se näyttää satunnaiselta reunatapaukselta, vaikka se tapahtuu yhdelle asiakkaistasi joka minuutti! Kun et näyte tietoja, ja sinulla on yksi näistä piikkejä, se näkyy selvästi teidän 99.99 TH prosenttipiste, ja maksimi näkyy lähellä sitä, signing you have a bug in your program. Kun näyte tietoja, kuitenkin, se ei näy niin usein, eli et näe sitä vika, vaan Hikotus. Tämä tarkoittaa, että insinööritiimisi ei ymmärrä sen merkitystä!

älä anna seurantatyökalusi hämätä sinua luulemaan, että tiedät, mitä Latenssillasi tapahtuu.

Valitse työkalu, joka ei anna otostietoja. Valitse työkalu, joka ei keskiarvoa globaalit prosenttipisteet. Aloita ilmainen kahden viikon kokeilu tänään!

Vastaa

Sähköpostiosoitettasi ei julkaista.