Tres capas de caché entre Select e Disk

Cando a túa aplicación dispara unha instrución SELECT, esa consulta case nunca toca un disco xiratorio ou mesmo o almacenamento flash bruto; pasa por tres capas de caché distintas que determinan silenciosamente se a túa resposta chega en microsegundos ou milisegundos. Comprender estas capas é a diferenza entre unha plataforma empresarial que se escala sen esforzo e outra que se abrocha baixo a carga do mundo real.

Que sucede no momento en que unha consulta SELECT deixa a túa aplicación?

No momento en que a súa aplicación envía unha consulta SELECT, entra nunha canalización que a maioría dos desenvolvedores nunca inspeccionan. O motor de base de datos intercepta a solicitude antes de que se produza calquera E/S, analiza o SQL nun plan de execución interno e consulta inmediatamente a súa primeira liña de defensa: a caché de resultados da consulta. Se se executou recentemente unha consulta idéntica con idénticos parámetros, o motor pode devolver un conxunto de resultados almacenados na memoria caché sen tocar unha soa páxina de datos. Ás veces chámase caché de consultas ou caché de resultados e, en cargas de traballo de lectura elevada e pouca escritura, como paneis de análise e módulos de informes, pode eliminar por completo a gran maioría das lecturas do disco.

A idea fundamental aquí é que a caché de consultas é moi sensible ás mutacións de datos. Calquera INSERT, ACTUALIZACIÓN ou BORRAR na táboa subxacente invalida os resultados da caché relevantes. É por iso que os sistemas transaccionais con moita escritura adoitan desactivar a caché de consultas por completo e confían no seu lugar nas capas máis profundas.

Que é o grupo de búfer e por que importa máis do que pensas?

A segunda capa de caché, e sen dúbida a máis importante nos sistemas de produción, é o grupo de búfers (chamado búfer compartido en PostgreSQL, o grupo de búfer de InnoDB en MySQL). Esta é unha rexión de RAM que usa o motor de base de datos para albergar páxinas de datos ás que se accedeu recentemente. Cando unha consulta non se pode servir desde a caché de resultados, o motor comproba se as páxinas de datos requiridas xa residen no grupo de memoria intermedia antes de emitir calquera lectura de disco.

O grupo de memoria intermedia funciona co principio de localización temporal e espacial: é probable que se acceda de novo aos datos aos que se accedeu recentemente, e é probable que se acceda en breve aos datos almacenados preto dos datos aos que se accede. Os administradores de bases de datos axustan o tamaño do grupo de búferes como unha das decisións de configuración de maior aproveitamento que toman. Un grupo de memoria intermedia que é demasiado pequeno provoca o desaloxo constante da páxina, producindo un fenómeno chamado thrashing, no que o sistema dedica máis tempo a xestionar as faltas de caché que a executar consultas.

Información clave: na maioría das cargas de traballo OLTP, un grupo de búferes de tamaño bo significa que entre o 95 e o 99 % de todas as lecturas de datos se serven desde a memoria RAM. O conxunto de traballo (o subconxunto dos teus datos que as consultas realmente tocan con frecuencia) adoita ser moito menor que o tamaño total da base de datos. Dimensionar o seu conxunto de memorias intermedias para que se adapte ao seu conxunto de traballo, non ao conxunto de datos completo, é a única acción de axuste con maior rendemento que pode realizar.

Como enche a caché do sistema operativo o oco entre a RAM e o disco?

Aínda cando se perda a agrupación de búferes da base de datos, unha consulta aínda non está destinada a unha lectura real do disco. O sistema operativo mantén unha caché de páxinas (tamén chamada caché do sistema de ficheiros), unha rexión de memoria RAM xestionada polo núcleo que almacena en búfer as lecturas e as escrituras para bloquear dispositivos. Cando o motor de base de datos solicita unha páxina que está ausente da súa agrupación de memorias intermedias, o núcleo do SO verifica a súa propia caché de páxinas antes de emitir un comando de E/S física ao controlador de almacenamento.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Esta terceira capa é en gran parte invisible para os desenvolvedores de aplicacións, pero é moi importante nos sistemas nos que o grupo de búferes da base de datos está insuficientemente aprovisionado. A caché da páxina do SO compártese en todos os procesos, polo que compite co servidor de aplicacións, servidor web e calquera outro software que se execute no mesmo host. Nos servidores de bases de datos dedicados, esta competencia é mínima e a caché do SO ofrece un búfer significativo de segunda oportunidade. En hosts compartidos ou contedores con límites de memoria limitados, a caché do SO adoita ser demasiado pequena para axudar.

Que capa de caché é a responsable da maior cantidade de vitorias de rendemento na práctica?

Nos sistemas de produción do mundo real, o grupo de búfer domina os resultados de rendemento por unha ampla marxe. Aquí é por que cada capa contribúe de forma diferente nos casos de uso:

Caché de resultados de consulta: o maior beneficio en conxuntos de datos de lectura pesada, principalmente estáticos: consultas de informes, paneis almacenados na memoria caché, puntos finais de contido público. Inútil en táboas con moita escritura.
Agrupación de búferes da base de datos: o cabalo de batalla universal. Cada servidor de bases de datos de produción debe ser sintonizado aquí primeiro. Xestiona os patróns de acceso aleatorios e secuenciais de forma eficiente.
Caché de páxinas do SO: ofrece unha rede de seguridade cando o grupo de memoria intermedia ten un tamaño insuficiente. Tamén axuda significativamente durante as exploracións secuenciais de táboas grandes que, doutro xeito, eliminarían as páxinas activas do grupo de memoria intermedia.
Caché do controlador de almacenamento (capa de hardware): Unha cuarta capa, que moitas veces se pasa por alto: os SSD NVMe e os controladores RAID manteñen cachés de escritura integrados con batería ou capacitor. Isto protexe a durabilidade sen sacrificar o rendemento de escritura a costa da latencia fsync.
Caché da capa de aplicación (Redis, Memcached): sitúase por enriba da base de datos por completo, almacenando na caché resultados de consultas seriadas ou obxectos calculados para evitar entrar na base de datos, ideal para plataformas SaaS de varios arrendatarios que dan servizo a miles de usuarios simultáneos.

Como poden as plataformas empresariais modernas aproveitar a arquitectura de caché para conseguir fiabilidade a escala?

Para as empresas que operan en moitos módulos funcionais (CRM, xestión de proxectos, comercio electrónico, análises), a arquitectura da caché determina directamente a capacidade de resposta da plataforma a medida que os equipos crecen. As plataformas construídas sobre unha estratexia de caché ben en capas poden servir a decenas de miles de usuarios simultáneos sen custo proporcional da infraestrutura. A clave está en deseñar patróns de acceso aos datos que respecten os límites da caché: manter os datos quentes pequenos e os patróns de acceso predicibles, usar réplicas de lectura para distribuír a carga do grupo de memoria intermedia e colocar unha caché da capa de aplicación como Redis diante da base de datos para puntos finais que serven datos idénticos a varios usuarios simultaneamente.

Mewayz está construído pensando exactamente nesta filosofía. Con 207 módulos empresariais integrados que alimentan máis de 138.000 usuarios, a capa de datos da plataforma está deseñada para que a inmensa maioría das lecturas sexan servidas desde a memoria caché, mantendo os tempos de resposta rápidos e os custos de infraestrutura previsibles tanto se estás a executar co plan de inicio de 19 dólares ao mes como no nivel profesional de 49 dólares ao mes.

Preguntas máis frecuentes

Desactivar a caché de consultas mellora sempre o rendemento da base de datos?

Non sempre, pero para cargas de traballo pesadas en escritura adoita facelo. A caché de consultas require un mutex global para manter a coherencia, que se converte nun pescozo de botella en caso de concorrencia elevada. MySQL 8.0 eliminou completamente a caché de consultas por este motivo. PostgreSQL nunca implementou unha caché de consultas integrada, confiando no seu lugar no grupo de búferes e na memoria caché da capa de aplicación. Se a túa proporción de lectura a escritura é alta e as túas consultas son moi repetitivas, unha caché de consultas pode proporcionar beneficios reais; se non, inviste ese esforzo de axuste no grupo de memoria intermedia.

Como podo saber se o meu grupo de memoria intermedia ten o tamaño correcto?

Supervisa o índice de acertos do teu grupo de memoria intermedia: a porcentaxe de solicitudes de páxina servidas desde o grupo fronte ás que requiren unha lectura de disco. Un índice de acertos por debaixo do 95 % nunha carga de traballo OLTP é un sinal para aumentar o tamaño do grupo. En MySQL, consulta MOSTRAR O ESTADO DO MOTOR INNODB e mira a taxa de acertos do grupo de búfer. En PostgreSQL, a vista pg_statio_user_tables expón os bloques do montón lidos desde o disco fronte aos servidos desde o grupo de memoria intermedia. Ten como obxectivo manter todo o teu conxunto de traballo, non o teu conxunto de datos completo, residente na RAM.

Cal é a relación entre as capas de caché e a fiabilidade de SaaS multi-tenant?

En SaaS multi-inquilino, as capas de caché evitan problemas de "veciño ruidoso" nos que a gran carga de consultas dun inquilino degrada o rendemento de todos os demais inquilinos. O almacenamento en caché de aplicacións que admite inquilinos con invalidación baseada en TTL mantén os datos quentes por inquilino en Redis, reducindo drasticamente a presión do grupo de búfer das grandes contas. A agrupación de conexións a nivel de base de datos combinada cunha agrupación de búfer quente garante que a actividade de ráfaga dunha única conta non borre as páxinas compartidas da caché e cause picos de latencia en toda a plataforma.

As capas de caché non son curiosidades de bases de datos; son a base arquitectónica que separa as plataformas que se manteñen a gran escala das que requiren unha loita constante contra os incendios da infraestrutura. Se estás construíndo ou dirixindo unha empresa que necesita unha plataforma xa optimizada para estas realidades, explora Mewayz en app.mewayz.com: 207 módulos, unha plataforma coherente, creada para funcionar de forma fiable desde o teu primeiro usuario ata o teu centenario.

Tres capas de caché entre Select e Disk

Que sucede no momento en que unha consulta SELECT deixa a túa aplicación?

Que é o grupo de búfer e por que importa máis do que pensas?

Como enche a caché do sistema operativo o oco entre a RAM e o disco?

Que capa de caché é a responsable da maior cantidade de vitorias de rendemento na práctica?

Como poden as plataformas empresariais modernas aproveitar a arquitectura de caché para conseguir fiabilidade a escala?

Preguntas máis frecuentes

Desactivar a caché de consultas mellora sempre o rendemento da base de datos?

Como podo saber se o meu grupo de memoria intermedia ten o tamaño correcto?

Cal é a relación entre as capas de caché e a fiabilidade de SaaS multi-tenant?

Try Mewayz — Live

Wait — don't leave empty-handed!

Check your inbox!

Tres capas de caché entre Select e Disk

Que sucede no momento en que unha consulta SELECT deixa a túa aplicación?

Que é o grupo de búfer e por que importa máis do que pensas?

Como enche a caché do sistema operativo o oco entre a RAM e o disco?

Que capa de caché é a responsable da maior cantidade de vitorias de rendemento na práctica?

Como poden as plataformas empresariais modernas aproveitar a arquitectura de caché para conseguir fiabilidade a escala?

Preguntas máis frecuentes

Desactivar a caché de consultas mellora sempre o rendemento da base de datos?

Como podo saber se o meu grupo de memoria intermedia ten o tamaño correcto?

Cal é a relación entre as capas de caché e a fiabilidade de SaaS multi-tenant?

Change Language

Contact Us

Wait — don't leave empty-handed!

Check your inbox!